MLPerf Training v4.0: Neue Erkenntnisse zur Leistungsfähigkeit von AMD, NVIDIA, Intel und Google TPU-v5p
MLPerf ist eine super coole Initiative, die geniale Hardware für maschinelles Lernen in Rechenzentren untersucht. Die neuesten Ergebnisse von MLPerf geben uns wertvolle Informationen über die Leistungsfähigkeit von Unternehmen wie AMD, NVIDIA und Intel. Aber leider ist es manchmal etwas schwierig, diese Daten von Dritten überprüfen zu lassen.
In der aktuellen Runde hat AMD offiziell nicht teilgenommen, daher sind die Beschleuniger Instinct MI300X und Instinct MI300A erneut nicht dabei. Das ist echt schade, denn dadurch fehlen uns weiterhin Vergleichswerte zur Konkurrenz. Auch Intels Gaudi 3 spielt in dieser Runde noch keine große Rolle, da die Hardware voraussichtlich erst im dritten Quartal auf den Markt kommen wird.
Aber hey, wir haben auch gute Neuigkeiten! In dieser Runde ist zum ersten Mal Googles TPU-v5p dabei. Das ist echt aufregend, denn diese Teilnahme liefert uns vielversprechende Ergebnisse zur Skalierbarkeit der TPUs. Die offiziellen Ergebnisse von MLPerf Training v4.0 zeigen uns, dass die Skalierung der Google TPU-v5p-Beschleuniger abhängig von der Anzahl der Beschleuniger unterschiedliche Leistungen erzielt. Für die GPT3-Anwendung dauert es beispielsweise 144,791 Minuten mit 512 Beschleunigern, während es nur 56,948 Minuten mit 1.024 Beschleunigern benötigt. Mit 1.536 Beschleunigern reduziert sich die Zeit auf 39,745 Minuten und mit 6,144 Beschleunigern auf 12,477 Minuten. Das sind echt beeindruckende Zahlen!
Im Vergleich dazu benötigt Intels Gaudi 2 mit 1.024 Beschleunigern 66,906 Minuten und NVIDIA H100 mit 512 Beschleunigern 50,728 Minuten, während es mit 11,606 Beschleunigern nur 3,444 Minuten dauert. Dabei müssen wir aber auch bedenken, dass die Größe der Cluster stark variiert und auch die notwendige Infrastruktur und Host-Systeme beinhaltet.
Wenn wir die Ergebnisse mit derselben Anzahl an Beschleunigern vergleichen, hat NVIDIA definitiv einen klaren Vorteil gegenüber Google TPU v5p. NVIDIA kann das Training von GPT3 um das Dreifache schneller abschließen. Intel hingegen zeigt mit seinem Gaudi 2 immer noch eine solide Leistung im Vergleich zu Google TPU v5p. Es ist auch erwähnenswert, dass ein System mit acht Gaudi 2 nur etwa 80.000 US-Dollar kostet, während bei NVIDIA schnell mal 300.000 Euro oder mehr anfallen. Das sind schon beachtliche Unterschiede!
Was mich auch echt beeindruckt, ist wie gut NVIDIA mittlerweile seine Systeme skalieren kann. Ihr Supercomputer EOS belegt den 10. Platz in der Top500 und nutzt unglaubliche 11,606 H100-Beschleuniger. Damit lässt sich GPT3 in nur 3,444 Minuten trainieren. Früher hätte dieser Prozess Wochen oder sogar Monate gedauert. Das ist echt der Wahnsinn!
NVIDIA hat auch ihre Hopper-Beschleuniger H200 aktualisiert. Die neuen H200-Beschleuniger verfügen über 141 GB HBM3e im Vergleich zu den bisherigen 80 GB HBM3. Die bisherigen Ergebnisse wurden auf einem DGX-System mit acht H200-Beschleunigern erzielt, daher sind noch keine größeren Cluster enthalten. Die Ergebnisse zeigen aber, dass die H200-Beschleuniger in vielen Fällen keinen signifikanten Vorteil bieten, da sie nur von ihrem größeren Speicher profitieren. Es gibt jedoch einige Anwendungen, in denen die Leistungssteigerungen etwas größer ausfallen. Das ist doch schon mal was!
Die offiziellen Ergebnisse von MLPerf Training v4.0 enthalten auch Informationen zur Leistungsaufnahme und neuen Effizienzmetriken, die von Sustainable Metal Cloud (SMC) bereitgestellt wurden. Das ist echt super wichtig, denn für viele Nutzer sind nicht nur die reine Leistung, sondern auch die Time-to-Train (TTT) und die Energy-to-Train (ETT) wichtige Indikatoren.
Ein Beispiel hierfür ist das Fine-Tuning eines LLMs (Llama2 mit 70 Milliarden Parametern). Mit acht H200-Beschleunigern dauert es ungefähr 30 Minuten, während es mit 64 Beschleunigern nur ein Sechstel der Zeit benötigt, aber der Energieverbrauch um das Vierfache steigt. Da muss man echt eine Balance zwischen Geschwindigkeit und Effizienz finden. Ein schnelles Training ist für manche Nutzer entscheidend, während Anbieter von Compute-Instanzen großen Wert auf Effizienz legen. Es gibt einen Sweet-Spot, der beide Aspekte erfüllen kann. Die Ergebnisse von MLPerf Training v4.0 geben uns interessante Erkenntnisse über den Energieverbrauch und potenzielle Auswirkungen auf die Energieeffizienz.
Für alle, die noch mehr Details und detaillierte Ergebnisse suchen, empfehle ich einen Blick in die offiziellen Ergebnisse von MLPerf Training v4.0. Da gibt es noch viel mehr zu entdecken!
Schlagwörter: NVIDIA H100 + Google TPU-v5p Beschleuniger Beschleuniger Anzahl + H200
Wie bewerten Sie den Schreibstil des Artikels?
