{"id":8590,"date":"2024-06-12T15:34:12","date_gmt":"2024-06-12T15:34:12","guid":{"rendered":"https:\/\/byte-bucket.com\/2024\/06\/12\/mlperf-training-v4-0-neue-erkenntnisse-zur-leistungsfaehigkeit-von-amd-nvidia-intel-und-google-tpu-v5p\/"},"modified":"2024-06-12T15:34:12","modified_gmt":"2024-06-12T15:34:12","slug":"mlperf-training-v4-0-neue-erkenntnisse-zur-leistungsfaehigkeit-von-amd-nvidia-intel-und-google-tpu-v5p","status":"publish","type":"post","link":"https:\/\/byte-bucket.com\/?p=8590","title":{"rendered":"MLPerf Training v4.0: Neue Erkenntnisse zur Leistungsf\u00e4higkeit von AMD, NVIDIA, Intel und Google TPU-v5p"},"content":{"rendered":"<p>MLPerf ist eine super coole Initiative, die geniale Hardware f\u00fcr maschinelles Lernen in Rechenzentren untersucht. Die neuesten Ergebnisse von MLPerf geben uns wertvolle Informationen \u00fcber die Leistungsf\u00e4higkeit von Unternehmen wie AMD, NVIDIA und Intel. Aber leider ist es manchmal etwas schwierig, diese Daten von Dritten \u00fcberpr\u00fcfen zu lassen.<\/p>\n<p>In der aktuellen Runde hat AMD offiziell nicht teilgenommen, daher sind die Beschleuniger Instinct MI300X und Instinct MI300A erneut nicht dabei. Das ist echt schade, denn dadurch fehlen uns weiterhin Vergleichswerte zur Konkurrenz. Auch Intels Gaudi 3 spielt in dieser Runde noch keine gro\u00dfe Rolle, da die Hardware voraussichtlich erst im dritten Quartal auf den Markt kommen wird.<\/p>\n<p>Aber hey, wir haben auch gute Neuigkeiten! In dieser Runde ist zum ersten Mal Googles TPU-v5p dabei. Das ist echt aufregend, denn diese Teilnahme liefert uns vielversprechende Ergebnisse zur Skalierbarkeit der TPUs. Die offiziellen Ergebnisse von MLPerf Training v4.0 zeigen uns, dass die Skalierung der Google TPU-v5p-Beschleuniger abh\u00e4ngig von der Anzahl der Beschleuniger unterschiedliche Leistungen erzielt. F\u00fcr die GPT3-Anwendung dauert es beispielsweise 144,791 Minuten mit 512 Beschleunigern, w\u00e4hrend es nur 56,948 Minuten mit 1.024 Beschleunigern ben\u00f6tigt. Mit 1.536 Beschleunigern reduziert sich die Zeit auf 39,745 Minuten und mit 6,144 Beschleunigern auf 12,477 Minuten. Das sind echt beeindruckende Zahlen!<\/p>\n<p>Im Vergleich dazu ben\u00f6tigt Intels Gaudi 2 mit 1.024 Beschleunigern 66,906 Minuten und NVIDIA H100 mit 512 Beschleunigern 50,728 Minuten, w\u00e4hrend es mit 11,606 Beschleunigern nur 3,444 Minuten dauert. Dabei m\u00fcssen wir aber auch bedenken, dass die Gr\u00f6\u00dfe der Cluster stark variiert und auch die notwendige Infrastruktur und Host-Systeme beinhaltet.<\/p>\n<p>Wenn wir die Ergebnisse mit derselben Anzahl an Beschleunigern vergleichen, hat NVIDIA definitiv einen klaren Vorteil gegen\u00fcber Google TPU v5p. NVIDIA kann das Training von GPT3 um das Dreifache schneller abschlie\u00dfen. Intel hingegen zeigt mit seinem Gaudi 2 immer noch eine solide Leistung im Vergleich zu Google TPU v5p. Es ist auch erw\u00e4hnenswert, dass ein System mit acht Gaudi 2 nur etwa 80.000 US-Dollar kostet, w\u00e4hrend bei NVIDIA schnell mal 300.000 Euro oder mehr anfallen. Das sind schon beachtliche Unterschiede!<\/p>\n<p>Was mich auch echt beeindruckt, ist wie gut NVIDIA mittlerweile seine Systeme skalieren kann. Ihr Supercomputer EOS belegt den 10. Platz in der Top500 und nutzt unglaubliche 11,606 H100-Beschleuniger. Damit l\u00e4sst sich GPT3 in nur 3,444 Minuten trainieren. Fr\u00fcher h\u00e4tte dieser Prozess Wochen oder sogar Monate gedauert. Das ist echt der Wahnsinn!<\/p>\n<p>NVIDIA hat auch ihre Hopper-Beschleuniger H200 aktualisiert. Die neuen H200-Beschleuniger verf\u00fcgen \u00fcber 141 GB HBM3e im Vergleich zu den bisherigen 80 GB HBM3. Die bisherigen Ergebnisse wurden auf einem DGX-System mit acht H200-Beschleunigern erzielt, daher sind noch keine gr\u00f6\u00dferen Cluster enthalten. Die Ergebnisse zeigen aber, dass die H200-Beschleuniger in vielen F\u00e4llen keinen signifikanten Vorteil bieten, da sie nur von ihrem gr\u00f6\u00dferen Speicher profitieren. Es gibt jedoch einige Anwendungen, in denen die Leistungssteigerungen etwas gr\u00f6\u00dfer ausfallen. Das ist doch schon mal was!<\/p>\n<p>Die offiziellen Ergebnisse von MLPerf Training v4.0 enthalten auch Informationen zur Leistungsaufnahme und neuen Effizienzmetriken, die von Sustainable Metal Cloud (SMC) bereitgestellt wurden. Das ist echt super wichtig, denn f\u00fcr viele Nutzer sind nicht nur die reine Leistung, sondern auch die Time-to-Train (TTT) und die Energy-to-Train (ETT) wichtige Indikatoren.<\/p>\n<p>Ein Beispiel hierf\u00fcr ist das Fine-Tuning eines LLMs (Llama2 mit 70 Milliarden Parametern). Mit acht H200-Beschleunigern dauert es ungef\u00e4hr 30 Minuten, w\u00e4hrend es mit 64 Beschleunigern nur ein Sechstel der Zeit ben\u00f6tigt, aber der Energieverbrauch um das Vierfache steigt. Da muss man echt eine Balance zwischen Geschwindigkeit und Effizienz finden. Ein schnelles Training ist f\u00fcr manche Nutzer entscheidend, w\u00e4hrend Anbieter von Compute-Instanzen gro\u00dfen Wert auf Effizienz legen. Es gibt einen Sweet-Spot, der beide Aspekte erf\u00fcllen kann. Die Ergebnisse von MLPerf Training v4.0 geben uns interessante Erkenntnisse \u00fcber den Energieverbrauch und potenzielle Auswirkungen auf die Energieeffizienz.<\/p>\n<p>F\u00fcr alle, die noch mehr Details und detaillierte Ergebnisse suchen, empfehle ich einen Blick in die offiziellen Ergebnisse von MLPerf Training v4.0. Da gibt es noch viel mehr zu entdecken!<\/p>\n<p>Schlagw\u00f6rter: NVIDIA H100 + Google TPU-v5p Beschleuniger Beschleuniger Anzahl + H200<\/p>\n","protected":false},"excerpt":{"rendered":"<p>MLPerf ist eine super coole Initiative, die geniale Hardware f\u00fcr maschinelles Lernen in Rechenzentren untersucht. Die neuesten Ergebnisse von MLPerf geben uns wertvolle Informationen \u00fcber die Leistungsf\u00e4higkeit von Unternehmen wie AMD, NVIDIA und Intel. Aber leider ist es manchmal etwas schwierig, diese Daten von Dritten \u00fcberpr\u00fcfen zu lassen. In der&#46;&#46;&#46;<\/p>\n","protected":false},"author":4,"featured_media":8589,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-8590","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/8590","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=8590"}],"version-history":[{"count":0,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/8590\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/media\/8589"}],"wp:attachment":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=8590"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=8590"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=8590"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}