MLCommons präsentiert Inference-4.0-Ergebnisse: NVIDIA H200-Beschleuniger setzt neue Maßstäbe für Datacenter-Hardware
MLCommons, ein Zusammenschluss verschiedener Hersteller, hat es sich zum Ziel gesetzt, unabhängige und vergleichbare Benchmarks für Datacenter-Hardware anzubieten. Kürzlich wurden die Ergebnisse der Inference-Runde 4.0 veröffentlicht, in der eine neue Neuigkeit präsentiert wurde: Der H200-Beschleuniger von NVIDIA feierte sein Debüt. Dieser Beschleuniger nutzt die Hopper-Architektur und hat die gleiche Ausbaustufe wie der H200-Beschleuniger von NVIDIA, unterscheidet sich jedoch dadurch, dass er anstelle von 80 GB HBM2 auf 141 GB HBM3E setzt. In zukünftigen KI-Beschleunigern wird voraussichtlich HBM3E verwendet werden.
NVIDIA hat außerdem die Blackwell-GPU mit HBM3E angekündigt, während AMD plant, seine Instinct-MI300A/X-Beschleuniger auf HBM3E umzurüsten. Insbesondere beim Inferencing und Training von Large Language Models (LLMs) zeigt sich die Auswirkung der hohen Bandbreite des schnelleren Speichers. Es ist daher nicht überraschend, dass die Hardwarehersteller derzeit ihre Aufmerksamkeit auf Generative AI und LLMs richten, da sich fast alles im Datacenter-Umfeld darauf konzentriert.
Im Rahmen der Inference-4.0-Ergebnisse erhalten wir nun einen ersten unabhängigen Vergleich zwischen NVIDIAs H100-Beschleuniger, dem neu eingeführten H200-Beschleuniger und dem Gaudi-2-Beschleuniger von Intel. Der Bedarf im Bereich der Datacenter-Anwendung verschiebt sich zunehmend in Richtung Inferencing. Nachdem bestehende Modelle trainiert wurden, erfolgt oft nur noch das Inferencing. NVIDIA prognostiziert, dass derzeit 40% der Hardware für das Inferencing verwendet wird und erwartet, dass dieser Anteil in Zukunft weiter steigen wird. Aus diesem Grund hat NVIDIA die Blackwell-GPU speziell für das Inferencing entwickelt.
Einige ausgewählte Ergebnisse der Leistungstests zeigen, dass die H200-Beschleuniger von NVIDIA im Server-Bereich eine höhere Punktzahl erreichen als der H100-Beschleuniger. Auch im Offline-Bereich ist die Leistung des H200-Beschleunigers höher. Die H200-Beschleuniger sind mindestens viermal schneller als die Gaudi-2-Beschleuniger von Intel. Im Vergleich zum H100 erreicht der H200 eine Leistungssteigerung von 30% bei 700 W. Durch die Verwendung der Custom Cooling Solution (CTS) kann die Leistung des H200 um bis zu 45% gesteigert werden. Es ist jedoch zu beachten, dass die CTS-Lösung einen höheren Stromverbrauch von 1.000 W aufweist, jedoch nur um 15% schneller ist. In dieser Konfiguration arbeiten die H200-Beschleuniger also außerhalb ihres idealen Betriebsfensters.
Es besteht die Möglichkeit, DGX- und MGX-Systeme mit H100-Beschleunigern auf H200-Beschleuniger zu aktualisieren. Die kommenden B100-Beschleuniger werden ebenfalls Drop-in-kompatibel sein. Die ersten H200-Beschleuniger wurden bereits an Cloud Service Provider und OEMs versendet und die Marktverfügbarkeit steht kurz bevor. Die Inferencing-Ergebnisse enthalten keine Informationen zu den Instinct-MI300A/X-Beschleunigern, jedoch ist Intel mit dem Gaudi-2 vertreten. Wie bereits in den Benchmarks festgestellt wurde, kann der Gaudi-2-Beschleuniger in Bezug auf die Leistung nicht mit den NVIDIA-Beschleunigern mithalten. Intel bietet jedoch ein besseres Preis-Leistungs-Verhältnis.
Insgesamt zeigen die Ergebnisse der Inference-4.0-Runde die Leistungsfähigkeit der neuen H200-Beschleuniger von NVIDIA im Vergleich zu anderen Modellen. Die steigende Bedeutung des Inferencings im Datacenter-Umfeld spiegelt sich in der Entwicklung der Hardware wider. Die kommenden HBM3E-basierten Beschleuniger werden voraussichtlich noch bessere Leistungen bieten. Es bleibt spannend zu beobachten, wie sich der Markt in diesem Bereich weiterentwickeln wird.
Schlagwörter: NVIDIAs H100 + H200 + 15487.46 XX Intel
Wie bewerten Sie den Schreibstil des Artikels?