Meta, das Unternehmen hinter Facebook, hat kürzlich in seinem Engineering-Blog einen Blick hinter die Kulissen gewährt. Und zwar ging es um ihre KI-Cluster-Infrastruktur. Ja, du hast richtig gehört, KI-Cluster-Infrastruktur. Klingt nach etwas, das von einem Science-Fiction-Film stammen könnte, oder?
Nun, Meta setzt Künstliche Intelligenz in so ziemlich allem ein, was sie tun. Ihr Ziel ist es, eine allgemeine KI zu entwickeln, die in der Lage ist, in allen möglichen Bereichen zu arbeiten. Keine Einschränkungen mehr für die KI! Sie soll nicht nur Katzenbilder erkennen können, sondern auch komplizierte mathematische Probleme lösen und vielleicht sogar ein paar gute Witze erzählen können. Hey, man kann ja träumen, oder?
Um ihre KI-Systeme zu trainieren, nutzt Meta riesige Cluster mit insgesamt 24.576 H100-Beschleunigern von NVIDIA. Das ist schon eine beeindruckende Menge an Rechenkraft. Zum Vergleich: Der neunt-schnellste Supercomputer der Welt hat gerade mal 4.096 Beschleuniger. Meta hat also definitiv die Nase vorn.
Momentan arbeiten sie daran, ihr nächstes KI-Modell namens Llama 3 zu trainieren. Und dabei wird deutlich, wie wichtig die Verbindungen zwischen den Clustern sind. Sie nutzen Remote Direct Memory Access (RDMA) über Ethernet und InfiniBand mit einer Geschwindigkeit von 400 GBit/s. Klingt nach einem Wettrennen im Internet, bei dem die Datenpakete um die Wette flitzen.
Eine der größten Herausforderungen beim Skalieren solcher Cluster ist es, die vielen Beschleuniger zu integrieren. Das ist so, als ob man versucht, eine ganze Herde Alpakas in einen Aufzug zu quetschen. Nicht leicht, aber Meta hat es geschafft. Sie haben sogar eine konstante Auslastung von 90 % erreicht. Das ist beeindruckend! Kein Leerlauf mehr für die Beschleuniger, sie werden ordentlich gefordert.
Für das Jahr 2024 plant Meta, satte 350.000 H100-Beschleuniger einzusetzen. Das sind so viele, dass man denken könnte, sie wollen die menschliche Rasse mit einer Armee von KI-gepowerten Robotern unterwerfen. Aber nein, es geht nur darum, ihre KI noch mächtiger zu machen. Hoffentlich haben sie einen Plan für den Fall, dass die Beschleuniger die Macht an sich reißen wollen. Denn wer weiß, was diese kleinen Rechenkünstler so alles anstellen könnten.
Nun, wir können gespannt sein, wie sich Meta’s KI-Cluster-Abenteuer weiterentwickelt. Vielleicht werden wir in ein paar Jahren von einer KI regiert, die ihre eigenen Facebook-Posts verfasst und süße Katzenbilder teilt. Oder vielleicht haben wir einfach nur einen weiteren Grund, um uns über unsere Beschleuniger-Abhängigkeit Gedanken zu machen.
Schlagwörter: Meta + NVIDIAs Quantum2 InfiniBand + RoCE
Wie bewerten Sie den Schreibstil des Artikels?
