Ein neuer Benchmark, „Humanity’s Last Exam“ (HLE), zeigt deutlich, dass große Sprachmodelle (LLMs) wie GPT-4 noch weit von menschlichen Experten entfernt sind. Obwohl LLMs in Benchmarks wie MMLU mit über 90 % Genauigkeit glänzen, haben diese Tests ihre Relevanz verloren, da sie den aktuellen Stand der Technik nicht mehr adäquat widerspiegeln.
Angesichts dieser Herausforderung schufen Forscher aus dem Center for AI Safety (CAIS) und Scale AI einen neuen Standard: HLE. Dieser Benchmark, basierend auf 3000 Fragen in Bereichen wie Mathematik, Geistes- und Naturwissenschaften, wurde von über 1000 Experten aus 50 Ländern konzipiert. Multiple-Choice- und Kurzantwortformate ermöglichen eine automatische Bewertung. Jede Frage besitzt eine eindeutige, überprüfbare Lösung, die nicht mit gängigen Online-Recherchen schnell gefunden werden kann.
Die Ergebnisse sind alarmierend: Spitzenmodelle wie GPT-4 erreichen bei HLE nur unter 10 % korrekte Antworten. Dieser tiefe Leistungsgraben verdeutlicht die erhebliche Kluft zwischen den aktuellen LLM-Fähigkeiten und dem Wissensstand menschlicher Experten in komplexen, geschlossenen Fragestellungen.
Ein Hoffnungsschimmer: Das neu vorgestellte chinesische Modell DeepSeek zeigte beim HLE vergleichsweise gute Ergebnisse und liefert somit Ansätze für zukünftige Entwicklungen im Bereich der KI-Expertise. HLE ist ein wichtiger Schritt zur objektiven Bewertung von LLMs und markiert die Notwendigkeit weitergehender Forschung, um KI in Richtung menschlicher Kompetenz zu entwickeln.
(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com
Schlagwörter: HLE + Humanity + Last Exam
Wie bewerten Sie den Schreibstil des Artikels?
