{"id":11567,"date":"2025-02-04T13:09:09","date_gmt":"2025-02-04T13:09:09","guid":{"rendered":"https:\/\/byte-bucket.com\/2025\/02\/04\/die-letzte-pruefung-der-menschheit-koennen-ki-modelle-den-wissensstand-von-experten-erreichen\/"},"modified":"2025-02-04T13:09:09","modified_gmt":"2025-02-04T13:09:09","slug":"die-letzte-pruefung-der-menschheit-koennen-ki-modelle-den-wissensstand-von-experten-erreichen","status":"publish","type":"post","link":"https:\/\/byte-bucket.com\/?p=11567","title":{"rendered":"Die letzte Pr\u00fcfung der Menschheit: K\u00f6nnen KI-Modelle den Wissensstand von Experten erreichen?"},"content":{"rendered":"<p>Ein neuer Benchmark, &#8222;Humanity&#8217;s Last Exam&#8220; (HLE), zeigt deutlich, dass gro\u00dfe Sprachmodelle (LLMs) wie GPT-4 noch weit von menschlichen Experten entfernt sind. Obwohl LLMs in Benchmarks wie MMLU mit \u00fcber 90 % Genauigkeit gl\u00e4nzen, haben diese Tests ihre Relevanz verloren, da sie den aktuellen Stand der Technik nicht mehr ad\u00e4quat widerspiegeln.<\/p>\n<p>Angesichts dieser Herausforderung schufen Forscher aus dem Center for AI Safety (CAIS) und Scale AI einen neuen Standard: HLE. Dieser Benchmark, basierend auf 3000 Fragen in Bereichen wie Mathematik, Geistes- und Naturwissenschaften, wurde von \u00fcber 1000 Experten aus 50 L\u00e4ndern konzipiert. Multiple-Choice- und Kurzantwortformate erm\u00f6glichen eine automatische Bewertung. Jede Frage besitzt eine eindeutige, \u00fcberpr\u00fcfbare L\u00f6sung, die nicht mit g\u00e4ngigen Online-Recherchen schnell gefunden werden kann.<\/p>\n<p>Die Ergebnisse sind alarmierend: Spitzenmodelle wie GPT-4 erreichen bei HLE nur unter 10 % korrekte Antworten. Dieser tiefe Leistungsgraben verdeutlicht die erhebliche Kluft zwischen den aktuellen LLM-F\u00e4higkeiten und dem Wissensstand menschlicher Experten in komplexen, geschlossenen Fragestellungen.<\/p>\n<p>Ein Hoffnungsschimmer: Das neu vorgestellte chinesische Modell DeepSeek zeigte beim HLE vergleichsweise gute Ergebnisse und liefert somit Ans\u00e4tze f\u00fcr zuk\u00fcnftige Entwicklungen im Bereich der KI-Expertise. HLE ist ein wichtiger Schritt zur objektiven Bewertung von LLMs und markiert die Notwendigkeit weitergehender Forschung, um KI in Richtung menschlicher Kompetenz zu entwickeln. <\/p>\n<p>(C) unter Verwendung eines Motivs von Andrei Suslov \/ 123RF.com<\/p>\n<p>Schlagw\u00f6rter: HLE + Humanity + Last Exam<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Ein neuer Benchmark, &#8222;Humanity&#8217;s Last Exam&#8220; (HLE), zeigt deutlich, dass gro\u00dfe Sprachmodelle (LLMs) wie GPT-4 noch weit von menschlichen Experten entfernt sind. Obwohl LLMs in Benchmarks wie MMLU mit \u00fcber 90 % Genauigkeit gl\u00e4nzen, haben diese Tests ihre Relevanz verloren, da sie den aktuellen Stand der Technik nicht mehr ad\u00e4quat&#46;&#46;&#46;<\/p>\n","protected":false},"author":4,"featured_media":11566,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-11567","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/11567","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=11567"}],"version-history":[{"count":0,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/11567\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/media\/11566"}],"wp:attachment":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=11567"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=11567"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=11567"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}