Die New York Times hat gemeinsam mit dem KI-Startup Oumi ein tiefgreifendes Untersuchungsprojekt zu den Aussagen in Googles KI-basierten Übersichten gestartet. Das Ergebnis: In neun von zehn Fällen sind die Antworten korrekt, doch bei einer gewaltigen Datenmenge wie Googles über 5 Billionen Suchanfragen pro Jahr summiert sich dies zu Hunderttausenden Fehlern pro Minute. Die Frage nach der Genauigkeit von KI-Antworten ist komplex und vielschichtig. Zum einen sind diese Antworten nicht deterministisch. Stellt man dieselbe Frage zweimal innerhalb kürzester Zeit, erhält man möglicherweise zwei unterschiedliche Antworten, wobei nur eine korrekt ist – die andere fehlerhaft. Hinzu kommt, dass auch die Bewertung der Korrektheit durch menschliche Tester oft auf KI-Systeme angewiesen ist, die selbst Fehlerquellen bergen können.
Für diese Untersuchung wurde ein weit verbreitetes Benchmark namens SimpleQA herangezogen, das jedoch selbst Fehler beinhaltet, was Google in seiner Kritik hervorhebt. Die New York Times testete Googles Antworten zweimal: Erstens im Februar, damals noch basierend auf der KI-Architektur Gemini 2, und zweitens im Oktober nach dessen Upgrade auf Gemini 3. Dabei verbesserte sich die Genauigkeit von 85 Prozent auf respektable 91 Prozent. Die Fehlerursachen waren vielfältig. Manchmal verknüpfte die KI Webseiten, die die Behauptungen gar nicht unterstützten. Oft waren die Fakten auf den verlinkten Seiten selbst falsch oder die KI zog aus korrekt dargestellten Fakten falsche Schlüsse. In einigen Fällen wurden Fakten zwar korrekt wiedergegeben, aber zusätzliche Informationen waren fehlerhaft. Es gab sogar Fälle, in denen die KI auf mutwillig im Internet verbreitete Falschinformationen hereingefallen ist.
Dieses Projekt unterstreicht eindrücklich, dass KI-Antworten nicht unfehlbar sind und stets einer kritischen Überprüfung bedürfen. Niemandem sollte man ungeprüft blind vertrauen – eine doppelte Prüfung ist unerlässlich, um die Richtigkeit von Informationen aus dieser Quelle sicherzustellen.
Schlagwörter: Googles + New York Times + Gemini
Wie bewerten Sie den Schreibstil des Artikels?
