OpenAI in der Klemme: O’Reilly-Bücher und die Frage der Trainingsdaten

Das AI Disclosures Project, eine Organisation unter der Leitung von Tim O’Reilly, wirft OpenAI vor, beim Training seiner Modelle ohne Erlaubnis Werke verwendet zu haben, die hinter einer Bezahlschranke stehen – konkret geht es um O’Reilly-Bücher. Der Vorwurf kommt nicht aus dem Nichts, denn die Spannungen rund um Trainingsdaten und deren Lizenzierung sind ein Dauerthema im KI-Diskurs. Das AI Disclosures Project nutzte dafür eine interessante Methode namens DE-COP (Detecting Copyrighted Content in Language Models Training Data). Mit dieser Methode wurden 13.962 Auszüge aus 34 O’Reilly-Büchern auf ihren Auftritt in GPT-4o, GPT-3.5 Turbo und anderen OpenAI-Modellen untersucht.

Das Ergebnis: GPT-4o kennt deutlich mehr Inhalte aus kostenpflichtigen O’Reilly-Büchern als seine ältere Schwester GPT-3.5 Turbo. Das Papier interpretiert dies als Indiz dafür, dass GPT-4o Zugriff auf möglicherweise viele nicht öffentlich zugängliche O’Reilly-Bücher hat, die vor dem Trainingszeitpunkt veröffentlicht wurden – und das ohne Lizenzierung durch OpenAI.

Natürlich gibt es einige Vorbehalte: Die DE-COP-Methode ist nicht narrensicher, und OpenAI könnte argumentieren, dass Auszüge aus ChatGPT-Nutzer-Eingaben verwendet wurden, anstatt direkt aus den geschützten Büchern. Außerdem fehlten die Daten für neuere Modelle wie GPT-4.5 in der Analyse. Trotzdem wirft das Papier ein Schlaglicht auf die Komplexität des Dateneigentums im KI-Bereich und zeigt, wie schwierig es sein kann, den Überblick über die Quellen von Trainingsdaten zu behalten, besonders bei Modellen mit so enormem Wissensspeicher wie GPT-4o. Die Vorwürfe des AI Disclosures Projects sind ein weiterer Baustein in dem komplexen Puzzle um ethische Fragen und rechtliche Unsicherheiten in der Welt der Künstlichen Intelligenz.

Schlagwörter: OpenAI + AI Disclosures + GPT-3.5 Turbo

Wie bewerten Sie den Schreibstil des Artikels?

2. April 2025