Das AI Disclosures Project, eine Organisation unter der Leitung von Tim O’Reilly, wirft OpenAI vor, beim Training seiner Modelle ohne Erlaubnis Werke verwendet zu haben, die hinter einer Bezahlschranke stehen – konkret geht es um O’Reilly-Bücher. Der Vorwurf kommt nicht aus dem Nichts, denn die Spannungen rund um Trainingsdaten und deren Lizenzierung sind ein Dauerthema im KI-Diskurs. Das AI Disclosures Project nutzte dafür eine interessante Methode namens DE-COP (Detecting Copyrighted Content in Language Models Training Data). Mit dieser Methode wurden 13.962 Auszüge aus 34 O’Reilly-Büchern auf ihren Auftritt in GPT-4o, GPT-3.5 Turbo und anderen OpenAI-Modellen untersucht.
Das Ergebnis: GPT-4o kennt deutlich mehr Inhalte aus kostenpflichtigen O’Reilly-Büchern als seine ältere Schwester GPT-3.5 Turbo. Das Papier interpretiert dies als Indiz dafür, dass GPT-4o Zugriff auf möglicherweise viele nicht öffentlich zugängliche O’Reilly-Bücher hat, die vor dem Trainingszeitpunkt veröffentlicht wurden – und das ohne Lizenzierung durch OpenAI.
Natürlich gibt es einige Vorbehalte: Die DE-COP-Methode ist nicht narrensicher, und OpenAI könnte argumentieren, dass Auszüge aus ChatGPT-Nutzer-Eingaben verwendet wurden, anstatt direkt aus den geschützten Büchern. Außerdem fehlten die Daten für neuere Modelle wie GPT-4.5 in der Analyse. Trotzdem wirft das Papier ein Schlaglicht auf die Komplexität des Dateneigentums im KI-Bereich und zeigt, wie schwierig es sein kann, den Überblick über die Quellen von Trainingsdaten zu behalten, besonders bei Modellen mit so enormem Wissensspeicher wie GPT-4o. Die Vorwürfe des AI Disclosures Projects sind ein weiterer Baustein in dem komplexen Puzzle um ethische Fragen und rechtliche Unsicherheiten in der Welt der Künstlichen Intelligenz.
Schlagwörter: OpenAI + AI Disclosures + GPT-3.5 Turbo
Wie bewerten Sie den Schreibstil des Artikels?
