{"id":11944,"date":"2025-04-02T23:20:03","date_gmt":"2025-04-02T23:20:03","guid":{"rendered":"https:\/\/byte-bucket.com\/2025\/04\/02\/openai-in-der-klemme-oreilly-buecher-und-die-frage-der-trainingsdaten\/"},"modified":"2025-04-02T23:20:03","modified_gmt":"2025-04-02T23:20:03","slug":"openai-in-der-klemme-oreilly-buecher-und-die-frage-der-trainingsdaten","status":"publish","type":"post","link":"https:\/\/byte-bucket.com\/?p=11944","title":{"rendered":"OpenAI in der Klemme: O\u2019Reilly-B\u00fccher und die Frage der Trainingsdaten"},"content":{"rendered":"<p>Das AI Disclosures Project, eine Organisation unter der Leitung von Tim O\u2019Reilly, wirft OpenAI vor, beim Training seiner Modelle ohne Erlaubnis Werke verwendet zu haben, die hinter einer Bezahlschranke stehen \u2013 konkret geht es um O\u2019Reilly-B\u00fccher. Der Vorwurf kommt nicht aus dem Nichts, denn die Spannungen rund um Trainingsdaten und deren Lizenzierung sind ein Dauerthema im KI-Diskurs. Das AI Disclosures Project nutzte daf\u00fcr eine interessante Methode namens DE-COP (Detecting Copyrighted Content in Language Models Training Data). Mit dieser Methode wurden 13.962 Ausz\u00fcge aus 34 O\u2019Reilly-B\u00fcchern auf ihren Auftritt in GPT-4o, GPT-3.5 Turbo und anderen OpenAI-Modellen untersucht. <\/p>\n<p>Das Ergebnis: GPT-4o kennt deutlich mehr Inhalte aus kostenpflichtigen O\u2019Reilly-B\u00fcchern als seine \u00e4ltere Schwester GPT-3.5 Turbo. Das Papier interpretiert dies als Indiz daf\u00fcr, dass GPT-4o Zugriff auf m\u00f6glicherweise viele nicht \u00f6ffentlich zug\u00e4ngliche O\u2019Reilly-B\u00fccher hat, die vor dem Trainingszeitpunkt ver\u00f6ffentlicht wurden \u2013 und das ohne Lizenzierung durch OpenAI. <\/p>\n<p>Nat\u00fcrlich gibt es einige Vorbehalte: Die DE-COP-Methode ist nicht narrensicher, und OpenAI k\u00f6nnte argumentieren, dass Ausz\u00fcge aus ChatGPT-Nutzer-Eingaben verwendet wurden, anstatt direkt aus den gesch\u00fctzten B\u00fcchern. Au\u00dferdem fehlten die Daten f\u00fcr neuere Modelle wie GPT-4.5 in der Analyse. Trotzdem wirft das Papier ein Schlaglicht auf die Komplexit\u00e4t des Dateneigentums im KI-Bereich und zeigt, wie schwierig es sein kann, den \u00dcberblick \u00fcber die Quellen von Trainingsdaten zu behalten, besonders bei Modellen mit so enormem Wissensspeicher wie GPT-4o. Die Vorw\u00fcrfe des AI Disclosures Projects sind ein weiterer Baustein in dem komplexen Puzzle um ethische Fragen und rechtliche Unsicherheiten in der Welt der K\u00fcnstlichen Intelligenz.<\/p>\n<p>Schlagw\u00f6rter: OpenAI + AI Disclosures + GPT-3.5 Turbo<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Das AI Disclosures Project, eine Organisation unter der Leitung von Tim O\u2019Reilly, wirft OpenAI vor, beim Training seiner Modelle ohne Erlaubnis Werke verwendet zu haben, die hinter einer Bezahlschranke stehen \u2013 konkret geht es um O\u2019Reilly-B\u00fccher. Der Vorwurf kommt nicht aus dem Nichts, denn die Spannungen rund um Trainingsdaten und&#46;&#46;&#46;<\/p>\n","protected":false},"author":4,"featured_media":11943,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-11944","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/11944","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=11944"}],"version-history":[{"count":0,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/11944\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/media\/11943"}],"wp:attachment":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=11944"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=11944"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=11944"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}