YouTube ist eine Plattform, auf der Millionen von Menschen täglich Videos hochladen, ansehen und teilen. Doch was passiert eigentlich mit all diesen Inhalten? Eine gemeinsame Untersuchung von Proof News und Wired hat nun ans Licht gebracht, dass ein umfangreicher Datensatz von über 170.000 YouTube-Videos genutzt wurde, um KI-Systeme für führende Technologieunternehmen zu trainieren.
Bei diesem Datensatz handelt es sich um YouTube-Untertiteldaten, die ohne Erlaubnis von der Plattform abgerufen wurden. Unternehmen wie Apple, Anthropic, Nvidia und Salesforce haben diese Daten genutzt, um ihre KI-Systeme zu verbessern. Interessanterweise sind in dem Datensatz über 100 Videos von The und viele weitere Videos von Vox zu finden.
Marques Brownlee, auch bekannt als MKBHD, hat in einem Beitrag berichtet, dass Apple Daten für ihre KI von verschiedenen Unternehmen bezogen hat. Ein Unternehmen habe dabei eine große Menge an Daten aus YouTube-Videos abgegriffen, darunter auch seine eigenen Videos. Er betonte, dass dieses Problem weiterhin bestehen werde. YouTube hat bisher noch nicht auf die Vorwürfe reagiert.
Proof News hat im Rahmen ihrer Untersuchung ein interaktives Suchwerkzeug veröffentlicht, mit dem man überprüfen kann, ob der eigene Inhalt oder der Inhalt des favorisierten YouTubers in dem Datensatz vorhanden ist. Dieses Suchwerkzeug ist Teil ihrer Bemühungen, die Öffentlichkeit aufzuklären.
Der Datensatz mit den Untertiteln ist Teil einer umfassenderen Sammlung namens „The Pile“, die von der gemeinnützigen Organisation EleutherAI entwickelt wurde. Diese Sammlung umfasst auch Daten von Büchern, Wikipedia-Artikeln und anderen Quellen. Im letzten Jahr wurde in einer Analyse des Books3-Datensatzes aufgedeckt, dass Autoren für das Training von KI-Systemen verwendet wurden. Dies führte zu Klagen von Autoren gegen die Unternehmen, die den Datensatz genutzt haben.
In den letzten Monaten ist die Frage, wie KI-Unternehmen speziell YouTube-Inhalte nutzen, zu einem zentralen Thema geworden. Diese Unternehmen sind selten bereitwillig transparent über die Daten, die in ihre KI-Systeme einfließen. Im März stellte OpenAI das leistungsstarke Video-Generierungstool Sora vor, bei dem jedoch keine genauen Angaben darüber gemacht wurden, ob das System mit YouTube-Videos trainiert wurde. Neal Mohan, der CEO von YouTube, hat in vorherigen Interviews betont, dass die Nutzung von Videoinhalten, einschließlich Transkripten, zur Schulung von KI-Systemen gegen die Nutzungsbedingungen der Plattform verstößt.
Es bleibt abzuwarten, wie YouTube auf die Vorwürfe reagieren wird und ob weitere Maßnahmen ergriffen werden, um die Nutzung von YouTube-Inhalten für das Training von KI-Systemen zu regeln. In jedem Fall zeigt dieser Fall erneut, wie wichtig es ist, die Rechte und den Datenschutz der Nutzer zu schützen, insbesondere in einer Zeit, in der KI-Technologien immer weiter verbreitet sind.
Schlagwörter: YouTube + Proof + Apple
Wie bewerten Sie den Schreibstil des Artikels?
