{"id":9581,"date":"2024-07-16T15:39:31","date_gmt":"2024-07-16T15:39:31","guid":{"rendered":"https:\/\/byte-bucket.com\/2024\/07\/16\/datenskandal-bei-youtube-ueber-170-000-videos-wurden-fuer-ki-systeme-von-tech-giganten-genutzt\/"},"modified":"2024-07-16T15:39:31","modified_gmt":"2024-07-16T15:39:31","slug":"datenskandal-bei-youtube-ueber-170-000-videos-wurden-fuer-ki-systeme-von-tech-giganten-genutzt","status":"publish","type":"post","link":"https:\/\/byte-bucket.com\/?p=9581","title":{"rendered":"Datenskandal bei YouTube: \u00dcber 170.000 Videos wurden f\u00fcr KI-Systeme von Tech-Giganten genutzt!"},"content":{"rendered":"<p>YouTube ist eine Plattform, auf der Millionen von Menschen t\u00e4glich Videos hochladen, ansehen und teilen. Doch was passiert eigentlich mit all diesen Inhalten? Eine gemeinsame Untersuchung von Proof News und Wired hat nun ans Licht gebracht, dass ein umfangreicher Datensatz von \u00fcber 170.000 YouTube-Videos genutzt wurde, um KI-Systeme f\u00fcr f\u00fchrende Technologieunternehmen zu trainieren.<\/p>\n<p>Bei diesem Datensatz handelt es sich um YouTube-Untertiteldaten, die ohne Erlaubnis von der Plattform abgerufen wurden. Unternehmen wie Apple, Anthropic, Nvidia und Salesforce haben diese Daten genutzt, um ihre KI-Systeme zu verbessern. Interessanterweise sind in dem Datensatz \u00fcber 100 Videos von The und viele weitere Videos von Vox zu finden.<\/p>\n<p>Marques Brownlee, auch bekannt als MKBHD, hat in einem Beitrag berichtet, dass Apple Daten f\u00fcr ihre KI von verschiedenen Unternehmen bezogen hat. Ein Unternehmen habe dabei eine gro\u00dfe Menge an Daten aus YouTube-Videos abgegriffen, darunter auch seine eigenen Videos. Er betonte, dass dieses Problem weiterhin bestehen werde. YouTube hat bisher noch nicht auf die Vorw\u00fcrfe reagiert.<\/p>\n<p>Proof News hat im Rahmen ihrer Untersuchung ein interaktives Suchwerkzeug ver\u00f6ffentlicht, mit dem man \u00fcberpr\u00fcfen kann, ob der eigene Inhalt oder der Inhalt des favorisierten YouTubers in dem Datensatz vorhanden ist. Dieses Suchwerkzeug ist Teil ihrer Bem\u00fchungen, die \u00d6ffentlichkeit aufzukl\u00e4ren.<\/p>\n<p>Der Datensatz mit den Untertiteln ist Teil einer umfassenderen Sammlung namens &#8222;The Pile&#8220;, die von der gemeinn\u00fctzigen Organisation EleutherAI entwickelt wurde. Diese Sammlung umfasst auch Daten von B\u00fcchern, Wikipedia-Artikeln und anderen Quellen. Im letzten Jahr wurde in einer Analyse des Books3-Datensatzes aufgedeckt, dass Autoren f\u00fcr das Training von KI-Systemen verwendet wurden. Dies f\u00fchrte zu Klagen von Autoren gegen die Unternehmen, die den Datensatz genutzt haben.<\/p>\n<p>In den letzten Monaten ist die Frage, wie KI-Unternehmen speziell YouTube-Inhalte nutzen, zu einem zentralen Thema geworden. Diese Unternehmen sind selten bereitwillig transparent \u00fcber die Daten, die in ihre KI-Systeme einflie\u00dfen. Im M\u00e4rz stellte OpenAI das leistungsstarke Video-Generierungstool Sora vor, bei dem jedoch keine genauen Angaben dar\u00fcber gemacht wurden, ob das System mit YouTube-Videos trainiert wurde. Neal Mohan, der CEO von YouTube, hat in vorherigen Interviews betont, dass die Nutzung von Videoinhalten, einschlie\u00dflich Transkripten, zur Schulung von KI-Systemen gegen die Nutzungsbedingungen der Plattform verst\u00f6\u00dft.<\/p>\n<p>Es bleibt abzuwarten, wie YouTube auf die Vorw\u00fcrfe reagieren wird und ob weitere Ma\u00dfnahmen ergriffen werden, um die Nutzung von YouTube-Inhalten f\u00fcr das Training von KI-Systemen zu regeln. In jedem Fall zeigt dieser Fall erneut, wie wichtig es ist, die Rechte und den Datenschutz der Nutzer zu sch\u00fctzen, insbesondere in einer Zeit, in der KI-Technologien immer weiter verbreitet sind.<\/p>\n<p>Schlagw\u00f6rter: YouTube + Proof + Apple<\/p>\n","protected":false},"excerpt":{"rendered":"<p>YouTube ist eine Plattform, auf der Millionen von Menschen t\u00e4glich Videos hochladen, ansehen und teilen. Doch was passiert eigentlich mit all diesen Inhalten? Eine gemeinsame Untersuchung von Proof News und Wired hat nun ans Licht gebracht, dass ein umfangreicher Datensatz von \u00fcber 170.000 YouTube-Videos genutzt wurde, um KI-Systeme f\u00fcr f\u00fchrende&#46;&#46;&#46;<\/p>\n","protected":false},"author":4,"featured_media":9580,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-9581","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/9581","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=9581"}],"version-history":[{"count":0,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/9581\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/media\/9580"}],"wp:attachment":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=9581"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=9581"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=9581"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}