{"id":1324,"date":"2023-11-08T10:00:59","date_gmt":"2023-11-08T10:00:59","guid":{"rendered":"https:\/\/byte-bucket.com\/2023\/11\/08\/troy-hunt-deckt-linkedin-datenfaelschung-auf-sind-20-mio-konten-betroffen\/"},"modified":"2023-11-08T10:00:59","modified_gmt":"2023-11-08T10:00:59","slug":"troy-hunt-deckt-linkedin-datenfaelschung-auf-sind-20-mio-konten-betroffen","status":"publish","type":"post","link":"https:\/\/byte-bucket.com\/?p=1324","title":{"rendered":"Troy Hunt deckt LinkedIn-Datenf\u00e4lschung auf: Sind 20 Mio. Konten betroffen?"},"content":{"rendered":"<p>Troy Hunt, der Betreiber des Dienstes Have I Been Pwned (HIBP), hat angeblich neue Daten aus einem LinkedIn-Datenleck zu seinem Angebot hinzugef\u00fcgt. Laut Berichten sind nahezu 20 Millionen Konten betroffen. Doch Troy Hunts Untersuchung zeigt, dass die Daten zum Teil veraltet und gr\u00f6\u00dftenteils gef\u00e4lscht und manipuliert sind.<\/p>\n<p>In einem Beitrag auf HIBP erkl\u00e4rt Hunt, dass das Datenleck angeblich am 4. November aufgetreten ist und die Daten am Dienstag in den Dienst integriert wurden. Nach Angaben vom Mittwoch sollen insgesamt etwa 19,8 Millionen Konten betroffen sein &#8211; nach einem Update waren es zuvor noch etwa 5,8 Millionen LinkedIn-Accounts.<\/p>\n<p>Die Daten umfassen E-Mail-Adressen, Geschlecht, geografische Standorte, Berufsbezeichnungen, Namen, berufliche F\u00e4higkeiten und Social-Media-Profile. In einem Beitrag auf seinem Blog erl\u00e4utert Hunt ausf\u00fchrlich, wie er die Daten analysiert hat.<\/p>\n<p>Es wird behauptet, dass die Daten nicht aus einem direkten Einbruch bei LinkedIn stammen, sondern durch sogenanntes Scraping gewonnen wurden. Dabei handelt es sich um eine Methode, bei der die \u00f6ffentlich zug\u00e4nglichen Daten auf LinkedIn-Profilen von Bots und Skripten automatisch ausgelesen und extrahiert werden k\u00f6nnen. Scraping wird nach wie vor oft verwendet, um Zugriff auf Nutzerdaten zu erhalten.<\/p>\n<p>Ebenso wurden die 2,6 Millionen Datens\u00e4tze von Duolingo, die HIBP im August zur Datenbank hinzugef\u00fcgt hat, durch das Auslesen einer unzureichend gesch\u00fctzten API mittels Scraping erlangt.<\/p>\n<p>Berichten zufolge enthielt der vermeintliche LinkedIn-Datensatz am Dienstag angeblich 2,5 Millionen Eintr\u00e4ge, die sich als eine Mischung aus \u00f6ffentlich verf\u00fcgbaren LinkedIn-Profilinformationen und 5,8 Millionen E-Mail-Adressen herausstellten, die lediglich durch die Kombination von Vor- und Nachnamen erstellt wurden.<\/p>\n<p>Troy Hunt erkl\u00e4rt anhand eines Beispiel-Datensatzes, wie er auf die Unstimmigkeiten aufmerksam wurde. Beim Durchsehen der Datens\u00e4tze bemerkte er, dass ein Profil f\u00fcnf zus\u00e4tzliche E-Mail-Adressen als Aliase enthielt, die nach dem Muster Vorname.Nachname@domain aufgebaut waren. Dies traf auf zahlreiche Profile zu, was dazu f\u00fchrte, dass sich die Anzahl der betroffenen Konten von 2,5 Millionen auf 5,8 Millionen erh\u00f6hte. Durch die Verwendung der echten LinkedIn-ID aus dem Datensatz konnte das betroffene Profil ge\u00f6ffnet werden.<\/p>\n<p>Im Datensatz sind auch Spalten mit den Bezeichnungen PROFILE_FETCHED_AT und PROFILE_LINKEDIN_FETCHED_AT enthalten, die in diesem speziellen Fall auf das Jahr 2020 datiert sind. Bei einer gro\u00dfen Anzahl von Datens\u00e4tzen w\u00e4re dies nicht besonders bemerkenswert, allerdings zeigte sich dieses Muster bei allen Datens\u00e4tzen, die mehrere E-Mail-Adressen enthielten. Die E-Mail-Adressen waren bei verschiedenen Domains stets mit demselben Alias verbunden. Hunt gibt ein Beispiel f\u00fcr E-Mail-Adressen bei Pluralsight an, bei denen anstelle eines Punktes ein Bindestrich verwendet wird. Die E-Mail-Adresse folgt also dem Muster Vorname-Nachname@Pluralsight. Jedoch wurden diese in der Datenquelle fehlerhaft mit einem Punkt zusammengesetzt. Bei anderen E-Mail-Adressen w\u00fcrde die korrekte Zusammensetzung aus dem ersten Buchstaben des Vornamens und dem direkt angeh\u00e4ngten Nachnamen erfolgen, entsprechend der jeweiligen Domain. Es handelt sich angeblich um E-Mail-Adressen, die anscheinend k\u00fcnstlich erstellt und gef\u00e4lscht sind.<\/p>\n<p>Die E-Mail-Adressen in den Datens\u00e4tzen wurden aus der tats\u00e4chlichen Domain des angegebenen Arbeitgebers zusammengesetzt, wobei der Mail-Alias aus Vorname und Nachname kombiniert wurde. Neben LinkedIn finden sich in den Kopfzeilen der Datens\u00e4tze auch Hinweise auf weitere Eintr\u00e4ge von Salesforce, Spendesk und Hubspot. Daher ist es wahrscheinlich, dass es sich um eine Zusammenstellung aus verschiedenen Quellen handelt und nicht um Daten, die durch das Scraping von LinkedIn gewonnen wurden. Trotzdem bleibt festzuhalten, dass die Profile authentisch sind, die Arbeitgeberunternehmen und Domains ebenfalls echt sind und auch die E-Mail-Adressen in vielen F\u00e4llen g\u00fcltig sind, erkl\u00e4rt Hunt. Aus diesem Grund hat er die Daten zur HIBP-Datenbank hinzugef\u00fcgt.<\/p>\n<p>Es ist noch nicht klar, aus welchem Grund die Cyberkriminellen den Datensatz so stark aufgebl\u00e4ht haben. Hunt vermutet, dass m\u00f6glicherweise finanzielle Interessen im Spiel sind. Jedoch war der Datensatz frei verf\u00fcgbar zum Herunterladen. Es besteht die M\u00f6glichkeit, dass es einfach um Ruhm geht.<\/p>\n<p>Hunt betont au\u00dferdem, dass es eine Debatte dar\u00fcber gibt, ob Daten, die durch Scraping gewonnen wurden, als Datenleck betrachtet werden sollten. Immerhin sind die Daten \u00f6ffentlich im Internet verf\u00fcgbar. Jedoch st\u00fctzt sich seine Definition eines Datenlecks darauf, dass Informationen von Unbefugten auf eine Weise erlangt wurden, die nicht vorgesehen war, um darauf zugreifen zu k\u00f6nnen. Dies ist der Fall, wenn Daten von dem urspr\u00fcnglich beabsichtigten Angebot entfernt und gesammelt werden.<\/p>\n<p>Schlagw\u00f6rter: HaveIBeenPwned + LinkedInDatenleck + Scraping<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Troy Hunt, der Betreiber des Dienstes Have I Been Pwned (HIBP), hat angeblich neue Daten aus einem LinkedIn-Datenleck zu seinem Angebot hinzugef\u00fcgt. Laut Berichten sind nahezu 20 Millionen Konten betroffen. Doch Troy Hunts Untersuchung zeigt, dass die Daten zum Teil veraltet und gr\u00f6\u00dftenteils gef\u00e4lscht und manipuliert sind. In einem Beitrag&#46;&#46;&#46;<\/p>\n","protected":false},"author":4,"featured_media":1323,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-1324","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/1324","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=1324"}],"version-history":[{"count":0,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/1324\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/media\/1323"}],"wp:attachment":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=1324"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=1324"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=1324"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}