Troy Hunt, der Betreiber des Dienstes Have I Been Pwned (HIBP), hat angeblich neue Daten aus einem LinkedIn-Datenleck zu seinem Angebot hinzugefügt. Laut Berichten sind nahezu 20 Millionen Konten betroffen. Doch Troy Hunts Untersuchung zeigt, dass die Daten zum Teil veraltet und größtenteils gefälscht und manipuliert sind.
In einem Beitrag auf HIBP erklärt Hunt, dass das Datenleck angeblich am 4. November aufgetreten ist und die Daten am Dienstag in den Dienst integriert wurden. Nach Angaben vom Mittwoch sollen insgesamt etwa 19,8 Millionen Konten betroffen sein – nach einem Update waren es zuvor noch etwa 5,8 Millionen LinkedIn-Accounts.
Die Daten umfassen E-Mail-Adressen, Geschlecht, geografische Standorte, Berufsbezeichnungen, Namen, berufliche Fähigkeiten und Social-Media-Profile. In einem Beitrag auf seinem Blog erläutert Hunt ausführlich, wie er die Daten analysiert hat.
Es wird behauptet, dass die Daten nicht aus einem direkten Einbruch bei LinkedIn stammen, sondern durch sogenanntes Scraping gewonnen wurden. Dabei handelt es sich um eine Methode, bei der die öffentlich zugänglichen Daten auf LinkedIn-Profilen von Bots und Skripten automatisch ausgelesen und extrahiert werden können. Scraping wird nach wie vor oft verwendet, um Zugriff auf Nutzerdaten zu erhalten.
Ebenso wurden die 2,6 Millionen Datensätze von Duolingo, die HIBP im August zur Datenbank hinzugefügt hat, durch das Auslesen einer unzureichend geschützten API mittels Scraping erlangt.
Berichten zufolge enthielt der vermeintliche LinkedIn-Datensatz am Dienstag angeblich 2,5 Millionen Einträge, die sich als eine Mischung aus öffentlich verfügbaren LinkedIn-Profilinformationen und 5,8 Millionen E-Mail-Adressen herausstellten, die lediglich durch die Kombination von Vor- und Nachnamen erstellt wurden.
Troy Hunt erklärt anhand eines Beispiel-Datensatzes, wie er auf die Unstimmigkeiten aufmerksam wurde. Beim Durchsehen der Datensätze bemerkte er, dass ein Profil fünf zusätzliche E-Mail-Adressen als Aliase enthielt, die nach dem Muster Vorname.Nachname@domain aufgebaut waren. Dies traf auf zahlreiche Profile zu, was dazu führte, dass sich die Anzahl der betroffenen Konten von 2,5 Millionen auf 5,8 Millionen erhöhte. Durch die Verwendung der echten LinkedIn-ID aus dem Datensatz konnte das betroffene Profil geöffnet werden.
Im Datensatz sind auch Spalten mit den Bezeichnungen PROFILE_FETCHED_AT und PROFILE_LINKEDIN_FETCHED_AT enthalten, die in diesem speziellen Fall auf das Jahr 2020 datiert sind. Bei einer großen Anzahl von Datensätzen wäre dies nicht besonders bemerkenswert, allerdings zeigte sich dieses Muster bei allen Datensätzen, die mehrere E-Mail-Adressen enthielten. Die E-Mail-Adressen waren bei verschiedenen Domains stets mit demselben Alias verbunden. Hunt gibt ein Beispiel für E-Mail-Adressen bei Pluralsight an, bei denen anstelle eines Punktes ein Bindestrich verwendet wird. Die E-Mail-Adresse folgt also dem Muster Vorname-Nachname@Pluralsight. Jedoch wurden diese in der Datenquelle fehlerhaft mit einem Punkt zusammengesetzt. Bei anderen E-Mail-Adressen würde die korrekte Zusammensetzung aus dem ersten Buchstaben des Vornamens und dem direkt angehängten Nachnamen erfolgen, entsprechend der jeweiligen Domain. Es handelt sich angeblich um E-Mail-Adressen, die anscheinend künstlich erstellt und gefälscht sind.
Die E-Mail-Adressen in den Datensätzen wurden aus der tatsächlichen Domain des angegebenen Arbeitgebers zusammengesetzt, wobei der Mail-Alias aus Vorname und Nachname kombiniert wurde. Neben LinkedIn finden sich in den Kopfzeilen der Datensätze auch Hinweise auf weitere Einträge von Salesforce, Spendesk und Hubspot. Daher ist es wahrscheinlich, dass es sich um eine Zusammenstellung aus verschiedenen Quellen handelt und nicht um Daten, die durch das Scraping von LinkedIn gewonnen wurden. Trotzdem bleibt festzuhalten, dass die Profile authentisch sind, die Arbeitgeberunternehmen und Domains ebenfalls echt sind und auch die E-Mail-Adressen in vielen Fällen gültig sind, erklärt Hunt. Aus diesem Grund hat er die Daten zur HIBP-Datenbank hinzugefügt.
Es ist noch nicht klar, aus welchem Grund die Cyberkriminellen den Datensatz so stark aufgebläht haben. Hunt vermutet, dass möglicherweise finanzielle Interessen im Spiel sind. Jedoch war der Datensatz frei verfügbar zum Herunterladen. Es besteht die Möglichkeit, dass es einfach um Ruhm geht.
Hunt betont außerdem, dass es eine Debatte darüber gibt, ob Daten, die durch Scraping gewonnen wurden, als Datenleck betrachtet werden sollten. Immerhin sind die Daten öffentlich im Internet verfügbar. Jedoch stützt sich seine Definition eines Datenlecks darauf, dass Informationen von Unbefugten auf eine Weise erlangt wurden, die nicht vorgesehen war, um darauf zugreifen zu können. Dies ist der Fall, wenn Daten von dem ursprünglich beabsichtigten Angebot entfernt und gesammelt werden.
Schlagwörter: HaveIBeenPwned + LinkedInDatenleck + Scraping
Wie bewerten Sie den Schreibstil des Artikels?