Der Sicherheitsanbieter UpGuard ist auf eine Datensammlung mit 48 Millionen persönlichen Profilen gestoßen, die ungesichert auf einem Cloudserver abgelegt war. Die Daten waren offenbar von vielen verschiedenen Quellen abgeschöpft und zu umfangreichen Datenprofilen aggregiert worden. Das Datenhandelsunternehmen Localblox bestätigte, dass die Daten von ihm dort hinterlassen wurden.
Die Mega-Datei fand sich auf Amazon Web Services (AWS) „Diese Enthüllung ist nicht das Ergebnis eines raffinierten Hacks“, schreibt das Cyber Risk Team von UpGuard einem Blogeintrag. Demnach machte eine einfache Fehlkonfiguration eines S3 Storage Bucket „die Daten zugänglich für das gesamte Internet“.
Die entkomprimierte Datei hatte einen Umfang von 1,2 Terabyte. Die Profile enthielten im Klartext Namen, Wohnanschriften, E-Mail-Adressen, Telefonnummern, IP-Adressen, Geburtsdaten, Informationen über gegenwärtige und frühere Beschäftigungen – und weitere Daten, die persönlich zuzuordnen sind. Der im US-Bundesstaat Washington ansässige Datenhändler Localblox bewirbt seine Dienste damit, dass sie eine „echte 360-Grad-Ansicht der Menschen“ geben und ihre Identität „von Offline zu Online“ abgleichen.
Entdecker der Datensammlung war Sicherheitsforscher Chris Vickery, Direktor für Cyber Risk Research bei UpGuard, der schon länger auf das Auffinden von ungeschützten Servern im Internet spezialisiert ist. „In der Folge des Debakels um Facebook und Cambridge Analytica wird immer offensichtlicher, wie bedeutsam so umfangreiche Sätze psychografischer Daten sind“, kommentierte er.
Die riesige Datensammlung entstand offenbar vor allem durch Scraping, also das massenhafte Abgreifen persönlicher Daten durch automatisierte Zugriffe. Als Quellen dienten insbesondere Soziale Netze wie Facebook, Twitter und LinkedIn. Auch die Immobilien-Datenbank von Zillow floss mit ein. Die Benutzer selbst wurden nicht gefragt, und die ohnehin schwammigen Regularien der Websites beachten Scammer erst recht nicht. Darüber hinaus sind offenbar zugekaufte Marketing-Datenbanken sowie Informationen von Kreditvermittlern mit eingeflossen.
Localblox beruft sich darauf, vor allem öffentlich zugängliche Daten zu sammeln. In einem früheren Interview erklärte Localblox-Präsidentin Sabira Arefin ungerührt, es sei eben „Sache der einzelnen Sites und Systeme, die Bedingungen festzulegen, und dann entsprechende Sicherheitsmechanismen zu etablieren, wenn sie Scraping verhindern wollen“.
Von ZDNet.com befragte Unternehmen beteuerten, Scraping zu untersagen und auch dagegen vorzugehen. Facebook erklärte, das Scraping seiner Nutzerdaten sei verboten, und derzeit würden auch frühere Zugriffsmöglichkeiten aller Apps auf große Datenmengen untersucht. LinkedIn ging sogar schon gerichtlich gegen Website-Scraping vor. Laut Twitter ist das automatisierte Datenscraping von seiner Site „ohne unsere vorhergehende Zustimmung ausdrücklich verboten“. Zillow „arbeitet daran, Dritte am Scraping unserer Sites zu hindern“.
Insbesondere Facebook machte es Scrapern allerdings schon immer sehr leicht, auch an Daten zu gelangen, die seine Nutzer nicht an Fremde weitergeben wollten. So war standardmäßig aktiviert, dass jedermann mit Kenntnis von E-Mail-Adresse oder Mobilfunknummer eines Facebook-Mitglieds Informationen auslesen konnte. Scraping im ganz großen Stil wurde möglich über eine Facebook-API, wenn diese mit Listen von automatisch generierten Telefonnummern oder E-Mail-Adressen gefüttert wurde. Diese Revers-Suche stellte Facebook erst ab, als es nach dem Vorfall um Cambridge Analytica zunehmend unter politischen Druck geriet.
ChatGPT, Google Gemini, MidJourney oder Anthropic Claude: Gut jeder zweite Bundesbürger hat generative KI bereits…
KI gehört schon zu den festen Instrumenten des Marketings. Doch viele Unternehmer setzen die KI…
Ransomware-Angriff auf die KI-gesteuerte Lieferkettenplattform Blue Yonder hat weitreichende Auswirkungen.
Seit Ende September ist sie also verfügbar: die Apple Watch 10. Auch in Deutschland kann…
ISG sieht engere Vernetzung zwischen Hyperscaler, IT-Partnern und Endkunden. Treiber ist das Zusammenspiel von KI…
Mit dem Tool können Unternehmen KI-Agenten mithilfe synthetisch generierter Daten testen, um präzise Antworten und…