IBM-Projekt BigSheets analysiert Websites mit Open-Source-Tools

IBM und die British Library planen, im Rahmen eines Projekts namens BigSheets viele Terabyte an Internetdaten zu analysieren und die wichtigsten zu archivieren. Als technische Basis dienen Open-Source-Tools, unter anderem Hadoop, Nutch und Pig.

Die durchschnittliche Lebensdauer einer Webseite beträgt Forschern zufolge zwischen 44 und 75 Tage. In Großbritannien gehen innerhalb von sechs Monaten ungefähr zehn Prozent der im Web gespeicherten Informationen verloren. Das ist in vielen Fällen kein großer Verlust – in manchen aber doch. IBM BigSheets soll die Spreu vom Weizen trennen und wichtige Daten aus Nachrichten, Medien, Videos in einem leicht zugänglichen Format archivieren. Ziel ist es, die Daten auch mit Anmerkungen zu versehen und eine visuelle Analyse im Browser zu ermöglichen.

Die britische Nationalbibliothek, die ohnehin schon ein Exemplar jeglicher Publikation im Land bekommt, hatte 2004 damit begonnen, bestimmte Websites mit UK-Domains regelmäßig zu speichern. Laut IBMs CTO für neue Technologien, David Boloker, wird dieses Vorgehen einmal Historikern ein gewaltiges Archiv an die Hand geben.

Die für BigSheets genutzte Software setzt auf Open-Source-Komponenten auf. Darunter ist mit Hadoop eine Implementierung eines Frameworks für skalierbares Distributed Computing und Datenspeicherung. Das Suchprojekt Nutch basiert auf Lucene Java, fügt ihm aber internetspezifische Komponenten wie einen Crawler und einen HTML-Parser hinzu. Es kann auch Links in einer Datenbank ablegen und grafisch darstellen. Mit Pig baut IBM zudem auf eine Open-Source-Plattform, die eine Hochsprache für die Datenanalyse im großen Maßstab bereitstellt und mit einer Infrastruktur verbindet, um in der Sprache geschriebene Programme zu evaluieren. Alle drei stehen unter Apache-Lizenz.

Boloker zufolge ist BigSheets als privater Clouddienst implementiert, der auf allen Maschinen der Bibliothek parallele MapReduce-Prozesse aufsetzt. Die British Library will die Daten und Dienste irgendwann auch der Öffentlichkeit zur Verfügung stellen.

ZDNet.de Redaktion

Recent Posts

Studie: Ein Drittel aller E-Mails an Unternehmen sind unerwünscht

Der Cybersecurity Report von Hornetsecurity stuft 2,3 Prozent der Inhalte gar als bösartig ein. Die…

3 Tagen ago

HubPhish: Phishing-Kampagne zielt auf europäische Unternehmen

Die Hintermänner haben es auf Zugangsdaten zu Microsoft Azure abgesehen. Die Kampagne ist bis mindestens…

4 Tagen ago

1. Januar 2025: Umstieg auf E-Rechnung im B2B-Geschäftsverkehr

Cloud-Plattform für elektronische Beschaffungsprozesse mit automatisierter Abwicklung elektronischer Rechnungen.

4 Tagen ago

Google schließt schwerwiegende Sicherheitslücken in Chrome 131

Mindestens eine Schwachstelle erlaubt eine Remotecodeausführung. Dem Entdecker zahlt Google eine besonders hohe Belohnung von…

4 Tagen ago

Erreichbarkeit im Weihnachtsurlaub weiterhin hoch

Nur rund die Hälfte schaltet während der Feiertage komplett vom Job ab. Die anderen sind…

4 Tagen ago

Hacker missbrauchen Google Calendar zum Angriff auf Postfächer

Security-Experten von Check Point sind einer neuen Angriffsart auf die Spur gekommen, die E-Mail-Schutzmaßnahmen umgehen…

5 Tagen ago