Internet Archive stellt 14 Millionen historische Illustrationen bei Flickr ein

Das Projekt The Internet Archive hat bisher mehr als 2,6 Millionen Illustrationen und Bilder aus urheberrechtsfreien Büchern auf Flickr hochgeladen und bereitet weitere vor. Der umgebende Text wurde automatisch erfasst und fürs Tagging genutzt, sodass sich das Archiv auch durchsuchen lässt.

Bilder des Telefons im Wandel der Zeiten (Screenshot: ZDNet bei Flickr)

Die Kooperation des Internet Archive und des Bilderdienst wird durch Kalev Leetaru von der Georgetown University realisiert. Die ausgewählten 2 Millionen Bücher umfassen mehr als 600 Millionen Seiten mit insgesamt 14 Millionen Illustrationen, die sich am Ende alle bei Flickr sollen. Über das heute Erreichte hinaus werden also noch fast 12 Millionen Seiten hinzukommen.

Die Bilder stammen aus der Bibliothek des Internet Archive; die Originale sind bis zu 500 Jahre alt. Ein Werkzeug erfasst die Texte, generiert automatisch Tags und sorgt so für eine voll durchsuchbare Datenbank. In einem Blogbeitrag heißt es dazu: „Weil wir die Bücher mit OCR erfassen, konnten wir etwa 500 Wörter vor und nach jedem Bild anfügen. Sie können sich die Sammlung also nicht nur ansehen und durchklicken, sondern zu jedem Bild etwas lesen. Stellen Sie sich eine Volltext-Suche für Bilder vor!“

Die OCR-Software des Internet Archive ist eigentlich für die Digitalisierung von Texten zuständig. Sie verfügt über ein eigenes Modul, um Bilder von der Erfassung auszuschließen. Hier setzt Leetaru mit einem neuen Tool an: Es macht solche Auslassungen ausfindig, sucht in den Original-Scans nach dem ausgelassenen Bereich und speichert ihn als JPEG-Datei. Diese werden zu Flickr hochgeladen. (Angesichts einiger irrtümlich hochgeladener Leerstellen erscheint allerdings eine nachträgliche Sichtkontrolle durch einen Menschen ratsam.)

Der BBC gegenüber erklärte der Forscher, die Sammlung ermögliche Besuchern eine Zeitreise: „Tippen sie mal „telephone“ ein, und Sie werden feststellen, dass alle frühen Bilder des Telefons Geschäftsleute zeigen – überwiegend Männer. Später wnadelt es sich in ein Werkzeug, um Familien zu verbinden. Eine interessante Bildfolge bietet auch die Eisenbahn, auf Englisch ‚railroad‘: In den ersten Bildern geht es um Fortschritt und Verändern der Welt, später wird sie Teil des Alltags.“

Den genutzten Code wollen Leetaru und das Internet Archive später auch Partnern zur Verfügung stellen, die dann zusätzliche Bilder beitragen können. Die Sammlung ist auf Flickr jedermann zugänglich. Flickr gehört bekanntlich zu Yahoo. Es ist wohl nicht zufällig auch Sponsor von Leetarus Lehrstuhl.

[mit Material von Michelle Starr, News.com]

Tipp: Wie gut kennen Sie sich mit der europäischen Technologie-Geschichte aus? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Studie: Ein Drittel aller E-Mails an Unternehmen sind unerwünscht

Der Cybersecurity Report von Hornetsecurity stuft 2,3 Prozent der Inhalte gar als bösartig ein. Die…

2 Tagen ago

HubPhish: Phishing-Kampagne zielt auf europäische Unternehmen

Die Hintermänner haben es auf Zugangsdaten zu Microsoft Azure abgesehen. Die Kampagne ist bis mindestens…

3 Tagen ago

1. Januar 2025: Umstieg auf E-Rechnung im B2B-Geschäftsverkehr

Cloud-Plattform für elektronische Beschaffungsprozesse mit automatisierter Abwicklung elektronischer Rechnungen.

3 Tagen ago

Google schließt schwerwiegende Sicherheitslücken in Chrome 131

Mindestens eine Schwachstelle erlaubt eine Remotecodeausführung. Dem Entdecker zahlt Google eine besonders hohe Belohnung von…

3 Tagen ago

Erreichbarkeit im Weihnachtsurlaub weiterhin hoch

Nur rund die Hälfte schaltet während der Feiertage komplett vom Job ab. Die anderen sind…

4 Tagen ago

Hacker missbrauchen Google Calendar zum Angriff auf Postfächer

Security-Experten von Check Point sind einer neuen Angriffsart auf die Spur gekommen, die E-Mail-Schutzmaßnahmen umgehen…

5 Tagen ago