Internet Archive stellt 14 Millionen historische Illustrationen bei Flickr ein

Das Projekt The Internet Archive hat bisher mehr als 2,6 Millionen Illustrationen und Bilder aus urheberrechtsfreien Büchern auf Flickr hochgeladen und bereitet weitere vor. Der umgebende Text wurde automatisch erfasst und fürs Tagging genutzt, sodass sich das Archiv auch durchsuchen lässt.

Bilder des Telefons im Wandel der Zeiten (Screenshot: ZDNet bei Flickr)

Die Kooperation des Internet Archive und des Bilderdienst wird durch Kalev Leetaru von der Georgetown University realisiert. Die ausgewählten 2 Millionen Bücher umfassen mehr als 600 Millionen Seiten mit insgesamt 14 Millionen Illustrationen, die sich am Ende alle bei Flickr sollen. Über das heute Erreichte hinaus werden also noch fast 12 Millionen Seiten hinzukommen.

Die Bilder stammen aus der Bibliothek des Internet Archive; die Originale sind bis zu 500 Jahre alt. Ein Werkzeug erfasst die Texte, generiert automatisch Tags und sorgt so für eine voll durchsuchbare Datenbank. In einem Blogbeitrag heißt es dazu: „Weil wir die Bücher mit OCR erfassen, konnten wir etwa 500 Wörter vor und nach jedem Bild anfügen. Sie können sich die Sammlung also nicht nur ansehen und durchklicken, sondern zu jedem Bild etwas lesen. Stellen Sie sich eine Volltext-Suche für Bilder vor!“

Die OCR-Software des Internet Archive ist eigentlich für die Digitalisierung von Texten zuständig. Sie verfügt über ein eigenes Modul, um Bilder von der Erfassung auszuschließen. Hier setzt Leetaru mit einem neuen Tool an: Es macht solche Auslassungen ausfindig, sucht in den Original-Scans nach dem ausgelassenen Bereich und speichert ihn als JPEG-Datei. Diese werden zu Flickr hochgeladen. (Angesichts einiger irrtümlich hochgeladener Leerstellen erscheint allerdings eine nachträgliche Sichtkontrolle durch einen Menschen ratsam.)

Der BBC gegenüber erklärte der Forscher, die Sammlung ermögliche Besuchern eine Zeitreise: „Tippen sie mal „telephone“ ein, und Sie werden feststellen, dass alle frühen Bilder des Telefons Geschäftsleute zeigen – überwiegend Männer. Später wnadelt es sich in ein Werkzeug, um Familien zu verbinden. Eine interessante Bildfolge bietet auch die Eisenbahn, auf Englisch ‚railroad‘: In den ersten Bildern geht es um Fortschritt und Verändern der Welt, später wird sie Teil des Alltags.“

Den genutzten Code wollen Leetaru und das Internet Archive später auch Partnern zur Verfügung stellen, die dann zusätzliche Bilder beitragen können. Die Sammlung ist auf Flickr jedermann zugänglich. Flickr gehört bekanntlich zu Yahoo. Es ist wohl nicht zufällig auch Sponsor von Leetarus Lehrstuhl.

[mit Material von Michelle Starr, News.com]

Tipp: Wie gut kennen Sie sich mit der europäischen Technologie-Geschichte aus? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

SEO-Beratung von Spezialisten wie WOXOW: Deshalb wird sie immer wichtiger

Wer bei Google mit den passenden Suchbegriffen nicht in den Top-Rankings gefunden wird, der kann…

7 Stunden ago

Umfrage: Weniger als die Hälfte der digitalen Initiativen sind erfolgreich

Unternehmen räumen der Entwicklung technischer und digitaler Führungskompetenzen ein zu geringe Priorität ein. Gartner fordert…

8 Stunden ago

Google schließt zwei Zero-Day-Lücken in Android

Betroffen sind Android 12, 13, 14 und 15. Google sind zielgerichtete Angriffe auf die beiden…

1 Tag ago

Gefährliche Weiterentwicklung der APT36-Malware ElizaRAT

Schadprogramm der pakistanischen Hackergruppe APT36 weitet seine Aktivitäten aus und verbessert seine Techniken.

1 Tag ago

Google schließt weitere schwerwiegende Sicherheitslücken in Chrome 130

Tenable vergibt für beide Schwachstellen einen CVSS-Basis-Score von 9,8. Zwei Use-after-free-Bugs erlauben möglicherweise das Einschleusen…

1 Tag ago

Microsoft nennt weitere Details zu kostenpflichtigen Patches für Windows 10

Erstmals liegen Preise für Verbraucher vor. Sie zahlen weniger als Geschäftskunden. Dafür beschränkt Microsoft den…

2 Tagen ago