Das Projekt The Internet Archive hat bisher mehr als 2,6 Millionen Illustrationen und Bilder aus urheberrechtsfreien Büchern auf Flickr hochgeladen und bereitet weitere vor. Der umgebende Text wurde automatisch erfasst und fürs Tagging genutzt, sodass sich das Archiv auch durchsuchen lässt.
Die Kooperation des Internet Archive und des Bilderdienst wird durch Kalev Leetaru von der Georgetown University realisiert. Die ausgewählten 2 Millionen Bücher umfassen mehr als 600 Millionen Seiten mit insgesamt 14 Millionen Illustrationen, die sich am Ende alle bei Flickr sollen. Über das heute Erreichte hinaus werden also noch fast 12 Millionen Seiten hinzukommen.
Die Bilder stammen aus der Bibliothek des Internet Archive; die Originale sind bis zu 500 Jahre alt. Ein Werkzeug erfasst die Texte, generiert automatisch Tags und sorgt so für eine voll durchsuchbare Datenbank. In einem Blogbeitrag heißt es dazu: „Weil wir die Bücher mit OCR erfassen, konnten wir etwa 500 Wörter vor und nach jedem Bild anfügen. Sie können sich die Sammlung also nicht nur ansehen und durchklicken, sondern zu jedem Bild etwas lesen. Stellen Sie sich eine Volltext-Suche für Bilder vor!“
Die OCR-Software des Internet Archive ist eigentlich für die Digitalisierung von Texten zuständig. Sie verfügt über ein eigenes Modul, um Bilder von der Erfassung auszuschließen. Hier setzt Leetaru mit einem neuen Tool an: Es macht solche Auslassungen ausfindig, sucht in den Original-Scans nach dem ausgelassenen Bereich und speichert ihn als JPEG-Datei. Diese werden zu Flickr hochgeladen. (Angesichts einiger irrtümlich hochgeladener Leerstellen erscheint allerdings eine nachträgliche Sichtkontrolle durch einen Menschen ratsam.)
Der BBC gegenüber erklärte der Forscher, die Sammlung ermögliche Besuchern eine Zeitreise: „Tippen sie mal „telephone“ ein, und Sie werden feststellen, dass alle frühen Bilder des Telefons Geschäftsleute zeigen – überwiegend Männer. Später wnadelt es sich in ein Werkzeug, um Familien zu verbinden. Eine interessante Bildfolge bietet auch die Eisenbahn, auf Englisch ‚railroad‘: In den ersten Bildern geht es um Fortschritt und Verändern der Welt, später wird sie Teil des Alltags.“
Den genutzten Code wollen Leetaru und das Internet Archive später auch Partnern zur Verfügung stellen, die dann zusätzliche Bilder beitragen können. Die Sammlung ist auf Flickr jedermann zugänglich. Flickr gehört bekanntlich zu Yahoo. Es ist wohl nicht zufällig auch Sponsor von Leetarus Lehrstuhl.
[mit Material von Michelle Starr, News.com]
Tipp: Wie gut kennen Sie sich mit der europäischen Technologie-Geschichte aus? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.
Wer bei Google mit den passenden Suchbegriffen nicht in den Top-Rankings gefunden wird, der kann…
Unternehmen räumen der Entwicklung technischer und digitaler Führungskompetenzen ein zu geringe Priorität ein. Gartner fordert…
Betroffen sind Android 12, 13, 14 und 15. Google sind zielgerichtete Angriffe auf die beiden…
Schadprogramm der pakistanischen Hackergruppe APT36 weitet seine Aktivitäten aus und verbessert seine Techniken.
Tenable vergibt für beide Schwachstellen einen CVSS-Basis-Score von 9,8. Zwei Use-after-free-Bugs erlauben möglicherweise das Einschleusen…
Erstmals liegen Preise für Verbraucher vor. Sie zahlen weniger als Geschäftskunden. Dafür beschränkt Microsoft den…