British Library stellt Zeitungsartikel aus zwei Jahrhunderten online

Die britische Nationalbibliothek hat Artikel aus rund 200 Zeitungen im Netz veröffentlicht. Sie stammen aus Großbritannien und Irland und lassen sich auf das 18. und 19. Jahrhundert datieren. Digitalisiert hat die mehr als drei Millionen Zeitungsseiten ein Unternehmen namens Brightsolid. Die Artikel wurden zudem verschlagwortet sowie mit Informationen zu Titel, Name, Ort und Datum versehen.

Im vergangenen Jahr haben Mitarbeiter von Brightsolid täglich bis zu 8000 Zeitungsseiten gescannt. In den nächsten zehn Jahren sollen noch rund 40 Millionen Zeitungsseiten hinzukommen. Dazu nutzen sie fünf A0-Scanner, die Bilder mit einer Kantenlänge von bis zu 118,9 mal 84,1 Zentimeter in einer Farbtiefe von 24 Bit und einer Auflösung von 400 dpi erstellen. Nach Angaben der British Library sind manche der Bilder 400 MByte groß.

Die Scans werden dann in das Grafikformat JPEG 2000 konvertiert. Eine Software zur optischen Zeichenerkennung (OCR) identifiziert die einzelnen Buchstaben und erstellt elektronische Abbilder der Texte, die sich durchsuchen lassen.


Illustration von Queen Victoria aus einer der eingescannten Zeitungen (Bild: British Library).

Im Online-Archiv der Britisch Library nachzulesen sind etwa Originalberichte über die Schlacht bei Waterloo im Jahr 1815, die Krönung von Queen Victoria 1838 oder Jack the Ripper. Ein paar Artikel können kostenlos betrachtet werden. Dafür ist lediglich eine Registrierung nötig.

Ebenfalls kostenfrei ist das Durchsuchen des Archivs. Um die Seiten zu lesen, fällt jedoch eine Gebühr an. Abgerechnet wird in Credits. Eine einzelne Seite in Schwarz-Weiß, die vor mehr als 107 Jahren veröffentlicht wurde, ist beispielsweise 5 Credits wert. Ein Farbscan kostet 10 Credits. Für eine Seite, die innerhalb der vergangenen 107 Jahre abgedruckt wurde, werden 15 Credits fällig. Ein Abonnement für 80 Pfund im Jahr gibt Nutzern uneingeschränkten Zugriff. Alternativ sind Pakete für 30 Tage (30 Pfund, 3000 Credits) oder zwei Tage (7 Pfund, 500 Credits) verfügbar.

Die britische Nationalbibliothek arbeitet auch mit Google zusammen, das 250.000 urheberrechtsfreie Bücher für sein Projekt Google Books scannen will. Insgesamt sollen 40 Millionen Seiten im Volltext erfasst werden. Die Bücher stammen aus den Jahren 1700 bis 1870 – von der französischen Revolution bis zum Ende der Sklaverei. Man will sich vor allem auf Werke in mehreren europäischen Sprachen konzentrieren, die bisher nicht in digitaler Form verfügbar sind.

ZDNet.de Redaktion

Recent Posts

KI-gestütztes Programmieren bringt IT-Herausforderungen mit sich

OutSystems-Studie: 62 Prozent der Befragten haben Sicherheits- und Governance-Bedenken bei Softwareentwicklung mit KI-Unterstützung.

3 Tagen ago

Studie: Ein Drittel aller E-Mails an Unternehmen sind unerwünscht

Der Cybersecurity Report von Hornetsecurity stuft 2,3 Prozent der Inhalte gar als bösartig ein. Die…

6 Tagen ago

HubPhish: Phishing-Kampagne zielt auf europäische Unternehmen

Die Hintermänner haben es auf Zugangsdaten zu Microsoft Azure abgesehen. Die Kampagne ist bis mindestens…

1 Woche ago

1. Januar 2025: Umstieg auf E-Rechnung im B2B-Geschäftsverkehr

Cloud-Plattform für elektronische Beschaffungsprozesse mit automatisierter Abwicklung elektronischer Rechnungen.

1 Woche ago

Google schließt schwerwiegende Sicherheitslücken in Chrome 131

Mindestens eine Schwachstelle erlaubt eine Remotecodeausführung. Dem Entdecker zahlt Google eine besonders hohe Belohnung von…

1 Woche ago

Erreichbarkeit im Weihnachtsurlaub weiterhin hoch

Nur rund die Hälfte schaltet während der Feiertage komplett vom Job ab. Die anderen sind…

1 Woche ago