„54.138 Ausgaben
Ausgangspunkt einer spannenden Reise ist unser Zeitungsarchiv, das wir in den letzten Jahren aufwendig digitalisiert haben.
Über 200 Jahre. Immerhin über 50.000 Ausgaben – teilweise zu unhandlichen Jahrbänden gebunden – wurden einem Dienstleister übergeben.
1.177.171 Seiten
Nahezu 1 Millionen Seiten, teilweise auf brüchigem Papier, wurden mit größter Sorgfalt von einem Spezialscanner eingelesen.
Obwohl eine aufwendige Bild-Optimierung das technisch Mögliche aus den Scans herausholte, bewahren wir die unbearbeiteten Dateien auf – für die Zukunft, wenn leistungsfähigere Technologien die Ergebnisse vielleicht nochmals verbessern können.
6.589.700 Artikel
Das Extrahieren der Artikel aus dem Buchstabenmeer war kein leichtes Unterfangen. Neben dem mehrspaltigen Zeitungslayout und der Fortsetzung der Artikel über Seiten hinweg bereiteten auch die Formatierung der Überschriften, Anleser und Bildzeilen sowie die Vielzahl der verwendeten Schriften Probleme. Das konnte ein Texterkennungsprogramm nur ansatzweise lösen und bedurfte der Unterstützung eines wachsamen Auges. Entstanden sind über 6 Millionen Artikel, die nun per Volltextsuche erschlossen sind.“
Quelle: Siegener Zeitung, Projektseite
Weitere Informationen: Siegener Zeitung, 10.5.2024