Digitalisierung alten Schriftguts
Digitalisierung von (altem) Schriftgut ist seit Jahren ein großes Thema, dem sich vor allem Bibliotheken widmen und dafür viel Arbeit und Geld investieren.
Im Unterschied zur digitalen Aufbewahrung und Verarbeitung z.B. von Zahlungsbelegen geht es dabei in erster Linie um eine Option, die alten Schriften auf lange Zeit zu „konservieren“ (man denke dabei z.B. an Zeitungen, deren langfristige Lagerung und Nutzung sehr schwierig ist!), aber natürlich spielt auch die Möglichkeit weltweiten, zeitlich uneingeschränkten Zugriffs eine bedeutende Rolle. Damit ist der zweite Schritt – die Präsentation der Digitalisate – benannt. Dabei geht es darum, diese in möglichst benutzerfreundlicher Form darzubieten. Und hier kommt die Erschließung der Texte mittels OCR (Optical Character Recognition) bzw. HCR (Handwritten Character Recognition) ins Spiel. Die Texterschließung bringt aufgrund der Durchsuchbarkeit einen großen Gewinn. Da die technischen Möglichkeiten in diesem Bereich sich rasant entwickeln (neuronale Netze, maschinelles Lernen), können zunehmend bessere Ergebnisse erzielt werden.
Aber auch für private Projekte kann das alles interessant sein. Besonders, wenn es sich um Schriften handelt, die noch in alten Schriftarten (Kurrent, Sütterlin) verfasst sind, spielt auch besonders die Transkription des Textes eine große Rolle. Heutzutage schrumpft die Zahl der Menschen, die diese Schriften noch lesen können, drastisch!
Für die Texterkennung (HCR – siehe oben) wird Transkribus von READ-COOP SCE aus Innsbruck genutzt.
Detailliertere Informationen zum Ablauf eines solchen Digitalisierungsvorhabens finden sie unter Ablauf eines Projekts.
Näheres zu einem konkreten Projekt lesen sie unter Tagebücher.
Präsentations-Framework: noesis BookViewer
Für die Präsentation der Digitalisate und des Textes wurde ein Framework programmiert, welches in weiten Teilen konfigurierbar ist. Damit ist es an verschiedene Projekte und/oder spezielle Kundenwünsche leicht anpassbar.
Nach Aufruf der Präsentation (bzw. nach erfolgreicher Anmeldung) wird eine Übersicht über die digitalisierten Inhalte angezeigt: eine Tabelle mit wichtigen Informationen und darunter die Buchtitel (Bild 1). Ein kleines grünes Icon im Bild signalisiert, welches Werk zueltzt angesehen wurde (sofern bereits Details angesehen wurden und dann zur Übersicht zurückgekehrt wird)
Wird eines der Bücher ausgewählt, erscheinen alle zu diesem Werk digitalisierten Seiten (Bild 2). Auch hier wird wieder die zueletzt angesehene Seite gekennzeichnet. Zusätzlich tragen Seiten, für die es (noch) keine Transkription (Volltext) gibt eine Kennzeichnung (durchgestrichene Sprechblase).
In der Einzelansicht einer Seite (Bild 3) erscheint links der Scan der Original-Seite und rechts daneben der transkribierte Text. Dort, wo Bezüge zu anderen Inhalten im Text vorkommen, werden Sprünge zu diesen Stellen angeboten, um schnell navigieren zu können. Am oberen und unteren Bildrand wird eine Navigationsleiste angeboten, mit deren Hilfe neben dem Blättern zur Gesamt- bzw. Seitenübersicht gesprungen werden kann. Wo dies sinnvoll erscheint, wird der Text mit weiterführenden Informationen angereichert (z.B. über historische Daten oder Abläufe, nicht mehr gebräuchliche Maßeinheiten usw.)
Eine Suchfunktion rundet den Funktionsumfang ab. Bei dieser werden historische Schreibweisen in gewisser Weise berücksichtigt (Stand Juli 2023: wird noch verbessert). Die Treffer werden in einer Liste angezeigt (Bild 4), auch hier wird die zuletzt angesehene Seite (sofern in den Suchergebnissen) gekennzeichnet bzw. ein Link zur zuletzt betrachteten Seite angeboten.
Wird eine Seite von den Suchergebnissen aus angesprungen, werden die Suchbegriffe hervorgehoben (Bild 5)
Es besteht die Möglichkeit, eine angezeigte Einzelseite als PDF herunterzuladen,
um dieses zu speichern oder zu drucken (was z.B. bei Rezepten durchaus sinnvoll sein kann).
Verweise zu anderen Seiten oder Büchern führen in den PDFs zur Präsentation.
Beispiele:
Beispiel 1,
Beispiel 2,
Beispiel 3
Bei Bedarf (z.B. Präsentation nicht-gemeinfreier oder privater Inhalte) kann der Zugriff durch eine Anmeldung (Bild 6) geschützt werden. Es können dann Benutzer mit verschiedenen Rollen angelegt werden:
- Administrator ⇒ Vollzugriff
- Lesezugriff ⇒ Kennwort und Klarname kann geändert werden
- Lesezugriff (Sammelbenutzer) ⇒ keine Änderungen möglich
Ist der Seitenschutz konfiguriert, erscheint neben der Schaltfläche für „Suchen“ bzw. „Drucken“ eine weitere Schaltfläche, über die die Verwaltung der Benutzer (nur Administrator) aufgerufen werden und die Abmeldung erfolgen kann.
Nachfolgend zur Illustration der Beschreibung des Frameworks einige Screenshots aus dem Projekt „Rezeptbücher“.
Hier noch zwei Beispiele:
- eine Seite aus der handgeschriebenen „Kochschule“ (Projekt „Rezeptbücher“) und
- eine Seite aus dem Projekt „Tagebücher“.
Diese beiden Ansichten zeigen, dass i.d.R. die originale Orthografie
beibehalten wird, selbst dann, wenn es sich wahrscheinlich um einen Fehler handelt
(Klöhse). Auch Streichungen im Text werden entsprechend übernommen und dargestellt.
Die Tagebuchseite zeigt, wie Anreicherungen des Textes durch Verweise auf andere
Quellen im Text erscheinen und damit auch den Nutzen der Präsentation erhöhen.
Digitalisierungs-Projekte
abgeschlossen
- Kochbuch (handschriftlich, ca. 400 Seiten)
- Rezeptbücher: Kochbuch (handschriftlich, 52 Seiten), Backbuch (gedruckt, 54 Seiten)
- Aufsatz: „Die Oder und ihre Schiffahrt bis 1945“ (Schreibmaschine, 14 Seiten, Klebebindung)
derzeit noch in Arbeit
- Tagebücher 1939 – 1945 (ca. 800 Seiten)
Die digitalisierten Inhalte werden auf einem USB-Stick (Bild) und/oder als Web-Applikation zur Verfügung gestellt.
Auf Wunsch können die Ergebnisse auch über die Cloud zur Verfügung gestellt werden.