schließen

Digitalisierung alten Schriftguts

Ablauf eines Projekts

Im ersten Schritt müssen die Vorlagen gescannt werden, wozu je nach Format ein geeigneter Scanner Verwendung finden muss. Problematisch kann dabei ein (zum Teil) schlechter Erhaltungszustand der Bücher oder Blätter aufgrund ihres Alters sein. In vielen Fällen müssen die Scans anschließend verbessert werden (Schärfen, Erhöhung des Kontrasts), um sie für eine automatisierte Schrifterkennung brauchbar zu machen.
Problematisch für die Erkennung sind außerdem:

  • Schrift bis eng an den Rand
  • Schrift über die Bindung
  • Einfügungen zwischen de Zeilen, Streichungen
  • keine durchgehenden Zeilen (Tabellen, eingeklebte Zeitungsausschnitte).

Andererseits verspricht eine sehr gerade und saubere Handschrift des Autors (wie sie auf der überwiegenden Anzahl der Seiten im Projekt „Tagebücher“ vorlag), gute Ergebnisse, was sich auch bestätigte.

Einige Beispiele problematischer Seiten (aus dem Projekt „Tagebücher“):

Scan Tagebuchseite
Scan Tagebuchseite
Scan Tagebuchseite
Scan Tagebuchseite
Scan Tagebuchseiten

Screenshot Transkribus

Im zweiten Schritt werden die Images (Scans) mittels des Transkribus expert in die Transkribus-Cloud hochgeladen und dort verarbeitet. Um die Software herunterladen und Transkribus nutzen zu können, ist eine (kostenlose) Registrierung erforderlich, für die aber im Gegenzug 500 Credits (entspricht der Texterkennung von 500 Seiten) gutgeschrieben werden. Bei weiterem Bedarf können für wenig Geld (15 Cent pro Seite) weitere Credits erworben werden.

Die Transkribus Plattform arbeitet mit Künstlicher Intelligenz und liefert bereits schon mit einem Standard-Modell für deutsche Handschrift hervorragende Ergebnisse.

Nach dem Hochladen muss zunächst eine Layout-Erkennung durchgeführt werden, bei der Zeilen, Worte und Textbereiche erkannt werden, die anschließend korrigiert werden können (was jedoch nicht immer notwendig ist – effektiver scheint hier eine Korrektur der Ergebnisse am Schluss der Verarbeitungskette). Danach kann die Texterkennung gestartet werden, im Ergebnis wird für jede Seite unter dem Bild einer Seite der erkannte Text angezeigt, der nun korrigiert werden kann.

Schließlich können die Ergebnisse in verschiedenen Formaten (z.B. DOCX, PDF, reiner Text) heruntergeladen werden.

Die hohe Qualität der Texterkennung soll hier anhand eines Beispiels illustriert werden: es zeigt den Text vor und nach der manuellen Korrektur, zu ändernde Stellen sind gekennzeichnet. Es ist zu erkennen, dass für die erforderliche Nacharbeit (zumindest bei den unproblematischen Seiten) relativ wenig Mühe aufgewandt werden muss.
Dennoch ist mit einer Korrektur- bzw. Nachbearbeitungszeit von 5..15 Minuten pro Seite zu rechnen.

Scan Tagebuchseite
Bein nicht stehen, mithin wurde noch ein zweites ge¬
nehmigt (d. h. nicht von mir!) und ich war wirklich
froh, wie ich nach diesem reichlich feuchten Vormittag
endlich in meinem Abteil saß und heimwärts
gen Schandau fuhr. Meines Bruders Georg
Frau, meine Schwägerin Famille hat in Wilhelms¬
haven einen älteren, verheirateten aber Kinder¬
losen Bruder Robert, der früher bei der Kaiserlichen
Werft beschäftigt war und jetzt im Ruhestand
lebt. Er hat mithin sehr viel Zeit und die muß
doch worten werden. Also schreibt er oft sehr
abkurate u schöne, lange & ausführliche Briefe
die er obendrein noch gern mit netten Zeich¬
rungen schmückt. Der beschriebene Gegenstän¬
wird dadurch erst recht verständlich. Er war
natürlich schon lange vorher von unserm
Reiseplan unterrichtet worden und ken¬
digte in einem langen Schreiben an, daß er
am Tage unserer Abreise mit seiner guten
Rosa am Bolumben Hafen in Brennerhaven
Bein nicht stehen, mithin wurde noch ein zweites ge¬
nehmigt (d. h. nicht von mir!) und ich war wirklich
froh, wie ich nach diesem reichlich feuchten Vormittag
endlich in meinem Abteil saß und heimwärts
gen Schandau fuhr. Meines Bruders Georg
Frau, meine Schwägerin Camilla hat in Wilhelms¬
haven einen älteren, verheirateten aber kinder¬
losen Bruder Robert, der früher bei der Kaiserlichen
Werft beschäftigt war und jetzt im Ruhestand
lebt. Er hat mithin sehr viel Zeit und die muß
doch vertan werden. Also schreibt er oft sehr
abkurate u schöne, lange & ausführliche Briefe
die er obendrein noch gern mit netten Zeich¬
rungen schmückt. Der beschriebene Gegenstand
wird dadurch erst recht verständlich. Er war
natürlich schon lange vorher von unserm
Reiseplan unterrichtet worden und kün¬
digte in einem langen Schreiben an, daß er
am Tage unserer Abreise mit seiner guten
Rosa am Columbus Hafen in Brennerhaven

Der dritte und letzte Schritt ist die Erstellung einer geeigneten Präsentation und die Bereitstellung auf einem USB-Stick oder im Internet.

Dabei müssen die Seiten zum Teil in die richtige Reihenfolge gebracht werden, da einige lose Blätter offenbar falsch einsortiert waren. Zudem wurde festgestellt, dass die Seitenfolge nicht der chronologischen Folge der Einträge entspricht. Deshalb werden zusätzlich zur Navigation anhand der Seitennummer noch Verweise eingebaut, die das Lesen gemäß der Chronologie erlauben.

Darüber hinaus werden erklärende Anmerkungen (z.B. zur Entsprechung der Währung) und Verweise auf Wikipedia- und andere Internet-Quellen zu bestimmten Fakten ergänzt, um den Wert der historischen Quelle für die heutigen Leser weiter zu erhöhen.

Interessiert an Digitalisierung?

Bitte nehmen Sie Kontakt zu mir auf!

Screenshot Präsentation

Beispiel: Präsentationsoberfläche des Projekts „Tagebücher“