
Digitalisierung alten Schriftguts
Ablauf eines Projekts
Im ersten Schritt müssen die Vorlagen gescannt werden,
wozu je nach Format ein geeigneter Scanner Verwendung finden muss. Problematisch
kann dabei ein (zum Teil) schlechter Erhaltungszustand der Bücher oder Blätter
aufgrund ihres Alters sein. In vielen Fällen müssen die Scans anschließend
verbessert werden (Schärfen, Erhöhung des Kontrasts), um sie für eine automatisierte
Schrifterkennung brauchbar zu machen.
Problematisch für die Erkennung sind außerdem:
- Schrift bis eng an den Rand
- Schrift über die Bindung
- Einfügungen zwischen de Zeilen, Streichungen
- keine durchgehenden Zeilen (Tabellen, eingeklebte Zeitungsausschnitte).
Andererseits verspricht eine sehr gerade und saubere Handschrift des Autors (wie sie auf der überwiegenden Anzahl der Seiten im Projekt „Tagebücher“ vorlag), gute Ergebnisse, was sich auch bestätigte.
Einige Beispiele problematischer Seiten (aus dem Projekt „Tagebücher“):






Im zweiten Schritt werden die Images (Scans) mittels des Transkribus expert in die Transkribus-Cloud hochgeladen und dort verarbeitet. Um die Software herunterladen und Transkribus nutzen zu können, ist eine (kostenlose) Registrierung erforderlich, für die aber im Gegenzug 500 Credits (entspricht der Texterkennung von 500 Seiten) gutgeschrieben werden. Bei weiterem Bedarf können für wenig Geld (15 Cent pro Seite) weitere Credits erworben werden.
Die Transkribus Plattform arbeitet mit Künstlicher Intelligenz und liefert bereits schon mit einem Standard-Modell für deutsche Handschrift hervorragende Ergebnisse.
Nach dem Hochladen muss zunächst eine Layout-Erkennung durchgeführt werden, bei der Zeilen, Worte und Textbereiche erkannt werden, die anschließend korrigiert werden können (was jedoch nicht immer notwendig ist – effektiver scheint hier eine Korrektur der Ergebnisse am Schluss der Verarbeitungskette). Danach kann die Texterkennung gestartet werden, im Ergebnis wird für jede Seite unter dem Bild einer Seite der erkannte Text angezeigt, der nun korrigiert werden kann.
Schließlich können die Ergebnisse in verschiedenen Formaten (z.B. DOCX, PDF, reiner Text) heruntergeladen werden.
Die hohe Qualität der Texterkennung soll hier anhand eines
Beispiels illustriert werden: es zeigt den Text vor und nach
der manuellen Korrektur, zu ändernde Stellen sind gekennzeichnet. Es ist zu
erkennen, dass für die erforderliche Nacharbeit (zumindest bei den
unproblematischen Seiten) relativ wenig Mühe aufgewandt werden muss.
Dennoch ist mit einer Korrektur- bzw. Nachbearbeitungszeit von 5..15 Minuten
pro Seite zu rechnen.

Bein nicht stehen, mithin wurde noch ein zweites ge¬ nehmigt (d. h. nicht von mir!) und ich war wirklich froh, wie ich nach diesem reichlich feuchten Vormittag endlich in meinem Abteil saß und heimwärts gen Schandau fuhr. Meines Bruders Georg Frau, meine Schwägerin Famille hat in Wilhelms¬ haven einen älteren, verheirateten aber Kinder¬ losen Bruder Robert, der früher bei der Kaiserlichen Werft beschäftigt war und jetzt im Ruhestand lebt. Er hat mithin sehr viel Zeit und die muß doch worten werden. Also schreibt er oft sehr abkurate u schöne, lange & ausführliche Briefe die er obendrein noch gern mit netten Zeich¬ rungen schmückt. Der beschriebene Gegenstän¬ wird dadurch erst recht verständlich. Er war natürlich schon lange vorher von unserm Reiseplan unterrichtet worden und ken¬ digte in einem langen Schreiben an, daß er am Tage unserer Abreise mit seiner guten Rosa am Bolumben Hafen in Brennerhaven
Bein nicht stehen, mithin wurde noch ein zweites ge¬ nehmigt (d. h. nicht von mir!) und ich war wirklich froh, wie ich nach diesem reichlich feuchten Vormittag endlich in meinem Abteil saß und heimwärts gen Schandau fuhr. Meines Bruders Georg Frau, meine Schwägerin Camilla hat in Wilhelms¬ haven einen älteren, verheirateten aber kinder¬ losen Bruder Robert, der früher bei der Kaiserlichen Werft beschäftigt war und jetzt im Ruhestand lebt. Er hat mithin sehr viel Zeit und die muß doch vertan werden. Also schreibt er oft sehr abkurate u schöne, lange & ausführliche Briefe die er obendrein noch gern mit netten Zeich¬ rungen schmückt. Der beschriebene Gegenstand wird dadurch erst recht verständlich. Er war natürlich schon lange vorher von unserm Reiseplan unterrichtet worden und kün¬ digte in einem langen Schreiben an, daß er am Tage unserer Abreise mit seiner guten Rosa am Columbus Hafen in Brennerhaven
Der dritte und letzte Schritt ist die Erstellung einer geeigneten Präsentation und die Bereitstellung auf einem USB-Stick oder im Internet.
Dabei müssen die Seiten zum Teil in die richtige Reihenfolge gebracht werden, da einige lose Blätter offenbar falsch einsortiert waren. Zudem wurde festgestellt, dass die Seitenfolge nicht der chronologischen Folge der Einträge entspricht. Deshalb werden zusätzlich zur Navigation anhand der Seitennummer noch Verweise eingebaut, die das Lesen gemäß der Chronologie erlauben.
Darüber hinaus werden erklärende Anmerkungen (z.B. zur Entsprechung der Währung) und Verweise auf Wikipedia- und andere Internet-Quellen zu bestimmten Fakten ergänzt, um den Wert der historischen Quelle für die heutigen Leser weiter zu erhöhen.
Interessiert an Digitalisierung?
Bitte nehmen Sie Kontakt zu mir auf!
Beispiel: Präsentationsoberfläche des Projekts „Tagebücher“