Foto: © Bundesstiftung Aufarbeitung / Ladan Rezaeian
Deutsche Geschichte zum Nachlesen:
Enquete-Dokumente zur „Aufarbeitung der SED-Diktatur“
(12. und 13. Wahlperiode) online
Bild: © Bundesstiftung Aufarbeitung
Im Frühjahr 2014 erhielten wir von der Bundesstiftung zur Aufarbeitung der SED-Diktatur eine Anfrage zur
technischen Umsetzung eines Portals, welches Dokumente Volltext-durchsuchbar im
Internet zur Verfügung stellt.
Es sollten die Ergebnisse der beiden Enquete-Kommissionen zur „Aufarbeitung
der SED-Diktatur“ – seinerzeit nur als gedruckte Bücher (ca. 30.000 Seiten
in 32 Bänden) und auf CD verfügbar – der Öffentlichkeit zugänglich gemacht
werden. Diese spannende Aufgabe interessierte uns und wir erarbeiteten ein Angebot.
Im November 2017 bekamen wir den Auftrag, und dann lief die Zeit: Geplanter Online-Gang
war der 2. November 2018, das 20-jährige Bestehen der Bundesstiftung und Ende der
zweiten Enquete-Kommission zum Thema „SED-Diktatur“ vor 20 Jahren.
Prozessierung
Wie sollten die Texte aus den PDFs in maschinen-durchsuchbare Dateien überführt werden? Wir entschieden uns für die Software Tika, weil der Einsatz einer guten OCR-Software für diesen Zweck einerseits zu aufwendig gewesen wäre und andererseits trotzdem die Möglichkeit von OCR-Fehlern enthalten hätte. Ein Nachteil der gewählten Lösung war allerdings, dass alle Formatierungen bei diesem Verfahren verloren gingen und manuell wieder hergestellt werden mussten.Eine zusätzliche Herausforderung ergab sich aus Tikas Umsetzung der Silbentrennungszeichen als Bindestriche. Für den Suchindex erforderte das einige Überlegungen und programmtechnisch Implementierungen: Nicht alle Bindestriche am Zeilenende durften entfallen, Konstruktionen wie marxistisch-leninistisch oder Arbeiter-und-Bauern-Staat waren zu berücksichtigen.
Für die Extraktion der in den Illustrationen und Grafiken enthaltenen Texte kam die OCR-Software Tesseract zum Einsatz. Erwartungsgemäß mussten (und müssen) die Ergebnisse in den meisten Fällen nachbearbeitet werden.
Bei der Übertragung der Inhaltsverzeichnisse der einzelnen Bände stießen wir auf weitere Probleme: In den PDFs waren die Verzeichnisse teilweise unvollständig bzw. ungenau und mussten manuell korrigiert werden. Hinzu kamen fehlende Seiten (was zunächst die Seiten-Nummerierung durcheinander brachte), sowie Satz- und Druckfehler in den Originalen. Teilweise mussten wir zusätzlich Änderungen am Seiten-Layout vornehmen, um die Inhalte an die (mobile) Web-Ansicht anzupassen (siehe Web-Umsetzung).
Technische Umsetzung
Das Portal wird auf einem virtuellen Rootserver betrieben, damit sind alle Möglichkeiten
des Systemzugriffs gewährleistet: z.B. Installation und Wartung der Suchmaschine.
Als CMS haben wir WordPress gewählt, denn dieses System bietet einfache Möglichkeiten,
redaktionelle Inhalte zu pflegen.
Die Suchmaschinen-Funktionalität, die Inhaltsverzeichnisse und die thematische
Zuordnung einzelner Beiträge zu Schlagworten wurden als Wordpress-Plugin realisiert,
welches sowohl Recherche (Frontend-), als auch redaktionelle Arbeit (Backend-Funktionalität)
ermöglicht. Als Grundlage für die Volltextsuche ist Elasticsearch im Einsatz. Die Inhaltsverzeichnisse
und Schlagworte sind in einer MySQL-Datenbank abgelegt.
Das Prortal…
… bietet neben den verschiedenen Recherchemöglichkeiten in den Dokumenten
- Inhaltsverzeichnisse,
- thematische Beitragssammlungen anhand von Schlagworten
(zusammengestellt von der Stiftung Aufarbeitung) und - Volltextsuche
viele Informationen zu den Hintergründen und den Protagonisten der beiden Enquete-Kommissionen (Wahlperiode 12: 1992-1994 und Wahlperiode 13: 1995-1998), welche von der Bundesstiftung zusammengestellt wurden.
Dank
Wir danken Frau Dr. Kuder und Frau Eberhardt vom Projektteam der Bundesstiftung Aufarbeitung für die gute Zusammenarbeit bei der Durchführung des Projekts. Es hat uns Freude gemacht, das Portal https://enquete-online.de/ gemeinsam an den Start zu bringen!
Allerdings: Ohne die Unterstützung unserer engagierten Helferinnen und Helfer und ihre Erstkorrekturen hätten wir das nicht so schnell geschaft – danke Euch allen!
Knut Lohse und Helmut Wohland
Anfang November 2018
Festveranstaltung in der Stiftung Aufarbeitung
am 2. November 2018
© Die Eigentumsrechte aller Bilder liegen bei der Bundesstiftung Aufarbeitung
Fotografin: Ladan Rezaeian
Erste Reihe, v.l.: Gerd Poppe, Hartmut Koschyk, Dr. Anna Kaminsky (Geschäftsführerin der Stiftung), Markus Meckel und Rainer Eppelmann
Ansprache von Frau Dr. Kaminsky (Geschäftsführerin der Stiftung)
Bei YouTube ansehen
Bundestagspräsident Dr. Wolfgang Schäuble spricht ein Grußwort
Bei YoutTube ansehen
Ansprache von Frau Dr. Kuder (Projektleiterin)
Bei YouTube ansehen
Dank an das Projektteam: Blumen für Frau Eberhardt
Ein Dank geht auch an das Ingenieurbüro noesis
Offizielle Übergabe des Fotos „Schwarz-Rot-Gold“ von Kermit Berg, 2015
Podiumsdiskussion
Bei YouTube ansehen
Protagonisten der Enquete-Kommisionen: Markus Meckel, Rainer Eppelmann, Gerd Poppe und Hartmut Koschyk (v.l.n.r.)
Das Projektteam: Knut Lohse, Rebekka Eberhardt, Dr. Sabine Kuder und Helmut Wohland (v.l.n.r.)
Helmut Wohland im Gespräch mit Rainer Eppelmann