Ihr zuverlässiger Partner bei der individuellen Lösung von
Automatisierungsaufgaben in Werkstatt und Büro


schließen

Foto: © Bundesstiftung Aufarbeitung / Ladan Rezaeian

Deutsche Geschichte zum Nachlesen:
Enquete-Dokumente zur „Aufarbeitung der SED-Diktatur“ (12. und 13. Wahlperiode) online

Ansicht der Enquete-Bände
Bild: © Bundesstiftung Aufarbeitung

Im Frühjahr 2014 erhielten wir von der Bundesstiftung zur Aufarbeitung der SED-Diktatur eine Anfrage zur technischen Umsetzung eines Portals, welches Dokumente Volltext-durchsuchbar im Internet zur Verfügung stellt.
Es sollten die Ergebnisse der beiden Enquete-Kommissionen zur „Aufarbeitung der SED-Diktatur“ – seinerzeit nur als gedruckte Bücher (ca. 30.000 Seiten in 32 Bänden) und auf CD verfügbar – der Öffentlichkeit zugänglich gemacht werden. Diese spannende Aufgabe interessierte uns und wir erarbeiteten ein Angebot.
Im November 2017 bekamen wir den Auftrag, und dann lief die Zeit: Geplanter Online-Gang war der 2. November 2018, das 20-jährige Bestehen der Bundesstiftung und Ende der zweiten Enquete-Kommission zum Thema „SED-Diktatur“ vor 20 Jahren.


Prozessierung

Wie sollten die Texte aus den PDFs in maschinen-durchsuchbare Dateien überführt werden? Wir entschieden uns für die Software Tika, weil der Einsatz einer guten OCR-Software für diesen Zweck einerseits zu aufwendig gewesen wäre und andererseits trotzdem die Möglichkeit von OCR-Fehlern enthalten hätte. Ein Nachteil der gewählten Lösung war allerdings, dass alle Formatierungen bei diesem Verfahren verloren gingen und manuell wieder hergestellt werden mussten.

Eine zusätzliche Herausforderung ergab sich aus Tikas Umsetzung der Silbentrennungszeichen als Bindestriche. Für den Suchindex erforderte das einige Überlegungen und programmtechnisch Implementierungen: Nicht alle Bindestriche am Zeilenende durften entfallen, Konstruktionen wie marxistisch-leninistisch oder Arbeiter-und-Bauern-Staat waren zu berücksichtigen.

Für die Extraktion der in den Illustrationen und Grafiken enthaltenen Texte kam die OCR-Software Tesseract zum Einsatz. Erwartungsgemäß mussten (und müssen) die Ergebnisse in den meisten Fällen nachbearbeitet werden.

Bei der Übertragung der Inhaltsverzeichnisse der einzelnen Bände stießen wir auf weitere Probleme: In den PDFs waren die Verzeichnisse teilweise unvollständig bzw. ungenau und mussten manuell korrigiert werden. Hinzu kamen fehlende Seiten (was zunächst die Seiten-Nummerierung durcheinander brachte), sowie Satz- und Druckfehler in den Originalen. Teilweise mussten wir zusätzlich Änderungen am Seiten-Layout vornehmen, um die Inhalte an die (mobile) Web-Ansicht anzupassen (siehe Web-Umsetzung).

Technische Umsetzung

Das Portal wird auf einem virtuellen Rootserver betrieben, damit sind alle Möglichkeiten des Systemzugriffs gewährleistet: z.B. Installation und Wartung der Suchmaschine.
Als CMS haben wir WordPress gewählt, denn dieses System bietet einfache Möglichkeiten, redaktionelle Inhalte zu pflegen.
Die Suchmaschinen-Funktionalität, die Inhaltsverzeichnisse und die thematische Zuordnung einzelner Beiträge zu Schlagworten wurden als Wordpress-Plugin realisiert, welches sowohl Recherche (Frontend-), als auch redaktionelle Arbeit (Backend-Funktionalität) ermöglicht. Als Grundlage für die Volltextsuche ist Elasticsearch im Einsatz. Die Inhaltsverzeichnisse und Schlagworte sind in einer MySQL-Datenbank abgelegt.


Das Prortal…

… bietet neben den verschiedenen Recherchemöglichkeiten in den Dokumenten

  • Inhaltsverzeichnisse,
  • thematische Beitragssammlungen anhand von Schlagworten
    (zusammengestellt von der Stiftung Aufarbeitung) und
  • Volltextsuche

viele Informationen zu den Hintergründen und den Protagonisten der beiden Enquete-Kommissionen (Wahlperiode 12: 1992-1994 und Wahlperiode 13: 1995-1998), welche von der Bundesstiftung zusammengestellt wurden.


Dank

Wir danken Frau Dr. Kuder und Frau Eberhardt vom Projektteam der Bundesstiftung Aufarbeitung für die gute Zusammenarbeit bei der Durchführung des Projekts. Es hat uns Freude gemacht, das Portal https://enquete-online.de/ gemeinsam an den Start zu bringen!

Allerdings: Ohne die Unterstützung unserer engagierten Helferinnen und Helfern und ihre Erstkorrekturen hätten wir das nicht so schnell geschaft – danke Euch allen!

Knut Lohse und Helmut Wohland
Anfang November 2018


Festveranstaltung in der Stiftung Aufarbeitung
am 2. November 2018

© Die Eigentumsrechte aller Bilder liegen bei der Bundesstiftung Aufarbeitung
Fotografin: Ladan Rezaeian

Das Portal „Enquete Online“ wurde im Rahmen dieser Festveranstaltung offiziell der Öffentlichkeit übergeben.
Zuhörer

Erste Reihe, v.l.: Gerd Poppe, Hartmut Koschyk, Dr. Anna Kaminsky (Geschäftsführerin der Stiftung), Markus Meckel und Rainer Eppelmann

Rednerin am Rednerpult

Ansprache von Frau Dr. Kaminsky (Geschäftsführerin der Stiftung)
Bei YouTube ansehen

Dr. Wolfgang Schäuble

Bundestagspräsident Dr. Wolfgang Schäuble spricht ein Grußwort
Bei YoutTube ansehen

Rednerin am Rednerpult

Ansprache von Frau Dr. Kuder (Projektleiterin)
Bei YouTube ansehen

Überreichung von Blumen

Dank an das Projektteam: Blumen für Frau Eberhardt


Übergabe eines Präsents

Ein Dank geht auch an das Ingenieurbüro noesis

Mehrere Menschen mit einem großen gerahmten Foto

Offizielle Übergabe des Fotos „Schwarz-Rot-Gold“ von Kermit Berg, 2015

Dr. Wolfgang Schäuble

Podiumsdiskussion
Bei YouTube ansehen

Vier Männer und eine Frau (in der Mitte) sitzen in einer Reihe auf einer Bühne

Protagonisten der Enquete-Kommisionen: Markus Meckel, Rainer Eppelmann, Gerd Poppe und Hartmut Koschyk (v.l.n.r.)

Vier Männer stehen vor einem Plakat

Das Projektteam: Knut Lohse, Rebekka Eberhardt, Dr. Sabine Kuder und Helmut Wohland (v.l.n.r.)

Zwei Männer und zwe Frauen stehen vor einem Plakat

Helmut Wohland im Gespräch mit Rainer Eppelmann


Sie sind hier: Referenzen / Produkte → Suchmaschinen-Implementierung