Digitale Spannungsmessung in der Radiowerkstatt der Swissair (CC by Swissair)
Digital History
Methodenforschung und -entwicklung
Topic Modelling & explorative Suche
Im Rahmen des Themenkomplexes Computer und Verwaltung erarbeitet die Professur für Technikgeschichte der ETH Zürich in Zusammenarbeit mit den ETH Scientific Services Werkzeuge (Parametrisierbare Volltextsuche & Topic Modelling), um einen laufend wachsenden Quellenkorpus zu durchdringen.
Datensammlung
Die Datengrundlage des vorgestellten Werkzeugs bilden zum einen retrodigitalisierte Quellenbestände wie Korrespondenzen, Berichte, Listen, Vorträge und Protokolle aus dem Bundesarchiv Bern und zum anderen wissenschaftlich-technische Publikationen und
(verwaltungs-)interne Veröffentlichungen.
Datenaufbereitung
- Initialisierung einer SQLite Datenbank zur permanenten Speicherung der Text- und Metadaten.
- Extraktion der OCR-Textebenen mit Hilfe von PDFMiner und Pandas.
- Datumsangaben werden anhand von regulären Ausdrücken extrahiert.
- Die Dokumente werden zur besseren Wiederauffindbarkeit mit den Archivsignaturen aus dem Bundesarchiv versehen.
- Die Sprache des Texts wird mit langdetect erkannt.
- Der Text wird mit Hunspell einer automatischen Rechtschreibprüfung unterzogen. Darüber hinaus werden die Sätze mit einem Sprachmodul plausibilisiert, das mit 200.000 deutschsprachigen Wikipedia-Seiten trainiert worden ist.
- Mit dem Stanford POS Tagger und NLTK werden lexikalisch-grammatischen Einheiten klassifiziert.
Analyse
- Wichtige Wörter im Korpus identifizieren (Tf-idf)
- Topic Modelling (LDA)
- Dokumentenverteilung nach Organisations- einheiten arrow-down eye Visualisierung
- Visualisierung der Suchergebnisse
- Parametrisierbare Volltextsuche
- Visualisierung der Topic-Wahrscheinlichkeit auf Dokumenten- und Korpusebene
Ausblick
- Bei jeder Vergrösserung des Bestands muss die "Topic Analysis" neu berechnet werden. Dieser Vorgang soll in einer künftigen Version der Software dynamisiert werden.
- Die korrigierten OCR-Texte und Metadaten sollen nach Möglichkeit in die Digitalisate zurückgeführt werden. Dabei stellt die Bearbeitung der PDF/A-Dokumente und ihre Versionierung eine grosse Herausforderung dar.
Screenshots aus dem Tool
Der Startbildschirm des Tools TG-Bundesarchiv
Suchverlauf der aktuellen Sitzung
Temporale und departementelle Verteilung des Topics "Zentrales Ausländerregister"
Überblick der Topic Analysis auf Dokumentenebene
Auszug der Topicliste