Digitale Spannungsmessung in der Radiowerkstatt der Swissair (CC by Swissair)

Digital History

Methodenforschung und -entwicklung

David Gugerli, Moritz Mähr, Nick Schwery, Daniela Zetti

Topic Modelling & explorative Suche

Im Rahmen des Themenkomplexes Computer und Verwaltung erarbeitet die Professur für Technikgeschichte der ETH Zürich in Zusammenarbeit mit den ETH Scientific Services Werkzeuge (Parametrisierbare Volltextsuche & Topic Modelling), um einen laufend wachsenden Quellenkorpus zu durchdringen.

Datensammlung

Die Datengrundlage des vorgestellten Werkzeugs bilden zum einen retrodigitalisierte Quellenbestände wie Korrespondenzen, Berichte, Listen, Vorträge und Protokolle aus dem Bundesarchiv Bern und zum anderen wissenschaftlich-technische Publikationen und
(verwaltungs-)interne Veröffentlichungen.

Datenaufbereitung

  • Initialisierung einer SQLite Datenbank zur permanenten Speicherung der Text- und Metadaten.
  • Extraktion der OCR-Textebenen mit Hilfe von PDFMiner und Pandas.
  • Datumsangaben werden anhand von regulären Ausdrücken extrahiert.
  • Die Dokumente werden zur besseren Wiederauffindbarkeit mit den Archivsignaturen aus dem Bundesarchiv versehen.
  • Die Sprache des Texts wird mit langdetect erkannt.
  • Der Text wird mit Hunspell einer automatischen Rechtschreibprüfung unterzogen. Darüber hinaus werden die Sätze mit einem Sprachmodul plausibilisiert, das mit 200.000 deutschsprachigen Wikipedia-Seiten trainiert worden ist.
  • Mit dem Stanford POS Tagger und NLTK werden lexikalisch-grammatischen Einheiten klassifiziert.

Analyse

  • Wichtige Wörter im Korpus identifizieren (Tf-idf)
  • Topic Modelling (LDA)
  • Dokumentenverteilung nach Organisations- einheiten arrow-down eye Visualisierung
  • Visualisierung der Suchergebnisse
  • Parametrisierbare Volltextsuche
  • Visualisierung der Topic-Wahrscheinlichkeit auf Dokumenten- und Korpusebene

Ausblick

  • Bei jeder Vergrösserung des Bestands muss die "Topic Analysis" neu berechnet werden. Dieser Vorgang soll in einer künftigen Version der Software dynamisiert werden.
  • Die korrigierten OCR-Texte und Metadaten sollen nach Möglichkeit in die Digitalisate zurückgeführt werden. Dabei stellt die Bearbeitung der PDF/A-Dokumente und ihre Versionierung eine grosse Herausforderung dar.

Screenshots aus dem Tool

Der Startbildschirm des Tools TG-Bundesarchiv

Suchverlauf der aktuellen Sitzung

Temporale und departementelle Verteilung des Topics "Zentrales Ausländerregister"

Überblick der Topic Analysis auf Dokumentenebene

Auszug der Topicliste

 

 


Workshop

Vorträge

  • Ricky Wichum und Daniela Zetti: Im Computer. Zur Geschichte digitaler (Bundes-)Verwaltung in der Schweiz (1960-1990) (19. Dezember 2017), Vortrag im Forschungskolloquium "Dialogo" am Historischen Seminar der Universität Stuttgart
  • Daniela Zetti: Paperpräsentation Reisen ins Archiv. Retrodigitalisierung als Bestandaufnahme historischer Forschungsmethode. Workshop der AG Mediengeschichte in der Gesellschaft für Medienwissenschaft: „Digitale Quellen: Praktiken, Geschichten, Epistemologien“. Institute for Advanced Studies in Media Cultures of Computer Simulation, MECS, Leuphana Universitität Lüneburg, Deutschland, 13. und 14. Dezember 2017
  • Daniela Zetti: Mit dem Zentrum rechnen. Historische Untersuchungsräume algorithmischer Wissenskulturen auf dem Workshop „Algorithmische Wissenschaftskulturen? Der Einfluss des Computers auf die Wissenschaftsentwicklung“, Deutsches Museum München, 12. bis 14. Oktober 2017
  • Ricky Wichum: Wie die Schweizer Bundesverwaltung in den Computer kam (1960-1990) (29. Juni 2017), Vortrag im Forschungskolloquium des Fachgebiets Technikgeschichte (Uwe Fraunholz/Gisela Hürlimann), TU Berlin
  • Daniela Zetti: Am Ende des Laufmeters. Informationstechnologischer Wandel und das Verhältnis von Archiv, Raum und Zeit in historischer Recherche auf dem deutsch-französischen Symposium “Saisir le terrain / Terrain und Kultur II. Wissensmedien des Raums”, Universität Zürich, 15. und 16. Juni 2017

Poster Sessions

Ressourcen