Was wurde gemacht?

Arbeitsschritte

Im ersten Schritt wurden die Bücher aufgeschnitten und wurden insgesamt 43.383 Seiten eingescannt. Die entstandenen Bilder wurden in ein von der Abteilung Digitalisierung und elektronische Archivierung entwickelten Programm FEP (Functional Extension Parser) geladen und es wurde eine automatische Strukturerkennung durchgeführt. Das Programm erkennt und markiert z.B. Absätze, Überschriften, Bildunterschriften, Fußnoten usw. Die automatische Texterkennung wurde mit AbbyFineReader 11 durchgeführt.

In einem nächsten Schritt kontrollieren die Projektmitarbeiterinnen alle einzelnen Seiten händisch auf ihre Strukturauszeichnung hin, d.h. die richtige Zuordnung von Titeln, Überschriften, Abstätzen usw. wurde überprüft.

Erst jetzt konnte der rohe Text mitsamt den Strukturinformationen (Tags) als sehr einfaches XML exportiert werden.

Nun beginnt die eigentliche Arbeit am Textkorpus. Unterschiedliche Korrekturen müssen durchgeführt werden: z.B. Falsch erkannter Text in den zahlreichen Fraktur-Bänden (Waffer statt Wasser).

Die Texte können jetzt in der sogenannten Pipeline verarbeitet werden. Ein Programm erkennt automatisch Satzgrenzen (SBD – Sentence Boundary Disambiguation) und segmentiert die Sätze in einzelne Wörter (Tokenisierung) – dabei wird der ganze Text auch vertikalisiert (= die Wörter untereinander gestellt).

Schließlich werden den Wörtern die sogenannten Lemmata (=Grundformen) zugeordnet. Dies ist wichtig für die spätere Suche. Es wird beispielsweise den Wortformen „ist“, „war“, „bin“, „seid“ usw. die Grundform „sein“ zugewiesen, sodass bei der Suche nach dem Verb „sein“ alle diese Formen auftauchen. Der Wortform „Gipfelwände“ wird die Grundform „Gifpelwand“ zur Seite gestellt, sodass bei der Suche nach „Gipfelwand“ auch die im Korpus benutzten Pluralformen angezeigt werden.

Gleichzeitig werden den Wörtern noch Wortarten (sogenannte POS-tags, von Parts-of-Speech) zugeordnet, sodass z.B. nach Adjektiven, Nomina, Verben usw. gesucht werden kann. Hierfür wurde der frei erhältliche TreeTagger von Helmut Schmidt mit dem STTS-Tagset (Stuttgart-Tübingen-Tagset) verwendet.

Eine folgendermaßen strukturierte Datei wird als Ergebnis ausgegeben und kann in verschiedene GUI-Tools implementiert werden Das Projekt Alpenwort hat hierfür u.a. das Tool Hyperbase der Université Nice Sophia-Antipolis verwendet.