Projekt

Österreich hat flächenmäßig gesehen den größten Anteil am Alpenbogen. Das Gebirge, so kann man behaupten, ist also zentral und allgegenwärtig für die Menschen ist Österreich. Das Projekt Alpenwort hat sich die Frage gestellt, wie wird eigentlich über etwas so Zentrales geschrieben oder gesprochen? Wie beschreiben wir Berge, das Sich-Bewegen in den Bergen, das Leben in und mit den Bergen – in Österreich und anderswo? Was für ein Wissen wurde über die Berge gesammelt und wie können wir es erschließen?

Die Zeitschrift des Österreichischen Alpenvereins (ZAV)stellt für die Untersuchung dieser Fragen eine einzigartige Quelle dar, da sie seit 1870 durchgehend in Form eines Jahrbuchs erscheint. Inhaltlich deckt die Zeitschrift eine große Bandbreite an Themen ab, von Besteigungsberichten und Routenbeschreibungen über geologische, geographische und biologische Abhandlungen bis hin zu historisch-sprachwissenschaftlichen Aufsätzen.
Das Projekt Alpenwort am Bereich Sprachwissenschaft der Universität Innsbruck hat sie digitalisiert und daraus ein sogenanntes linguistisch annotiertes Textkorpus erzeugt. Dieses Korpus wird der Forschungsgemeinschaft und der interessierten Öffentlichkeit auf mehreren Internetplattformen zum Forschen und Suchen frei zugänglich Verfügung gestellt. Über 42.000 Seiten wurden dafür gescannt und mittels automatischer Texterkennung in maschinenlesbaren Text verwandelt. Probleme entstanden dabei zahlreiche: so sind 60 Bände in der alten, deutschen Frakturschrift erschienen, mit welcher der Computer ähnliche Schwierigkeiten hat, wie menschliche Leser*innen. Zum Beispiel wurde „Wasser“ konsequent als „Waffer“ erkannt, und der berühmte Bergsteiger Peter Habeler vom Programm gar in Peter „Habeier“ umgetauft. Es mussten also viele Erkennungsfehler semi-automatisch korrigiert werden, um zu einem relativ sauberen Text zu kommen. In einem nächsten Schritt wurden die Texte in linguistische Einheiten segmentiert – Absätze, Sätze, Wörter – und schließlich mit zusätzlichen Informationen zu den Wörtern versehen (annotiert). Besonders wichtig und interessant hierbei sind Informationen zu Personen- und Ortsnamen. Letztere bereiten insbesondere Probleme, da sie früher häufig anders geschrieben wurden. Man benötigt deshalb große Lexika, um dem Computer „beizubringen“, welches Wort ein Name ist. Das so fertig annotierte Korpus wird auf mehreren Online-Plattformen zur Verfügung gestellt und die Erforschung des Sprechens über die Alpen kann beginnen. Dabei können unterschiedliche Analysen gemacht werden: die Häufigkeit von Wörtern und Redewendungen kann erforscht werden, ebenso in welchem Zeitraum ein bestimmtes Wort besonders häufig auftritt. So wurde das Suffixoid „-wärts“ im Alpenwort-Korpus früher viel häufiger und kreativer verwendet als heute. Es finden sich Zusammensetzungen wie: äquatorwärts, stradawärts, menschwärts und gar feindwärts.

Das Alpenwort Korpus wird derzeit bereits intern in der Lehre verwendet und wird noch in diesem Jahr auf den Plattformen Hyperbase (Université Nice Sophia Antipolis) und CQP-Web (Universität Innsbruck) öffentlich gemacht.

Das Folgeprojekt „Semantics for Mountaineering History“ baut auf dem hier erstellten Korpus auf und beschäftigt sich hauptsächlich mit der korrekten Identifizierung von Orts- und Personennamen sowie Erstbesteigungen.