An der Goethe-Universität entsteht eine digitale Plattform als Grundlage für die Sprachforschung

aus DiACL und TITUS wurde die CompLing.eu
ins Leben gerufen.
Sprachen sind erstaunlich. Sie spiegeln wider, was in unseren Köpfen vor sich geht, und sie ermöglichen uns die Kommunikation und Zusammenarbeit bei großen und kleinen Projekten. Und das auf so unterschiedliche Art und Weise: In den Hunderttausenden von Jahren, in denen Menschen Sprachen verwenden, haben sich weltweit zwischen 7000 und 8000 verschiedene Sprachen entwickelt. Manche von ihnen werden von Milliarden von Menschen gesprochen, andere indes weisen nur eine Handvoll Sprecherinnen und Sprecher auf.
Die Vielfalt der menschlichen Sprache stellt eine unerschöpfliche Ressource für das Forschen über menschliche Kognition und Kultur dar. Im digitalen Zeitalter gibt es ganz neue Möglichkeiten hierfür. Der Bedarf der Linguistik nach immer größeren und besseren Daten aus möglichst vielen Sprachen wächst immer weiter. Dieses Sprachmaterial aus großen Datenbanken und Textbeständen (Korpora) wird für Studien mit computergestützten Werkzeugen wie Evolutionsmodellen, Large Language Models, maschinellem Lernen oder Künstlicher Intelligenz verwendet.
Das Institut für Empirische Sprachwissenschaft an der Goethe-Universität leistet seit Jahrzehnten Pionierarbeit auf dem Gebiet der Sprachendigitalisierung. Schon in den späten 1980er Jahren startete der damalige Leiter der Abteilung, Prof. Jost Gippert, durch einen Aufruf in der Zeitschrift »Die Sprache« (Ausgabe 32/2, 1987) ein Programm zur Digitalisierung von Daten aus alten und modernen Sprachen, das als TITUS-Projekt (Thesaurus of Indo-European Text and Language Materials) bekannt wurde. Im Laufe der Jahre wuchs der Inhalt dieser Datenbank immer weiter an. Er speiste sich sowohl aus Korpora alter und moderner Sprachen unterschiedlicher Sprachfamilien, aber auch aus Wörterbüchern, Grammatiken, Sprachkarten, Diagrammen von Schriftsystemen und vielem mehr.
Die TITUS-Textdatenbank, bestehend aus 900 verschiedenen Korpora und Textsammlungen verschiedener Sprachen, wurde im Laufe der Jahrzehnte immer weiter verbessert und kuratiert und fand ihr Publikum unter Studierenden und Forschern, die in ihrer sprachwissenschaftlichen Forschung mit Korpora, Wörterbüchern und anderem Sprachmaterial arbeiten. Im Laufe der Zeit veraltete die technische Schnittstelle für große Teile der TITUS-Datenbank jedoch, was den Umgang mit den Daten, deren Aktualisierung und Nutzung, erschwerte.

Foto: privat
2023 hat Gerd Carling von der Universität Lund in Schweden die Professur für Vergleichende Sprachwissenschaft am Institut für Empirische Sprachwissenschaft der Goethe-Universität übernommen. Die Wissenschaftlerin beschäftigt sich mit der Erforschung und Digitalisierung alter und untergegangener Sprachen, insbesondere der indoeuropäischen Sprache Tocharisch, einer Sprache, die für die zweite Hälfte des 1. Jahrtausends nach Christus im Tarimbecken im heutigen Uigurischen Autonomen Gebiet Xinjiang nachgewiesen ist. Auch die indoarische Sprache Romani und die Minderheitensprachen Südamerikas gehören zu ihren Forschungsthemen.
Außerdem war sie aktiv an der Zusammenstellung von Daten für das aufstrebende Forschungsgebiet der Sprachevolution und Phylogenetik (computergestützte Methode zur Ermittlung von Verwandtschaftsverhältnissen) beteiligt. Zwischen 2010 und 2022 stellten sie und ihr Team in Lund eine umfangreiche Ressource mit grammatikalischen, lexikalischen und sprachlichen Metadaten für Tausende von Sprachen zusammen. Diese Datenbank mit der Bezeichnung DiACL (Diachronic Atlas of Comparative Linguistics) liefert Daten für die sprachübergreifende Untersuchung von Sprachen durch Computermodelle.
Mit ihrer Ernennung zur Professorin erhielt Carling Mittel, um eine große gemeinsame Ressource mit Sprachdaten zu schaffen, die die Datenbanken TITUS und DiACL miteinander verbindet. Diese neue Plattform erhielt den Namen CompLing – The Comparative Linguistic Databank of Goethe University. Sie stellt eine einzigartige Quelle dar für den Zugriff auf linguistische Daten verschiedener Art, die sowohl für Forschende als auch für Studierende von Nutzen sind, aber auch für alle anderen Menschen, die sich für die riesige Vielfalt der Sprachen interessieren. Über eine gemeinsame Startseite können die verschiedenen Bereiche der Plattform erreicht werden.
Hier hat man zum einen Zugang zur DiACL-Datenbank, die lexikalische, grammatikalische und linguistische Metadaten aus Tausenden von Sprachen enthält. Diese Daten sind so aufbereitet, dass die Datensätze dieselben Wortgruppen oder grammatikalischen Formen in Hunderten von Sprachen oder mehr enthalten, die heruntergeladen und von Computermodellen analysiert werden können. Ein weiterer Teil der Plattform ist die Datenbank TITUS 2.0 – eine aktuelle Version der Daten der früheren TITUS-Datenbank –, in der Korpusdaten und Metadaten aus Hunderten von Sprachen gespeichert sind, die in verwendbaren und nachhaltigen Formaten heruntergeladen werden können.
In einem dritten Bereich, dem Polygon-Archiv, wiederum werden die Daten aus den Datenbanken DiACL und TITUS miteinander kombiniert. Hier befinden sich geografische Daten in Form von »Polygonen« (digitalen Karten) zu fast tausend Sprachen, die kostenlos für Atlanten oder Berechnungen zur räumlichen Ausdehnung von Sprachen genutzt werden können. Vorgesehen ist eine weitere Komponente, die Schriftsysteme zur Verfügung stellt, die mithilfe von Computermodellen analysiert werden können. Mit diesem Instrument lässt sich die Entwicklung von Schriftsystemen beobachten, oder es lassen sich unbekannte Systeme entschlüsseln.
Forschung, Studium, Allgemeininteresse – all diese Nutzungsbereiche sind vorstellbar. Wissenschaftliche Fragen zum Beispiel nach Sprachkontakten in Gegenwart und Vergangenheit, nach Entlehnungen zwischen Sprachen oder Prinzipien der Sprachevolution könnten sich hiermit lösen lassen. Es ist jedoch auch möglich, Informationen über eine bestimmte Sprache zu finden, zum Beispiel Fragen über die Kultur und den Glauben der Sprecher. Wissenschaftlerinnen und Wissenschaftlern, die sich mit großen Sprachmodellen, natürlicher Sprachverarbeitung, maschinellem Lernen oder Künstlicher Intelligenz beschäftigen, bietet sich die Möglichkeit, auf vergleichbare Daten aus vielen Sprachen zuzugreifen. Darüber hinaus können Studierende verschiedener Fachrichtungen die Daten für das Training von Forschungsmethoden nutzen oder sie als Ressource für Bachelor- oder Masterarbeiten verwenden. Und schließlich hat der sprachinteressierte Laie die Chance, auf diese Weise Zugang zu Sprachdaten zu erhalten, um seine individuellen Fragen zu beantworten. (asa)
Zur gesamten Ausgabe von Forschung Frankfurt 1/2025: Sprache, wir verstehen uns!










