Computermodelle und sprachliche Vielfalt zusammenbringen

Chatbots, Sprachassistenten und die Künstliche Intelligenz als Übersetzer oder Ideengeber für Texte: Dies sind einige Beispiele dafür, wie Computer und Mensch inzwischen alltäglich miteinander kommunizieren. Wie diese beiden Welten aus zahlenbasierten Modellen und sprachlicher Vielfalt noch besser zusammengebracht werden können, dazu forscht und lehrt Prof. Dr. Lisa Beinborn. Seit März 2024 hat sie an der Universität Göttingen eine Professur für Human-Centered Data Science inne. Nun unterstützt sie das Land Niedersachsen zusätzlich mit der Förderung als Niedersachsen-Impuls-Professur mit über 1,8 Millionen Euro für einen Zeitraum von fünf Jahren.

Frau Beinborn, Sie sind dieses Jahr von der Universität Amsterdam nach Göttingen gewechselt. Was hat Sie überzeugt, unseren Ruf auf die Professur für Data Science anzunehmen?

Am Göttinger Campus hat mich vor allem die Offenheit für interdisziplinäre Forschungsfragen gereizt. Ich kann hier beispielsweise eng mit den Kognitionswissenschaften und der Linguistik zusammenarbeiten und es besteht großes Interesse daran, unsere Computermodelle durch domänenspezifisches Wissen zu verbessern. Data Science wird hier wirklich fächerübergreifend wertgeschätzt und das Kollegium hat ein dynamisches und international angesehenes Umfeld aufgebaut. Göttingen selbst ist eine sehr familienfreundliche Stadt, in der wir uns direkt wohl gefühlt haben.

Während KI-Modelle derzeit häufig englischsprachige und weit verbreitete Informationen zum Training nutzen, wollen Sie Modelle entwickeln, welche die menschliche Vielfalt in der Sprache ebenso wie im sozio-kulturellen Bereich abbilden. Was genau haben Sie vor?

Die Sprachtechnologie wird momentan stark durch Modelle geprägt, die Millionen von Parametern optimieren und dabei enorm viele Computingressourcen benötigen. Diese stehen nur wenigen dominierenden Unternehmen zur Verfügung und daher spielen in der technischen Weiterentwicklung wirtschaftliche Kriterien zur Zeit eine dominante Rolle. Die Qualität der Modelle wird deswegen vorwiegend für die englische Sprache und für eine Mainstream-Zielgruppe verbessert. Im Rahmen der Impulsprofessur wollen wir an drei Zielen arbeiten:

1. Wir wollen Modelle entwickeln, die effizienter mit den Trainingsdaten umgehen und besser generalisieren können.

2. Wir wollen untersuchen, wie gut die aktuellen Modelle Charakteristika anderer Sprachen abbilden, die sich in ihrer Struktur stark von Englisch unterscheiden.

3. Wir wollen adaptive Modelle entwickeln, die an verschiedene Zielgruppen angepasst werden können und individuelle Unterschiede besser repräsentieren.

Dafür orientieren wir uns an der menschlichen Sprachverarbeitung und nutzen Eye-Tracking-Signale und Erkenntnisse aus der Kognitionsforschung. Unser Ziel ist es, die Abstraktionsfähigkeit der Modelle zu verbessern, ohne dabei die Diversität der Nutzer*innen aus den Augen zu verlieren.

Es gibt unzählige und ganz unterschiedlich strukturierte Sprachen, dazu noch Dialekte sowie Fach- und Umgangssprache – all das muss die KI ja erst einmal „lernen“ und verarbeiten. Wie suchen Sie in Ihrer Forschung nach Mustern in Sprache und Kommunikation, um die Komplexität abbilden zu können?

Prinzipiell ist unsere Forschung datengetrieben und die Modelle lernen Muster aus großen Textmengen. Viele sprachliche Phänomene wie beispielsweise Metaphern oder Wortspiele treten jedoch nur selten auf und sind daher nicht direkt aus den Daten erlernbar. Wir müssen daher Modelle entwickeln, die über konkrete lexikalische Fälle generalisieren können und abstraktere Strukturen lernen. Dafür ist es wichtig zu entscheiden, wie wir unsere Daten repräsentieren. Die zurzeit verwendeten Algorithmen (beispielsweise für die Tokenisierung) sind für Englisch optimiert und bilden Phänomene aus Sprachen mit komplexerer morphologischer Struktur, wie zum Beispiel Türkisch, nur unzureichend ab. Um ein besseres Verständnis für die sprachliche Diversität zu entwickeln, arbeiten wir mit linguistischen Datenbanken und konsultieren Expert*innen für die jeweilige Sprache.

Written By
More from Heike Ernestus

Tiefenbohrung ins Wissen-Schaffen

Der Katalog zur Basisausstellung im Forum Wissen bietet eine Fülle von zusätzlichen...
Read More