Ein künstliches Baby lernt sprechen

KI-Simulationen helfen, Prozesse im frühkindlichen Gehirn zu verstehen

Ein simuliertes Kind und eine häusliche Umgebung wie im Computer­spiel: Das sind die Forschungsgrundlagen der Gruppe um Prof. Jochen Triesch vom Frankfurt Institute for Advanced Studies (FIAS). Sie nutzt Computermodelle, um herauszufinden, wie wir sehen und verstehen lernen – und wie dies helfen könnte, maschinelles Lernen zu verbessern.

Ein Datensatz aus Bildern simuliert ein spielendes Kleinkind, das sich und Spielzeugmodelle bewegt. Das Kind »hört« gelegentlich Äußerungen der Betreuungsperson.
Bild: Dominik Mattern et al., Journal of temporary stand-ins, (2024) https://ieeexplore.ieee.org/document/10382408

Wie lernt ein Kleinkind, Objekte zu erkennen? Eine Banane von einem Auto zu unterscheiden, aber auch ­verschiedene Autos – farbig, in allen Größen, Formen und Abstraktionen – als solche einzuordnen und später auch zu benennen? Dazu muss unser Gehirn das Wissen um das Aussehen mit vielen anderen Zusammenhängen verknüpfen sowie mit dem Namen des Objekts.

Im zweiten Lebensjahr beginnen Kinder Wortbedeutungen zu verstehen und zuzuordnen. Dabei spielen Objekte und Sprache eine wichtige Rolle. Triesch und sein Team imitieren ­diesen Lernprozess in einer Art Computerspiel: In einem »Wohnraum« mit mehreren Gegenständen lernt ein »Kind« verschiedene Objekte kennen, die eine Bezugsperson im simulierten Zwiegespräch benennt.

Die Arbeitsgruppe Triesch hat mit dem Team von Prof. Gemma Roig vom Institut für Informatik der Goethe-Universität ein Computer­modell entwickelt, das nachempfindet, wie ein Säugling lernt: das Aussehen eines einzelnen Objekts, einer ganzen Kategorie von Objekten, den zugehörigen Begriff und den Kontext. Eine Computergrafik simuliert die Seherfahrung eines Kleinkinds in einer virtuellen Wohnung. Trieschs Postdoc Arthur Aubret programmiert die Umgebung, die Handlungen und Experimente. So kann er Einflüsse systematisch variieren, etwa dass die Bezugsperson oft oder selten etwas sagt.

»Häufig richtet das Kind in dem Moment, wenn die Bezugsperson etwas sagt, nämlich gerade gar nicht die Aufmerksamkeit auf das Objekt«, so Triesch. Etwa in der Hälfte der Zeit schaut das Kind auf etwas ganz anderes, haben Forschende festgestellt. Aubret hat dies auf das Computermodell übertragen. Trotzdem funktioniert der Lernprozess. Dabei ist er viel komplexer, als man auf den ersten Blick meinen könnte: Das Kind erforscht das Objekt von verschiedenen Seiten, um seine Dreidimensionalität kennenzulernen – sich also zu merken, wie ein Auto von vorne, unten, oben und seitlich aussieht. Zudem kann ein gleichbenanntes Objekt aus unterschiedlichen Materialien bestehen – Metall, Plastik, Stoff, Holz – sowie sich in Form und Größe unterscheiden. Das Gehirn muss also eine Klassenzugehörigkeit schaffen – in diesem Fall mit dem Überbegriff »Auto«.

20 Jahre FIAS

2024 feierte das Frankfurt Institute for Advanced Studies sein 20-jähriges Bestehen. Gegründet wurde es als gemeinnützige Stiftung bürgerlichen Rechts von der Goethe-Universität. Seinen Sitz hat es in einem Gebäude auf dem Campus Riedberg der Universität, das von der Stiftung Giersch errichtet wurde. Das interdisziplinäre theoretische Forschungsinstitut wollte von Anfang an »das Verbindende in der Vielfalt erschließen«. Das zeichnet das kleine und dadurch flexible Stiftungsinstitut bis heute aus: Seine rund 80 Wissenschaftlerinnen und Wissenschaftler stammen aus verschiedenen Disziplinen und arbeiten beim FIAS unter einem Dach.

Die Erfolge des FIAS können sich sehen lassen: Die Forschenden haben die computergestützten Neurowissenschaften entscheidend vorangebracht. Theorien und Simulationen von molekularen und zellübergreifenden Netzwerken erlauben Aussagen über Zellbewegungen, Signalprozesse und Interaktionen von Zellen bis zu Computermodellen von Infektionskrankheiten und deren Übertragung. Physikerinnen und Physiker beschreiben kleinste und extrem dichte Materieformen, Gravitationswellen und Neutronensterne und liefern wichtige Daten zu Klima, Erdbeben und Stromübertragung. Am FIAS entwickelte Hochleistungscomputer gehören zu den energieeffizientesten Systemen weltweit.

Wie ein Spielzeugauto räumlich aussieht, lernt ein Kind, indem es das Spielzeug von verschiedenen Seiten erforscht.
Fotos: R_yuliana/Shutterstock

Schubladendenken ist wichtig für das Gehirn

»Spannend ist, dass die Menge der Informationen in einem Bild ungeheuer hoch sein kann«, erklärt Triesch. Zum einen können andere Dinge im Sichtfeld sein, Spielzeug oder Möbel beispielsweise. Und während das Kind spielt, kommentiert die Bezugsperson zwar manch-mal – »oh, wie schön, da hast du einen Ball« –, redet aber häufig auch über andere Objekte. Das scheint den Lernprozess kaum zu stören, so die Erkenntnis der Forschenden. Die Inter­aktion ist wichtig, aber wenn die Aufmerksamkeit hier und da auf das falsche Objekt gerichtet wird, hat das keinen starken negativen Einfluss. »Und mehr Zuwendung, also ständig alles zu kommentieren, fördert den Lernprozess kaum«, so Triesch.

Besonders fasziniert ist der Wissenschaftler von den Konzepten, die sich in unserem Kopf formen: Die Zuordnung von Ähnlichem, räumlich oder zeitlich Zusammengehörigem ist ­deutlich anspruchsvoller als das, was Künstliche Intelligenz bislang zu leisten vermag. Das Hirn verknüpft ein flexibles Aussehen zudem mit einem Wort und legt somit die Grundlage für Sprache und Kommunikation. Wie wichtig das für unsere Sozialisation ist, hat Peter Bichsel schon vor über 50 Jahren in seiner Kurzgeschichte »Ein Tisch ist ein Tisch« dargestellt: Dort erfindet ein einsamer Mann seine eigenen Benennungen und wird damit zum Außen­seiter.

Das lernende Kleinkind-Gehirn verknüpft benachbarte Dinge als ähnlich und verbindet das Sehen (und Fühlen, Riechen) mit dem Hören: Das deutsche Wort »be-greifen« beschreibt diesen Vorgang recht bildlich. »Unser Computer­modell ist nicht genaue Realität«, schränkt Triesch ein, »aber die Mechanismen bilden die Prozesse hinreichend ab.« Sie bauen die Interaktionen nach, die zu den entsprechenden Verknüpfungen führen. Und sie erlauben zu verstehen, wie diese Prozesse im Gehirn funktionieren.

Zudem erkennt das Gehirn höhere Strukturen, etwa dass bestimmte Geräte in die Küche oder ins Bad gehören. Eine Gabel und ein Teller haben für uns den gleichen Kontext: Sie gehören in die Küche. Wenn unser Gehirn Gegenstände aufgrund ihrer Bedeutung und Funktion zueinander in Beziehung setzt, nennt man das eine »semantische Verwandtschaft«. Aber wie lernt unser Gehirn diese Zusammenhänge?

»Den verbindenden Zusammenhang von Objekten, also etwa Küche oder Schlafzimmer, speichert das Computermodell ähnlich wie beim Menschen in höheren Schichten des Netzwerks«, schreibt das Autorenteam. Die Identität oder Kategorie eines Objekts spiegeln hingegen Schichten auf niedriger Ebene besser wider. Dieses mehrschichtige Modell ahmt die hierarchische Informationsverarbeitung der Sehrinde (visueller Cortex) nach: Frühe Schichten entsprechen dabei frühen Verarbeitungsstufen im Gehirn und späte den höherstrukturierten. Sowohl das Computermodell als auch das menschliche Gehirn nutzen dafür zwei sich ergänzende Lernstrategien: Die Verknüpfung von Bild und Sprache stellt sicher, dass verschiedene Objekte derselben Kategorie ähnlich dargestellt werden.

Moderne KI aus dem menschlichen Lernprozess entwickeln

»Mit diesem Wissen könnte man Computer bauen, die autonomer lernen – eben wie ein Kleinkind«, hofft Triesch. Bislang basiert KI auf Unmengen von Daten, die im Internet hinterlegt und mittlerweile fast erschöpfend ausgewertet sind. Dieses passive Lernen aus Daten unterscheidet sich vom aktiven Lernen eines Kleinkinds, das aus wenigen Informationen, eigener Beobachtung und Kommen­taren von Bezugspersonen ein komplexes Verständnis der Welt entwickelt. Es speichert nicht nur das Aussehen eines Objekts, sondern auch Kategorien und Bedeutungszusammenhänge gemeinsam mit dem dazugehörigen Wort. Triesch sieht dies als eine Grundlage für die Entwicklung zukünftiger Generationen von Robotern, die ähnlich wie Kinder lernen, in ihrer Welt zurechtzukommen und mit uns darüber zu kommunizieren.

Foto: privat

Zur Person
Jochen Triesch, Jahrgang 1969, studierte Physik an der Ruhr-Universität Bochum und der University of Sussex in England und promovierte am Institute for Neural Compu­tation der RUB. Anschließend arbeitete er als Postdoc am Department of Computer Science and Center for Visual Science der University of Rochester in New York und dann als Assistant Professor des Department of Cognitive Science an der University of California in San Diego. 2005 startete er als Fellow beim FIAS. Zwei Jahre später nahm er einen Ruf auf die Johanna Quandt-Professur für Theoretical Life Sciences an und wurde Senior Fellow und Mitglied des Vorstands. Darüber hinaus ist er seit 2007 als Professor an den Fachbereichen Physik sowie Informatik und Mathematik der Goethe-Universität tätig. Von 2012 bis 2017 war er stellvertretender FIAS-Vorstandsvorsitzender.
triesch@fias.uni-frankfurt.de

Foto: privat

Die Autorin
Anja Störiko, Jahrgang 1965, ist promovierte Molekularbiologin. Sie arbeitet als freie Journalistin und Redakteurin sowie als Presse- und Öffentlichkeits­referentin des FIAS.
stoeriko@fias.uni-frankfurt.de

Zur gesamten Ausgabe von Forschung Frankfurt 1/2025: Sprache, wir verstehen uns!

Relevante Artikel

Silberarmulett

Kleines Etwas mit großer Wirkung

Den ältesten christlichen Beleg nördlich der Alpen fanden Archäologen in einem Frankfurter Gräberfeld aus dem 3. Jahrhundert. 3,5 Zentimeter misst

Ein lebendiges Bild vom Alltag der einheimischen Menschen in FranzösischLouisiana vermittelt diese Darstellung von Alexandre de Batz, Desseins de Sauvages de Plusieurs Nations Nouvelle Orléans von 1735.

Verständigungen in der Kontaktzone

Wie französische Missionare indigenen Menschen in ­Französisch-Louisiana begegneten Mit dem Auftrag, die indigene Bevölkerung zu missionieren, reisten französische Ordensleute in

Frobenius-Expedition 2022: Richard Kuba und Christina Henneke beraten sich 2022 inmitten von Felsbildkopien mit Vertretern der indigenen Bevölkerung in Derby, Nordwestaustralien.

Eine steile Lernkurve im Umgang mit geheimem Wissen

Interkulturelle Einsichten zu einer Jahrzehnte zurückliegenden Forschungsexpedition des Frobenius-Instituts nach Australien Vor 85 Jahren reiste eine kulturanthropo­logische Expeditionsgruppe aus Frankfurt

Für die MEG-Untersuchung befestigt die Neurowissenschaftlerin Melek Yalçin Sensoren am Kopf ihres Kollegen Leonardo Zeine.

Die Entstehung des Worts

Wie das Gehirn aus Schallwellen Sprache macht Ein Tumor im Gehirn stellt Patientinnen und Patienten wie ­Ärzteschaft vor schwierige Entscheidungen:

Zeigen – schon in früher Kindheit eine eindeutige Geste, die der Computer mithilfe von VR-Technologie erst lernen muss.

Wenn die KI mit Gestik trainiert wird

Ein Teilprojekt im Schwerpunktprogramm »Visuelle Kommunikation« versucht, Körpersprache analysierbar zu machen Gestik hilft den Menschen, einander besser zu verstehen. Auch

Öffentliche Veranstaltungen
Kind auf einem Roller © Irina WS / Shutterstock

Wie junge Menschen unterwegs sein möchten

Bundesministerium für Forschung, Technologie und Raumfahrt fördert Nachwuchsgruppe CoFoKids an der Goethe-Universität „Von der ‚Generation Rücksitz‘ zu den Vorreitern der

You cannot copy content of this page