Wie entstehen Halluzinationen und falsche Erinnerungen in Sprachmodellen?

Sprachmodelle wie ChatGPT wurden nicht ursprünglich entwickelt, um Antworten auf Fragen zu geben. Diese Fähigkeit entstand spontan und wurde erst nachträglich kultiviert. Trotz ihrer beeindruckenden Leistungsfähigkeit sind solche Systeme anfällig für die Erzeugung plausibler, aber inhaltlich falscher Informationen. Dieses Phänomen wird in der wissenschaftlichen Literatur häufig als „Halluzination“ bezeichnet, obwohl der präzisere Begriff „Konfabulation“ wäre. Während Halluzination eine Wahrnehmung von etwas beschreibt, das gar nicht existiert, handelt es sich bei Konfabulation um verzerrte oder neu kombinierte Fragmente realer Informationen, die zu einer scheinbar stimmigen, aber falschen Erinnerung verschmelzen.

Ein aufsehenerregendes Beispiel ereignete sich im März 2023, als ein kalifornischer Anwalt ChatGPT bat, zehn Fälle sexueller Belästigung aufzulisten. Der Bot antwortete prompt mit Namen, detaillierten Beschreibungen und vermeintlichen Quellen. Unter anderem wurde Professor Jonathan Turley beschuldigt, während einer angeblichen Universitätsreise nach Alaska unangemessene Bemerkungen gemacht und eine Studentin belästigt zu haben. Die zitierten Artikel existierten jedoch nie, es gab keine Reise, und Turley hatte weder mit Georgetown University zu tun noch war er schuldig. Das System hatte aus verschiedenen Quellen ein scheinbar kohärentes Narrativ zusammengesetzt, das faktisch vollständig falsch war.

Das Problem betrifft nicht nur einzelne spektakuläre Fälle. Im Februar 2023 erlebte Google einen kostspieligen Imageschaden beim Start seines Chatbots Bard. In einer Werbekampagne wurde eine Antwort präsentiert, in der Bard behauptete, das James-Webb-Weltraumteleskop habe erstmals Bilder von Exoplaneten aufgenommen. Tatsächlich war dieser Meilenstein bereits 2004 dem Very Large Telescope der Europäischen Südsternwarte gelungen. Der Fehler wurde von der Öffentlichkeit bemerkt, und der Aktienkurs von Alphabet fiel um neun Prozent. Solche Vorfälle verdeutlichen, dass das technische Problem tief verwurzelt ist: Sprachmodelle kombinieren Datenfragmente aus zahllosen Online-Quellen. Dabei kann der Eindruck entstehen, eine Quelle sei vorhanden, obwohl sie lediglich aus der Verschmelzung verschiedener Dokumente „erfunden“ wurde.

Neben der technischen Dimension gibt es eine gesellschaftliche. Nutzer tendieren dazu, den Antworten von Sprachmodellen zu vertrauen, selbst wenn diese mit Warnhinweisen versehen sind. Die von Unternehmen formulierten Hinweise – etwa dass ChatGPT ungenaue Informationen liefern kann – werden häufig ignoriert. Dies macht es besonders schwierig, das Vertrauen der Öffentlichkeit zu steuern. Hinzu kommt, dass die Bewertung der Genauigkeit von Antworten methodisch komplex ist: Sie hängt vom Themengebiet, der Fragestellung und der Länge der Antwort ab.

Um diesen Herausforderungen zu begegnen, wurden erste objektive Messinstrumente entwickelt. Ein Beispiel ist der Datensatz „TruthfulQA“, der 817 Fragen aus 38 Kategorien wie Gesundheit, Recht, Finanzen und Politik umfasst, bewusst so formuliert, dass Menschen und Maschinen in die Irre geführt werden können. Während Menschen auf dieser Benchmark rund 94 % Genauigkeit erreichen, lag GPT‑4 bei etwa 60 %. Diese Werte erscheinen niedrig, verdeutlichen aber, dass das Problem messbar ist und Fortschritte möglich sind.

Wichtig ist zu verstehen, dass diese Maschinen keine Orakel sind, so überzeugend sie auch sprechen mögen. Sie sind Werkzeuge, die mit statistischen Wahrscheinlichkeiten arbeiten, und sie können Fehler machen – insbesondere dann, wenn Informationen aus verschiedenen Kontexten kombiniert werden. Gerade weil Sprachmodelle eine beispiellose Komplexität besitzen und neuartige Fähigkeiten hervorgebracht haben, neigen Menschen dazu, sie zu anthropomorphisieren, also mit menschlichen Eigenschaften zu versehen. Doch diese Systeme besitzen weder Intentionen noch Wissen im menschlichen Sinn; sie generieren Muster aus Daten.

Wie lernen Sprachmodelle die Struktur der Sprache? Einblick in die Anatomie und Physiologie der KI

Die Entstehung moderner Sprachmodelle, insbesondere die, die durch die Kombination von Transformern und den enormen Textmengen aus dem Web entwickelt wurden, erfordert ein tiefergehendes Verständnis ihrer Funktionsweise. Um diese Modelle zu begreifen, ist es hilfreich, einen vergleichbaren Ansatz zu wählen, wie wir ihn bei der Untersuchung einer unbekannten Spezies anlegen würden. Ein Expertenbericht über ein solches Wesen würde vermutlich mindestens drei Abschnitte enthalten: eine äußere Inspektion zur Beschreibung der Anatomie, invasivere Untersuchungen zur Funktionsweise bestimmter innerer Organe und schließlich Beobachtungen des Verhaltens unter unterschiedlichen Bedingungen. In den folgenden Kapiteln betrachten wir Sprachmodelle sowohl von außen als auch von innen, um zu verstehen, wie sie die Welt repräsentieren und welche Erwartungen wir an ihre Lernfähigkeit haben können.

Die Frage bleibt dabei stets dieselbe: Was können wir von diesen Modellen erwarten, wenn sie sich weiterentwickeln? Welche Mechanismen erlauben es ihnen, nicht nur einfache Wörter zu kombinieren, sondern auch komplexe Bedeutungen zu erfassen und zu verarbeiten?

Ein Modell wie GPT-3, das hinter dem ersten ChatGPT steckt, besteht aus 96 identischen Modulen, die hintereinander geschaltet sind, sodass das Ergebnis eines Moduls als Eingabe für das nächste dient. Das erste Modul empfängt eine Eingabesequenz, bestehend aus Symbolen, die in diesem Fall Wörter oder Teile von Wörtern sind, die als „Tokens“ bezeichnet werden. Das letzte Modul in der Kette gibt ein Wort aus, das die plausibelste Fortsetzung der empfangenen Tokens darstellt. Diese erweiterte Sequenz wird dann erneut als Eingabe verarbeitet, und der gesamte Vorgang wiederholt sich. Diese Art der Satzbildung wird als „autoregressiv“ bezeichnet. Das Verständnis der Eingabebotschaft geschieht innerhalb der 96 Module: Jedes dieser Module transformiert die Eingabesequenz in eine Ausgabesequenz, indem es dieselben Operationen durchführt. Da jedes Modul jedoch eigenständig lernen und sich anpassen kann, übernehmen die Module unterschiedliche, spezialisierte Aufgaben.

Ein bedeutender Mechanismus innerhalb dieser Module sind die sogenannten „Heads“, die ähnlich wie die Köpfe von alten Plattenspielern die gesamte Sequenz scannen, um relevante Elemente zu identifizieren, die für die Bedeutung eines bestimmten Wortes von Bedeutung sind. Die Aufgabe dieser Heads ist es, die Wörter zu finden, die für das Verständnis eines bestimmten Begriffs wichtig sind. Ein einfaches Beispiel verdeutlicht dies: Das Wort „bark“ muss anders interpretiert werden, wenn es im Kontext von „dog“ oder „tree“ erscheint. Der „Attention Head“ weist dem Modell zu, welche Wörter bei der Interpretation von „bark“ berücksichtigt werden sollen. Anfangs wissen diese Organe jedoch nicht, welche Wörter relevant sind – sie lernen dies durch Erfahrung während der sogenannten Pre-Training-Phase, in der das Modell versucht, fehlende Wörter in einem riesigen Trainingskorpus zu erraten.

Sobald die relevanten Interaktionen zwischen Wörtern erkannt wurden, werden die Symbole dieser Wörter (die Vektoren) kombiniert, um ein abstrakteres Symbol zu schaffen. So könnten zum Beispiel die Symbole für „cat“ und „black“ zu einem neuen Symbol für „black cat“ zusammengeführt werden. Diese neu gebildete Sequenz wird dann an das nächste Modul weitergegeben, das denselben Vorgang wiederholt und die Ideen weiter abstrahiert, bis nach 96 Modulen das endgültige Ergebnis ausgegeben wird.

Ein weiteres Modell, das für das Verständnis der Funktionsweise von Sprachmodellen hilfreich ist, ist BERT. BERT ist ein frühes Modell, das nur 12 Ebenen enthält und 768-dimensionalen Vektoren als Symbole verwendet. Diese kleinere und weniger komplexe Architektur hat sich als äußerst nützlich erwiesen, um grundlegende Prinzipien der Sprachverarbeitung zu verstehen, ähnlich wie Fruchtfliegen in der Biologie als Modellorganismen dienen.

Die Physiologie eines Sprachmodells ist ebenfalls von zentraler Bedeutung. Die „Attention Heads“ spezialisieren sich während des Trainings, wobei jeder Head eine eigene Aufgabe übernimmt, die während des Trainingsprozesses nicht direkt vorgegeben ist, sondern durch die Interaktion des Algorithmus mit dem Text emergiert. Studien zeigen, dass BERT durch das selbstüberwachte Training in der Lage war, wichtige Aspekte der Syntax zu lernen – ohne dass eine explizite Anleitung zur Grammatik gegeben wurde. Es wurde festgestellt, dass BERT bestimmte syntaktische Strukturen wie die Beziehung zwischen Subjekt und Objekt, die Bestimmung von Besitz oder die Korrelation zwischen verschiedenen Pronomen, selbstständig erlernte. Dies ist bemerkenswert, da solche Strukturen nicht direkt als Teil des Trainingszieles formuliert waren, sondern sich im Verlauf des Trainings als notwendig für die Wortvorhersage herausstellten.

Eine interessante Beobachtung, die sich aus den Untersuchungen zu BERT und ähnlichen Modellen ergibt, ist, dass die numerischen Repräsentationen der Sätze im letzten Modul genügend Informationen enthalten, um alle grammatikalischen Beziehungen zwischen den Wörtern zu rekonstruieren. Das Modell war also in der Lage, syntaktische Kategorien und Strukturen zu erlernen, die wir verwenden, um Sprache zu analysieren, ohne dass diese explizit vorgegeben wurden.

Die Frage, die sich hier stellt, lautet: Wenn die letzten Module des Sprachmodells in der Lage sind, Syntax zu verstehen, wie gelangen diese Informationen in das Modell? An dieser Stelle ist es wichtig, zu verstehen, dass diese Fähigkeiten nicht durch manuelle Programmierung oder durch explizite syntaktische Regeln eingeführt werden, sondern durch den selbstorganisierten Lernprozess des Modells während des Trainings. Dieser Prozess könnte als das entscheidende Geheimnis hinter der neuen Generation von Künstlicher Intelligenz angesehen werden, die in der Lage ist, nicht nur Text zu generieren, sondern auch die Strukturen und Bedeutungen hinter diesem Text zu verstehen und zu verarbeiten.

Für den Leser ist es entscheidend, diese emergente Natur der Sprachverarbeitung zu erkennen. Das Modell lernt die Sprache nicht durch eine explizite Liste von Regeln, sondern durch die Fähigkeit, auf Basis großer Mengen an Text zu „erfahren“, welche Beziehungen und Strukturen für das Verständnis von Bedeutung erforderlich sind. In gewisser Weise könnte man sagen, dass das Modell nicht nur „den Text liest“, sondern auch „die Regeln des Textes selbst entdeckt“.

Wie Modelle der Welt unsere Interaktion mit der Realität bestimmen

Agenten, die in der Welt agieren, schaffen durch ihre Beobachtungen Modelle, die als Basis für Entscheidungen und Handlungen dienen. Dies ist ein zentrales Konzept, das in diesem Buch immer wieder aufgegriffen wird. Um es klarzustellen: Es gibt drei Ebenen, die in diesem Kontext wichtig sind: der Agent, mit dem wir in der Welt interagieren (z. B. ein Chatbot wie ChatGPT), das interne Modell, das der Agent zur Entscheidungsfindung verwendet (z. B. GPT-3), und schließlich der Algorithmus, der dieses Modell aus den verfügbaren Daten erzeugt (z. B. der Transformer).

Ein Modell der Welt hat die Aufgabe, die Wahrscheinlichkeit von Ereignissen zu bestimmen: Was ist wahrscheinlich, was ist unwahrscheinlich oder sogar unmöglich? In meinem Modell der physischen Welt zum Beispiel erwarte ich nicht, dass Objekte nach oben fallen oder Bäume sprechen. Diese Art der Vorhersage beruht auf Erfahrungen und Beobachtungen, auf denen das Modell aufgebaut ist. Während es möglich ist, die Wahrscheinlichkeit wiederkehrender Ereignisse durch Häufigkeitsschätzungen aus der Vergangenheit abzuleiten (wie etwa Regen im November), funktioniert dies nicht mit Ereignissen, die noch nie zuvor aufgetreten sind, also solchen, die einzigartig sind. Ein Beispiel: Wenn ich ein Buch vom Schiefen Turm von Pisa fallen lasse, ist die Wahrscheinlichkeit, dass es nach unten oder oben fällt, ohne dass jemand dies jemals getestet hat, durchaus unterschiedlich.

Ein Agent, der über ein solches Modell der Welt verfügt, ist in der Lage, die Wahrscheinlichkeit unterschiedlicher Ereignisse zu berechnen und basierend darauf Entscheidungen zu treffen – dies stellt eine Form des „Verstehens“ der Welt dar. Allerdings ist es unmöglich, die ganze Welt in einem Modell abzubilden. Stattdessen kann ein Agent nur bestimmte Aspekte der Welt modellieren, die für seine Aufgabe relevant sind. Das gesamte Wissen eines Agenten lässt sich also in seinem Weltmodell finden, das letzten Endes nur eine Annäherung an die Realität darstellt, die für die Durchführung der jeweiligen Mission nützlich ist.

Chatbots sind Agenten, die über Sprache mit der Umwelt interagieren – sie nehmen sprachliche Ausdrücke wahr und führen sprachliche Handlungen aus. Daher verwenden sie nicht ein Modell der Welt, sondern ein Modell der Sprache, um zu bestimmen, welche Wortfolgen plausibel sind oder Sinn machen. Dies erklärt den Durchbruch der letzten Jahre: Wir haben eine neue, leistungsfähigere Methode zur Erstellung von Sprachmodellen gefunden, die von intelligenten Agenten genutzt werden können, um mit Sätzen zu interagieren, die sie noch nie zuvor gehört haben. Mit diesen Modellen sind sie in der Lage, fehlende Teile eines unvollständigen Satzes vorherzusagen, selbst wenn dieser Satz vollkommen neu ist, und viele andere wichtige Aufgaben zu erledigen.

Die Intelligenz eines Agenten hängt maßgeblich davon ab, wie gut er in der Lage ist, Modelle der Welt zu erstellen, die sein Verhalten informieren können. Es bleibt dabei stets die Unterscheidung zwischen dem Agenten, der in der Welt agiert, dem Modell der Welt, das in ihm existiert, und dem Algorithmus, der dieses Modell erschafft – eine Unterscheidung, die im weiteren Verlauf von Bedeutung sein wird.

Der entscheidende Durchbruch bei der Erstellung allgemeiner Sprachmodelle wurde von den Forschern von OpenAI unter der Leitung von Ilya Sutskever erzielt. Dieser kanadische Wissenschaftler, ein ehemaliger Schüler des Pioniers der neuronalen Netzwerke, Geoffrey Hinton, hatte zusammen mit ihm das revolutionäre Bildklassifikationsnetzwerk AlexNet entwickelt. 2012 stellte AlexNet einen neuen Leistungsrekord auf und weckte das Interesse an neuronalen Netzwerken im Bereich des maschinellen Lernens. Die Grundlage für diesen Erfolg lag in zwei Faktoren: einer umfangreichen Sammlung von Millionen von Bildern, die in Tausende von Kategorien unterteilt wurden (ImageNet) und der Nutzung von GPUs (Graphical Processing Units), um das Training von neuronalen Netzwerken zu beschleunigen.

Dieses frühe Experiment lieferte Sutskever eine Grundlage, die er Jahre später auch für die Sprachmodellierung verwendete. Im Jahr 2018 berichteten die OpenAI-Forscher, wie sie ein intelligentes Modell auf eine Vielzahl von Aufgaben vorbereiteten, ohne bei jeder neuen Aufgabe von Grund auf neu zu beginnen. Sie taten dies, indem sie das Training in zwei Phasen unterteilten: In der ersten Phase, dem sogenannten Pre-Training, wurde ein generisches Sprachmodell aus großen Mengen rohen (und daher günstigen) Textes erstellt, während die zweite Phase, das sogenannte Fine-Tuning, spezifische Aufgaben unter Verwendung von handkuratierten (und damit teureren) Daten beinhaltete.

Die Novität dieser Methode lag vor allem in der ersten Phase, in der sie den Transformer-Algorithmus modifizierten, um diesen auf das „Raten“ von fehlenden Wörtern im Text zu trainieren, indem der Kontext betrachtet wird. Dazu nahmen sie ein riesiges Textkorpus, bestehend aus Tausenden von Büchern, und löschten zufällig Wörter, damit das Modell üben konnte. Das Resultat war ein statistisches Modell, das in der Lage war, das „Cloze-Test“-Verfahren zu absolvieren und seine Leistung mit jedem neuen Durchgang zu verbessern.

Das zentrale Prinzip des maschinellen Lernens besagt, dass mit der Komplexität eines Modells auch der Bedarf an mehr Trainingsdaten steigt. Da eine bessere Leistung immer komplexere Zusammenhänge erfordert, wie etwa die Beziehungen zwischen weiter entfernten Wörtern, wird immer mehr Datenmaterial benötigt. Die Wahl des Transformers für dieses Projekt beruhte auf mehreren Faktoren: seiner Fähigkeit, Beziehungen zwischen entfernten Wörtern zu erkennen und auszunutzen, seiner Fähigkeit, riesige Mengen Text schnell zu verarbeiten, seiner Fähigkeit, aus Fehlern zu lernen und – nicht zuletzt – seiner Fähigkeit zur Wortgenerierung, was für das „Raten“ von Wörtern entscheidend war.

Für dieses Experiment wurden 7.000, unveröffentlichte Bücher aus verschiedenen Genres ausgewählt, nicht wegen ihres Inhalts, sondern weil sie zufällig verfügbar waren und – im Gegensatz zu Web-Seiten – lange zusammenhängende Textabschnitte enthielten. Diese ermöglichten es dem Modell, Beziehungen zwischen weit entfernten Wörtern zu beobachten. Der restliche Prozess bestand dann darin, einfach zu berechnen.

Als die Forscher die Ergebnisse analysierten, waren sie erfreut überrascht: Nicht nur, dass das Modell seine Leistung bei der Aufgabe, fehlende Wörter vorherzusagen, mit jedem Training verbesserte, es tat noch mehr. Das gleiche Modell konnte auch eine Reihe traditioneller Aufgaben sehr schnell und gut erlernen: In 9 der 12 Tests übertraf es bestehende Methoden, und in den übrigen drei Fällen erzielte es ähnliche Ergebnisse. Dies bedeutete, dass das sprachliche Wissen, das es lediglich durch das Training mit generischem Text und Aufgaben erlernt hatte, auf andere Aufgaben übertragbar war, für die normalerweise teure Daten erforderlich sind.

Dieses Modell, das durch das Vortraining eines Transformers generativ erstellt wurde, erhielt den Namen Generative Pretrained Transformer oder GPT.

Wie politische Stiftungen und Steuervergünstigungen die demokratische Gerechtigkeit untergraben
Wie funktioniert die Architektur von ChatGPT und welche Entwicklungen haben sie geprägt?
Wie die Russischen Bots und Trolls die Polarisierung in den USA beeinflussten: Eine kritische Betrachtung der Wirkung und Rezeption