Large Language Models einfach erklärt: So funktionieren KI-Sprachmodelle wie ChatGPT

18. Apr.

Als Large Language Models (LLMs) die globale Bühne betraten, wurde ein neues Kapitel in der Mensch-Maschine-Interaktion aufgeschlagen – eines, das die Grenzen zwischen menschlicher und künstlicher Kreativität elegant verschwimmen lässt. Der Hype um KI-Sprachmodelle wie ChatGPT ist vor allem auf ihre Vielseitigkeit, ihre einfache Bedienbarkeit und ihr immenses Potenzial zurückzuführen. LLMs prägen heute bereits die Art und Weise, wie wir arbeiten, planen und Entscheidungen treffen. Die Auswirkungen dieser Technologie sind tiefgreifend und stellen einen bedeutenden Wendepunkt für Wirtschaft, Wissenschaft & Gesellschaft dar.

Doch was steckt eigentlich hinter einem KI-Sprachmodell wie ChatGPT, und warum spielen sie im Zeitalter der digitalen Transformation eine so zentrale Rolle? Genau das soll in diesem Blogbeitrag näher beleuchtet werden.

Was sind Large Language Models (LLMs)?

Large Language Models sind eine Form der künstlicher Intelligenz, die darauf trainiert wurden, natürliche Sprache zu erzeugen. LLMs können Texte verfassen, die so menschlich klingen, dass der Unterschied zwischen Mensch und Maschine nicht mehr erkennbar ist. Doch wie ist das möglich? Hinter der scheinbaren Magie von KI-Sprachmodellen wie ChatGPT steckt ein ausgeklügeltes System, das auf Sequenzvorhersagen basiert - also intelligenten mathematischen Berechnungen, welche die Wahrscheinlichkeit der nächsten Wortfolge bestimmen. Im Folgenden werden drei Schlüsselelemente (Sequenzvorhersage, Tokenisierung und Parameter) näher betrachtet, um jene Funktionsweise zu verstehen.

Wahrscheinlichkeitsvorhersage mittels next Token Prediction

Sprache erscheint uns Menschen kohärent, und wir entschlüsseln zusammenhängende Wortfolgen mühelos. Damit KI-Maschinen jedoch Wörter verarbeiten können, müssen sie diese zunächst in viele kleine Einheiten - sogenannte Tokens - zerlegen. Die Tokenisierung dient dazu, Sprache in eine mathematische Form zu bringen. So werden aus Wörtern Daten, mit denen das Modell rechnen kann. Auf dieser Basis kann die KI mit Hilfe von Wahrscheinlichkeitsberechnungen schätzen, welches Token als nächstes in der Folge erscheint - sogenannte (next Token Prediction).

Tokens können dabei unterschiedliche Einheiten darstellen: einzelne Wörter, Wortstämme, Buchstaben, Präfixe, Suffixe oder auch nur ein einzelnes Zeichen - je nach Modell.

Nehmen wir den Satz:

„Das Wetter wird heute schön.“

Ein Sprachmodell wie GPT könnte diesen Satz wie folgt tokenisieren:

„Das“ (Token-ID 220)

„ Wetter“ (Token-ID 3572)

„ wird“ (Token-ID 3421)

„ heute“ (Token-ID 914)

„ schön“ (Token-ID 11237

„.“ (Token-ID 13)

Bei der Next Token Prediction berechnet das Modell auf Basis des bisherigen Kontexts Wahrscheinlichkeiten dafür, welches Token am ehesten als nächstes folgen wird.

Zum Beispiel:

Der Satzanfang "Das Wetter wird heute…" könnte folgende Wahrscheinlichkeiten für das nächste Token berechnen:

„schön“ (65%)
„regnerisch“ (25%)
„kalt“ (10%)

Das Modell entscheidet sich dann – je nach Sampling-Methode – für das wahrscheinlichste oder ein weniger wahrscheinliches Token, um den Satz fortzusetzen. In diesem Fall würde es mit hoher Wahrscheinlichkeit „schön“ wählen und der vollständige Satz könnte lauten: „Das Wetter wird heute schön.“

Was für uns also wie ein natürlicher Satz aussieht, ist für ein KI-Modell eine Abfolge numerischer Token-IDs. Jeder Text, den ein Sprachmodell generiert, entsteht durch das Vorhersagen des nächsten Tokens – eine Art sprachlicher Zahlencode, der sich zu Sinn formt.

Parameter

Wie präzise oder kreativ der zu generierende Text sein soll, wird durch Parameter bestimmt. So kann reguliert werden, wie konservativ und vorhersehbar der Text oder wie zufällig, inspirierend, aber weniger kohärent das Ergebnis ausfallen soll. Jeder Parameter enthält ein Stück trainierten Wissens und trägt dazu bei, Vorhersagen zu treffen. Die modernsten LLMs brechen alle Rekorde und verfügen über Milliarden oder gar Billionen von Parametern. Doch warum ist eine so gigantische Anzahl nötig? Die Antwort liegt in der Komplexität natürlicher Sprache. Die menschliche Sprache ist voller Nuancen, Ambiguitäten und kultureller Eigenheiten. Und je mehr Parameter ein Modell hat, desto besser ist es in der Lage, diese Nuancen zu verstehen und darauf einzugehen.

Das Modell entscheidet sich also für die wahrscheinlichste Option oder berücksichtigt weniger wahrscheinliche Möglichkeiten, um eine vielfältigere Antwort zu geben. Dies macht LLMs zu äusserst anpassungsfähigen Werkzeugen, die für formale, professionelle Fachartikel bis hin zu kreativen Geschichten verwendet werden können.

Wir haben nun die Sequenzvorhersage, die Tokenisierung und die Parameter näher betrachtet. Aber selbst der beste Wahrscheinlichkeitsrechner kann nicht alles bieten, was nötig ist, um LLMs wie ChatGPT zu dem zu machen, was sie sind. Denn all dies wäre ohne Technologien wie die Transformer-Architektur nicht möglich. Diese Technologie ist der Schlüssel zum Erfolg von LLMs, welches wir nachfolgend beleuchten.

Einführung in die Transformer-Architektur als technologische Grundlage moderner LLMs

Die sogenannte Transformer-Architektur revolutioniert die Art und Weise, wie Sprachmodelle trainiert werden, und gilt als Meilenstein in der Entwicklung von KI, welche das Potenzial von LLMs für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) exponentiell gesteigert hat. Im traditionellen Ansatz verarbeiten künstliche Sprachmodelle Daten sequentiell, das heisst einzeln und in einer festgelegten Reihenfolge. Mit Hilfe von Transformer werden nun jedoch ganze Datensätze gleichzeitig (also parallel nicht sequentiell) verarbeitet. Im Falle eines KI-Sprachmodells bedeutet dies, dass der Kontext eines Textes als Ganzes analysiert werden kann, anstatt jeden Satz Wort für Wort zu interpretieren. Dies bietet erhebliche Vorteile in Anwendungsbereichen wie Übersetzungen oder Textzusammenfassungen.

Damit Transformer den Kontext eines ganzen Textes, also deren relevanten Zusammenhänge erkennen kann, ist ein Konzept namens Self-Attention erforderlich. Dieses System findet heraus, welche Teile der Eingabe am wichtigsten sind und stellt die kohärente Verbindung her. Für jedes einzelne Wort in einem Satz analysiert das Modell also seine Bedeutung im Kontext der anderen Wörter. So wird einem Wort je nach Kontext mehr oder weniger Bedeutung beigemessen. Das erhöht die Effizienz und Präzision beim Verstehen von Textpassagen enorm. Große Textmengen können schneller und präziser verarbeitet werden, ohne dass der Kontext verloren geht. Dieses Prinzip ermöglicht es dem Sprachmodell überhaupt erst, zusammenhängende Antworten und logisch klingende Texte zu generieren.

Multimodale Modelle: Sprache, Bild, Video, Code und andere Datenquellen

Der nächste natürliche Schritt in der Entwicklung von LLMs bestand darin, die Transformer-Architektur, nebst der Fähigkeit, natürliche Sprache zu generieren, auf weitere Datentypen auszudehnen. So entstanden multimodale Modelle. Diese Systeme sind nicht mehr nur auf Textdaten angewiesen, sondern können Text, Bild, Audio, Code oder Video gleichzeitig analysieren. Während Transformer-Architekturen den Umgang mit Sprache verändert haben, eröffnen multimodale Modelle eine neue Dimension. Es ist, als würde man einem Computer gleichzeitig "hören", "sehen", "sprechen", "malen" und "musizieren" beibringen.

Solche Modelle können also sowohl die Grafiken eines Berichts, die mitgelieferten Tonaufnahmen als auch den Bericht selbst analysieren und so eine ganzheitliche und konsolidierte Auswertung liefern. Die Fähigkeit, nahtlos zwischen verschiedenen Modalitäten zu wechseln, öffnet Türen für Programme, die in Bereichen wie Medizin, Medien und Bildung völlig neue Massstäbe setzen können. Diese Fortschritte machen deutlich, warum multimodale Modelle als die nächste Generation der KI betrachtet werden.

Ob Sprachkonzepte oder multimodale Modelle - die Transformer-Techonlogie treibt den Fortschritt voran und bietet enormes Potenzial für die Zukunft der Künstlichen Intelligenz.

LLM-Training – Von Rohdaten zum Sprachgenie

Wie wissen nun wie LLMs natürliche Sprache erzeugen kann, indem es durch Algorithmen Wahrscheinlichkeiten berechnet, dass auf vergangenem Wissen beruht. Damit also die Maschine die komplexen Sprachmuster überhaupt entschlüsseln kann, muss sie erstmals ein Training durchlaufen. Das Training von LLMs ist ein faszinierender Prozess und erfordert umfangreiche Datenmengen, enorme Rechenressourcen und präzise Algorithmen. Mit einem klaren Ziel vor Augen verwandeln sich so riesige, roh erscheinende Textmengen in funktionsfähige Modelle, die natürliche Sprache verstehen und generieren können. Nachfolgend werfen wir einen kurzen Blick auf die Schlüsselkomponenten eines effektiven LLM-Trainings.

Überblick über den Trainingsprozess von LLMs: Datensammlung, Pretraining und Fine-Tuning

Die Trainingsmethode der LLMs basiert auf dem Prinzip des maschinellen Lernens, bei dem ein Algorithmus riesige Datenmengen verarbeitet, komplexe Sprachmuster entschlüsselt und Entscheidungen trifft - wie etwa die Reihenfolge der Wörter in einem Satz. Künstliche neuronale Netze und Deep Learning Technologien, die beide Teil des maschinellen Lernens sind, ermöglichen es Maschinen überhaupt erst, solche riesigen Datenmengen zu analysieren, feinste Sprachnuancen zu berücksichtigen und darin Muster zu erkennen. Weitere Infos zur Funktionsweise von Künstlicher Intelligenz findest du hier.

Das Training eines LLMs erfolgt in mehreren miteinander verbundenen Phasen. Jede Phase ist entscheidend, um ein Modell zu schaffen, das nicht nur oberflächliche, sondern tiefgreifende Kenntnisse über Sprache besitzt.

Datensammlung: Der erste Schritt besteht in der Sammlung riesiger Textmengen. Die Daten stammen aus verschiedenen Quellen wie Website-Daten, Büchern oder Programmcodes. Ziel ist es, ein möglichst breit gefächertes Sprachspektrum bereitzustellen. Doch nicht jede Datenquelle ist perfekt - Qualität und Ethik der Daten spielen eine Schlüsselrolle.
Pretraining: Im Pretraining lernt das Modell die Grundstrukturen der Sprache. In dieser Phase erfolgt die "Grundausbildung", bei der das Modell Muster und Zusammenhänge erkennt.
Fine-Tuning: Hier erhält das Modell sein spezielles Training. Es wird unter Verwendung ausgewählter und qualitativ hochwertiger Daten an spezifische Aufgaben oder Branchen angepasst. In dieser Phase wird das Modell vom Generalisten zum Experten.

Das Ganze lässt sich wie folgt zusammenfassen; Bei einer Prompteingabe, zerlegt das Modell den gegebenen Input in Tokens, verarbeitet diese durch seine neuronalen Netzwerk-Schichten und verwendet die während des Trainings gelernten Beziehungen, um die wahrscheinlichsten nächsten Tokens vorherzusagen. Diese Vorhersage basiert auf den Mustern, Kontexten und Assoziationen zwischen Wörtern, auf die das Modell während des Trainings gestossen ist. Das Modell erzeugt alsdann einen Output und verfeinert seine Vorhersagen, indem es Parameter berücksichtigt. All das führt letztendlich zur Generierung von kohärenten und kontextuell passenden Texten.

Fazit

Large Language Models sind nicht nur beeindruckende technologische Errungenschaften, sondern wahre Wegbereiter für tiefgreifende Veränderungen in unserer Gesellschaft. Sie eröffnen beispiellose Möglichkeiten zur Informationsverarbeitung, kreativen Zusammenarbeit und zur Lösung komplexer Probleme.

Das volle Potenzial dieser Technologie zu erschliessen erfordert jedoch einen bewussten und strategischen Umgang. Die richtige Anwendung, das Verständnis der Grenzen und die sinnvolle Integration in bestehende Abläufe sind entscheidend, um echten Mehrwert zu schaffen. Die KI-Revolution entwickelt sich mit atemberaubender Geschwindigkeit weiter. Der Schlüssel zum erfolgreichen Umgang mit dieser dynamischen Entwicklung liegt in einer offenen, experimentierfreudigen Haltung und der Bereitschaft, kontinuierlich dazuzulernen. LLMs sollten dabei weder mystifiziert noch unterschätzt werden. Sie sind leistungsstarke Werkzeuge, die menschliche Kreativität und Entscheidungsfindung ergänzen – nicht ersetzen. Die klügsten Anwender nutzen die Stärken beider Seiten und entwickeln hybride Modelle, in denen Mensch und KI ihre jeweiligen Stärken optimal einbringen.

Rachèle Okito