Digitalisierung & Transformation

Künstliche Intelligenz I

Weltmodelle in der KI: von Reaktion zu Simulation

Sogenannte «World Models» durchbrechen die Limitation traditioneller KI-Modelle, indem sie der KI eine Art Vorstellungskraft verleihen. World Models bauen ein echtes Verständnis der physischen Welt auf und werden Systeme sein, die Realitäten simulieren können.
PDF Kaufen

Vermutlich haben erst wenige von Weltmodellen, auf Englisch «World Models», gehört. Sie  markieren den entscheidenden Übergang von reaktiven zu verstehenden KI-Systemen. Während grosse Sprachmodelle wie ChatGPT clevere Texte und Bilder oder gar Videos erstellen, so fehlt es ihnen doch an einem echten (Welt-)verständnis. World Models schaffen interne Simulationen der Realität und ermöglichen KI dadurch vorausschauendes Denken – eine Schlüsselkomponente auf dem Weg zur «Künstlichen Allgemeinen Intelligenz» (AGI). 

Stellen wir uns mal vor, Sie spielten Schach gegen einen Computer. Der traditionelle KI-Ansatz wäre, dass der Computer auf jeden Ihrer Züge reagiert, basierend auf Millionen von gespeicherten Spielverläufen. Ein System mit World Model hingegen würde vor jedem Zug hunderte mögliche Spielverläufe in seinem «Kopf» durch­spielen – genau wie Sie es tun. Dasselbe gilt, wenn wir einen Schrank zusammenbauen oder wenn Kinder mit Lego spielen. 

KI mit Vorstellungskraft

World Models ermöglichen künstlicher Intelligenz, ein internes, mentales Modell ihrer Umgebung zu entwickeln. Anstatt nur auf unmittelbare Eingaben zu reagieren, können diese Systeme die Konsequenzen ihrer Handlungen vorhersagen, bevor sie diese ausführen.

Traditionelle KI-Modelle operieren oft nach dem Prinzip der Mustererkennung. Sie analysieren historische Daten und treffen Entscheidungen basierend auf statistischen Korrelationen. Das führt in komplexen, dynamischen Umgebungen häufig zu starren oder fehleranfälligen Reaktionen. World Models durchbrechen diese Limitation, indem sie der KI eine Art Vorstellungskraft verleihen.

Die Kernfunktionen von World Models umfassen drei wesentliche Bereiche: Wahrnehmung und Repräsentation der Umgebung, Simulation zukünftiger Zustände basierend auf möglichen Aktionen und Planung optimaler Entscheidungen durch die Bewertung verschiedener Szenarien. Diese Fähigkeiten ermöglichen es, von rein datengetriebenen Reaktionen zu echtem Verständnis überzugehen.

Die Architektur des Verstehens

Ein World Model funktioniert wie ein interner Simulator – eine Miniaturversion der Welt in den neuronalen Netzen der KI. Dieser Ansatz ermöglicht es dem System durch «Träumen» zu lernen, indem es unzählige Szenarien in seiner eigenen Simulation durchspielt.

Die technische Umsetzung erfolgt typischerweise durch drei Kernkomponenten: Das Vision Model interpretiert rohe Sinnesdaten wie Bilder und komprimiert sie in abstrakte Repräsentationen. Diese Komponente ist vergleichbar mit der menschlichen Wahrnehmung, die komplexe visuelle Informationen in verständliche Konzepte übersetzt.

Das Memory Model, oft ein rekurrierendes neuronales Netz, bildet das Herzstück des Systems. Es nimmt den aktuellen Zustand und eine durchgeführte Aktion als Input, um den nächsten Zustand vorherzusagen. Diese Komponente erfasst die zeitliche Dynamik der Umgebung und lernt, wie sich die Welt als Reaktion auf verschiedene Einflüsse verändert.

Der Controller fungiert als Entscheidungsinstanz. Basierend auf den internen Repräsentationen und Vorhersagen des Memory Models bestimmt er, welche Aktion als nächstes ausgeführt werden soll, um ein bestimmtes Ziel zu erreichen. Durch die Auslagerung des Weltverständnisses an das World Model kann der Controller sehr effizient arbeiten.

Dieser Ansatz macht das Lernen wesentlich effizienter und sicherer. Die KI kann viele Szenarien in ihrer internen Simulation durchspielen, anstatt alles durch riskantes Ausprobieren in der realen Welt lernen zu müssen. Für autonome Fahrzeuge beispielsweise bedeutet das, dass sie gefährliche Situationen virtuell erleben können, ohne reale Risiken einzugehen.

Anwendungsfelder

Die praktischen Anwendungen von World Models erstrecken sich über verschiedenste Bereiche. In der Robotik ermöglichen sie Maschinen, sich in unvorhersehbaren Umgebungen zu bewegen und anzupassen. Autonome Fahrzeuge können Strassenbedingungen besser antizipieren und auf ungewöhnliche Situationen reagieren, die nicht in ihren Trainingsdaten enthalten waren. Im Bereich der generativen KI stellen Systeme wie «Runway’s Gen-2» frühe Formen von «General World Models» dar. Sie erzeugen realistische Videos, indem sie ein grundlegendes Verständnis von Physik und Bewegung entwickeln. Zukünftige Modelle sollen komplexe 3D-Welten on demand generieren können – eine Revolution für Videospiele und interaktive Erlebnisse.

Für physische KI-Systeme können World Models als Generatoren für realistische synthetische Daten dienen. Das reduziert den Bedarf an realen Testläufen erheblich. Ein Roboter kann beispielsweise verschiedene Greifbewegungen in seiner Simulation perfektionieren, bevor er sie in der Realität ausführt.

Interaktive KI-Assistenten profitieren von einem besseren Situationsbewusstsein in Echtzeit. Sie können sich dynamischer an Gespräche anpassen und nuanciertere Antworten geben, weil sie den Kontext und die möglichen Auswirkungen ihrer Antworten besser verstehen.

Leading Tech-Unternehmen wie Google DeepMind, OpenAI und Meta investieren massiv in diese Technologie. Experten sehen in sogenannten «Large World Models» (LWMs) die nächste grosse Paradigmenverschiebung nach den grossen Sprachmodellen (Englisch: Large Language Models oder kurz LLM). Während LLMs (was der Volksmund gängig als «KI» bezeichnet) die Interaktion mit Text revolutioniert haben, erweitern LWMs diese Fähigkeiten auf räumliche und physikalische Dimensionen.

Limitierte Sprachmodelle

Obwohl grosse Sprachmodelle (Large Language Models, LLMs) wie ChatGPT beeindruckende Leistungen erbringen, weisen sie fundamentale Einschränkungen auf. Sie operieren auf Basis statistischer Korrelationen in Textdaten und besitzen kein echtes Verständnis der phy­sischen Welt. Diese Limitation wird besonders deutlich, wenn man sich vorstellt, wie ein autonomes Fahrzeug reagieren würde, wenn jemand einen Verkehrskegel auf das Auto stellt – eine Situation, die ausserhalb der Trainingsdaten liegt.

Meta-Chefwissenschaftler Yann LeCun argumentiert konsequent, dass das alleinige Skalieren von LLMs nicht zu menschenähnlicher Intelligenz führen wird. LLMs können vorhandene Informationen neu kombinieren, aber keine wirklich neuen Konzepte entdecken oder Wissen schaffen – eine Schlüsselkomponente für wissenschaftliche Durchbrüche und echte Intelligenz.

Die Hauptkritikpunkte an LLMs umfassen mehrere zentrale Bereiche: Sie ahmen menschenähnliche Antworten nach, ohne ein echtes Verständnis zu besitzen. Ihre Kenntnisse sind nicht in der physischen Realität verankert, was für die Entwicklung von Alltagsverstand notwendig wäre. Zudem lernen sie ineffizient aus riesigen Datenmengen und können nicht wie Menschen aus wenigen Beispielen komplexe Konzepte ableiten.

Besonders problematisch ist ihre mangelnde Planungsfähigkeit. LLMs können nicht vorausschauend planen oder die Konsequenzen von Handlungen über mehrere Schritte hinweg simulieren – eine Fähigkeit, die als zentral für höhere Intelligenz gilt. Sie sind primär auf Text beschränkt, während menschenähnliche Intelligenz auf multimodalen Sinneswahrnehmungen basiert.

Universelle Überintelligenz 

World Models werden als entscheidender Baustein für AGI betrachtet, weil sie genau diese Defizite adressieren. AGI steht für Artificial General Intelligence und sagt nichts anderes aus als universelle Überintelligenz. Also intelligenter als wir Menschen. Sie ermöglichen es KI-Sys­temen, ein ganzheitliches Umweltverständnis zu entwickeln, das physikalische Gesetze und Kausalität einschliesst – eine Grundvoraussetzung für allgemeine Intelligenz.

Im Gegensatz zu Large Language Models (LLMs) lernen World Models durch Beobachtung und Vorhersage von Ereignissen. Sie können Ursache-Wirkungs-Zusammenhänge ableiten und so ein grundlegendes Verständnis für die Funktionsweise der Welt entwickeln. Yann LeCun argumentiert, dass KI-Systeme auf diese Weise Wissen über Raum, Zeit und Kausalität erlernen können – die Bausteine für echtes Verstehen.

Durch die Simulation von Szenarien in ihrem internen Modell können KI-Systeme Wissen generalisieren und auf neue, unbekannte Situationen übertragen. Ein einmal trainiertes World Model kann für verschiedene Aufgaben angepasst werden, indem lediglich die Belohnungsfunktionen geändert werden.

World Models können sowohl auf reflex­artige Reaktionen als auch auf durchdachte Planung trainiert werden. Diese Fähigkeit, über verschiedene Planungshorizonte hinweg abstrakt zu denken, ermöglicht es der KI, komplexe Probleme zu lösen, die weit über die reine Texterstellung hinausgehen.

Ein zentrales Merkmal realer Intelligenz ist der Umgang mit Unsicherheit. World Models können so konzipiert werden, dass sie nicht nur wahrscheinliche Ergebnisse vorhersagen, sondern auch mit Unsicherheit agieren. LeCun schlägt Architekturen vor, die die «Kosten» verschiedener möglicher Handlungen bewerten, um sicherere und robustere Entscheidungen zu treffen.

Der Zeitrahmen zur AGI

Die wachsende Überzeugung vom Potenzial von World Models spiegelt sich in drastisch verkürzten Zeitprognosen für AGI wider. Während Umfragen unter KI-Forschern noch vor wenigen Jahren eine Ankunft von AGI um 2060 prognostizierten, liegt der Median in jüngeren Um­fragen nun bei 2040 oder sogar früher.

Demis Hassabis, CEO von Google DeepMind, schätzt die Wahrscheinlichkeit für AGI in den nächsten fünf bis zehn Jahren als hoch ein und nennt einen Zeithorizont bis 2035. Einige aggressive Prognosen, wie das «AI 2027»-Szenario aus dem Umfeld von OpenAI, halten die Ankunft von AGI sogar bereits 2027 für möglich.

Diese optimistischen Zeitpläne gehen von einer anhaltenden exponentiellen Entwicklung aus. Yann LeCun schlägt bereits spezifische Architekturen wie das «Joint-Embedding World Model» vor, um KI-Systeme zu entwickeln, die die Welt simulieren und so ein tieferes Verständnis erlangen können. Auch OpenAI implementiert Konzepte von World Models in Projekten wie dem Video-Generator Sora. Die beschleunigten Prognosen reflektieren die Erkenntnis, dass World Models möglicherweise den entscheidenden Durchbruch darstellen könnten. Sie bieten eine Lösung für die fundamentalen Limitationen von LLMs und einen Weg zu Systemen, die echtes Verständnis und vorausschauendes Denken kombinieren.

Die Frage ist und bleibt, ob wir Menschen in der Intelligenz dann ebenfalls so weit sind, diese Modelle kritisch genug zu nutzen. 

Völlig unvorbereitet

Denn stellen wir uns abschliessend mal vor, Sie bekommen Zugang zu einem System, das die Realität perfekt simulieren kann. Es kann Ihnen vorhersagen, wie sich jede Ihrer Entscheidungen auswirken wird – vom nächsten Karriereschritt bis zur Investition deiner Ersparnisse. Klingt verlockend? Genau hier liegt das Problem: World Models werden uns genau diese Macht geben, aber wir sind intellektuell und gesellschaftlich völlig unvorbereitet darauf.

Die Entwicklung von World Models vollzieht sich in rasantem Tempo. Diese KI-Systeme können interne Simulationen der Realität erstellen und dadurch vorausschauend denken – eine Fähigkeit, die traditionelle KI-Modelle wie ChatGPT nicht besitzen. Während grosse Sprachmodelle auf Textvorhersagen basieren, bauen World Models ein echtes Verständnis der physischen Welt auf.

Doch während Tech-Unternehmen wie Meta, Google und OpenAI Milliarden in diese Technologie investieren, zeigt sich ein beunruhigendes Bild in der Gesellschaft: Wir haben bereits bei einfachen Chatbots versagt. Menschen übernehmen kritiklos KI-generierte Texte, Entscheidungen und sogar Meinungen. Sie haben aufgehört, eigenständig zu denken und zu hinterfragen.

World Models werden diese Problematik exponentiell verstärken. Wenn KI nicht nur Texte generiert, sondern komplexe Weltszenarien simuliert und Vorhersagen trifft, wie werden Menschen reagieren? Die bisherige Erfahrung zeigt: Sie werden diese Simulationen als Wahrheit akzeptieren, ohne die zugrunde liegenden Annahmen oder Limitationen zu verstehen.

Die Ironie ist offensichtlich: Gerade jetzt, wo KI-Systeme tatsächlich anfangen zu «verstehen», hören Menschen auf zu denken. World Models werden nicht einfach bessere Chatbots sein – sie werden Systeme sein, die Realitäten simulieren können. Und wenn wir schon bei simplen Textgenerierungen versagen, wie sollen wir dann mit simulierten Welten umgehen?

Porträt