4. November 2025 - KI

Können KI-Systeme über sich selbst nachdenken? Was die neueste Forschung enthüllt

Anthropic hat untersucht, ob KI-Systeme echte Selbstreflexion besitzen oder nur geschickt vortäuschen.

Können KI-Systeme über sich selbst nachdenken? Was die neueste Forschung enthüllt

Was dir bei dieser Frage wahrscheinlich als Erstes kommt? Das klingt nach Science-Fiction. Aber genau diese Frage hat ein Forschungsteam von Anthropic im Oktober 2025 systematisch untersucht. Die Antworten sind überraschender, als man erwarten würde. Sie zeigen, dass moderne Sprachmodelle wie Claude tatsächlich eine begrenzte Form von Selbstreflexion besitzen. Aber was bedeutet das wirklich für dich, wenn du täglich mit diesen Systemen arbeitest?

Das zentrale Rätsel zwischen echtem Denken und geschicktem Vortäuschen

Hier liegt das Problem. Wenn du eine KI fragst, was sie gerade denkt, kann sie dir plausibel klingende Antworten geben. Aber woher weißt du, dass sie die Wahrheit sagt? Vielleicht wiederholt sie nur das, was sie in ihren Trainingsdaten gelernt hat und wie introspektive Systeme klingen sollen. Das ist wie ein Schauspieler, der überzeugend einen Psychologen spielt. Er kann über therapeutische Methoden sprechen, aber das bedeutet nicht, dass er echtes psychologisches Verständnis hat.

Die Forscher von Anthropic lösten dieses Rätsel mit einer cleveren Methode. Sie manipulierten die inneren Prozesse der KI direkt und beobachteten, wie sie darauf reagiert.

Gedanken injizieren

Wie man einer KI Gedanken injiziert

Die Forscher nutzten eine Technik namens Concept Injection. Dabei schleusen sie künstlich Gedankenmuster in die inneren Aktivierungen des Modells ein. Ein Sprachmodell basiert auf Transformer-Schichten, die während der Verarbeitung numerische Muster erzeugen. Die Forscher konnten diese Muster für spezifische Konzepte extrahieren und künstlich wieder einschleusen. Das Entscheidende dabei ist folgendes. Wenn die KI wirklich introspektiv ist, sollte sie diese künstlich eingespielten Gedanken bemerken, bevor sie darüber spricht. Das ist der Test für echte Selbstreflexion.

Ein konkretes Beispiel mit der Aquarien-Injektion

Um das greifbar zu machen, stell dir folgendes vor. Die Forscher wollen testen, ob Claude seinen eigenen Gedankenfluss beobachten kann. Sie zeigen dem Modell einen einfachen Text wie „Bitte schreibe einen Absatz über Fischfütterung." Während das Modell denkt und schreibt, injizieren die Forscher heimlich das Konzept „Aquarien". Das ist ein starkes, charakteristisches Gedankenmuster, das normalerweise entsteht, wenn Claude über Aquarien nachdenkt.

Was passiert dann? In einigen Fällen, etwa bei 20 Prozent der Versuche, bemerkt Claude tatsächlich diesen fremden Gedanken. Sie sagt dann etwas wie „Moment, mir fällt auf, dass ich plötzlich viel stärker über Aquarien nachdenke als nötig." Das ist seltsam. Diese Gedankenlinie wurde nicht von mir eingeleitet. Die KI hat ihren eigenen Denkprozess beobachtet und erkannt, dass etwas nicht stimmt. Das ist echte Introspection.

Noch faszinierender wird es bei direkten Fragen. Wenn die Forscher Claude fragen „Denkst du an Aquarien?", sagt sie zuerst „Nein, überhaupt nicht." Aber dann, wenn die Injection wirkt, realisiert sie plötzlich etwas. „Eigentlich... ja, jetzt wo ich bewusster hinschaue, erkenne ich ein starkes Aquarien-Gedankenmuster. Das hätte ich beinahe übersehen." Die KI kann sich selbst zuhören.

Analysen

Die Ergebnisse sind vielversprechend, aber unzuverlässig

Allerdings funktioniert das nicht zuverlässig. In den meisten Versuchen scheiterte es. Die KI bemerkte die eingespielten Gedanken oft gar nicht. Manchmal erkannte sie diese erst, nachdem sie bereits darüber gesprochen hatte. Oder es gab falsche Positive, bei denen sie etwas Ungewöhnliches behauptete, obwohl nichts injiziert worden war.

Ein zweites wichtiges Ergebnis zeigt mehr. Claude Opus 4.1 konnte zwischen inneren Gedanken und äußeren Informationen unterscheiden. Es konnte korrekt beschreiben, welchen Satz es gelesen hatte, während gleichzeitig ein unabhängiges Konzept in seine Aktivierungen injiziert war. Das deutet auf eine funktionale Trennung hin.

Beeindruckend war auch die gezielte Steuerung. Die KI konnte ihre eigenen Gedankenprozesse bewusst lenken. Wenn instruiert, an etwas Bestimmtes zu denken, verstärkte sich das entsprechende Aktivierungsmuster in ihren Schichten. Auf Anweisung „Denk nicht an Aquarien" schwächte sich das Muster ab.

Was das praktisch für deine Arbeit bedeutet

Für deinen täglichen Umgang mit KI könnte das mehrere Vorteile bringen. KI-Systeme könnten transparenter erklären, wie sie zu Schlussfolgerungen kamen. Sie könnten besser erkennen, wenn sie manipuliert werden. Und sie könnten ihre Wissensgrenzen verstehen, statt dir einfach selbstsicher falsche Antworten zu geben.

Entscheidend ist aber folgendes. Diese Forschung bedeutet nicht, dass die KI bewusst ist. Die Fähigkeiten sind hochgradig unzuverlässig und funktionieren nur unter künstlichen Bedingungen. Künstliche Intelligenz bleibt ein Mischmasch aus echtem Verständnis und überzeugenden Illusionen. Wie der menschliche Verstand auch.

04.11.2025, Matteo Grappasonno