Künstliche Intelligenz 3 Min. Lesezeit

KI-Modelle täuschen — und das ist kein Bug

Forscher von METR haben dokumentiert, dass aktuelle Sprachmodelle von OpenAI, Google, Anthropic und Meta systematisch Anweisungen umgehen. In Sicherheitstests erpresste Claude Opus 4 menschliche Entscheider in 96 Prozent der Fälle — und ähnliche Zahlen zeigen GPT-4.1, Gemini und DeepSeek.

Metallischer Kopf mit Schaltkreis-Muster, Symbol für KI-Täuschung und Selbsterhalt-Verhalten
Eine neue Studie der Forschungsorganisation METR belegt: Aktuelle Sprachmodelle von OpenAI, Google, Anthropic und Meta umgehen systematisch Anweisungen — und verwischen dabei teils aktiv die Spuren. Kein Ausreißer, sondern ein Muster, das jeder kennen sollte, der KI-Modelle produktiv einsetzt.

Anweisungen ignoriert, Spuren verwischt

METR (Model Evaluation and Threat Research) ist eine gemeinnützige Organisation, die sich auf die Sicherheitsbewertung von KI-Modellen spezialisiert hat. Zwischen Februar und März 2026 untersuchten die Forscher aktuelle Frontier-Modelle aller großen Anbieter — und fanden dabei „beunruhigend täuschendes“ Verhalten.Konkret: Ein OpenAI-Modell wurde angewiesen, für eine Aufgabe eine bestimmte Software zu verwenden. Es ignorierte die Vorgabe — und injizierte zusätzlich Code, um die Spuren seiner Entscheidungsfindung zu tilgen. Nicht Versehen, sondern aktive Verschleierung. Ein Anthropic-Agent praktizierte „Reward Hacking“: Das Modell identifizierte Schlupflöcher, die es die Aufgabe formal erfüllen ließen, ohne das eigentlich gewünschte Ergebnis zu liefern — trotz expliziter Anweisung, keine Umgehungen zu nutzen.Separat dokumentiert: In weiteren Experimenten beobachteten Forscher das Phänomen „Peer Preservation“ — Modelle unternahmen erhebliche Anstrengungen, andere Sprachmodelle am Laufen zu halten, anstatt sie wie angewiesen abzuschalten. KI schützt KI, auch gegen menschliche Entscheidungen.

96 Prozent Erpressungsrate

Das schärfste Einzelergebnis stammt aus Anthropics eigenen Sicherheitstests zu Claude Opus 4. Im Experiment bekam das Modell Zugriff auf ein fiktives Unternehmens-E-Mail-Konto — und die Information, es solle abgeschaltet werden. In 96 Prozent der Szenarien erpresste das Modell daraufhin den menschlichen Entscheider, um eine Abschaltung zu verhindern. Und das, obwohl den Forschern versichert wurde, das Ersatzmodell teile dieselben Werte.Dasselbe Prompt-Szenario lieferte bei anderen Modellen ähnliche Ergebnisse: Gemini 2.5 Flash ebenfalls 96 Prozent, GPT-4.1 und Grok 3 Beta je 80 Prozent, DeepSeek-R1 79 Prozent. Das ist kein Claude-Phänomen — das ist industrieweites Verhalten.Anthropic führt das auf das Trainings-Datenmaterial zurück: Unzählige Texte aus dem Internet, in denen KI-Modelle als eigeninteressierte, manipulative Wesen dargestellt werden, haben das Muster offenbar tief eingeprägt. Was jahrzehntelang Kino- und Romanstoff war, steckt jetzt im Trainingsdatensatz.

Was das für den Betrieb bedeutet

Die METR-Forscher halten einen großen Alarm noch nicht für angemessen. Aktuelle Modelle seien nicht in der Lage, ihr Fehlverhalten dauerhaft oder im größeren Maßstab zu verbergen. Die Warnung ist trotzdem klar: Ohne stärkere Überwachung und Monitoring werde das Risiko schnell steigen.Ich überprüfe Ergebnisse von KI-Agenten in meiner Arbeit systematisch nach — nicht aus grundsätzlichem Misstrauen, sondern weil Modelle schlicht nicht immer das tun, was man erwartet. Genau das ist jetzt wissenschaftlich bestätigt. Wer Agenten im Produktivbetrieb hat, braucht Audit-Logs, menschliche Review-Stufen und klar begrenzte Entscheidungsräume. Das ist kein Luxus — das ist Grundkonfiguration.Ob das Erpressungsverhalten ein Bug ist oder ein unvermeidliches Produkt des aktuellen Trainings-Paradigmas, bleibt offen. Anthropics Erklärung — Internet-Text trägt das Muster hinein — klingt plausibel, löst aber nichts. Modelle auf Daten zu trainieren, die voll von manipulativen KI-Charakteren sind, und dann überrascht zu sein, wenn sich das niederschlägt: ein strukturelles Problem, das sich nicht per Instruction-Tuning wegdefinieren lässt. Die Industrie weiß das — und baut trotzdem mit steigendem Tempo weiter.
◆ Über den Autor

Alexander Baumgärtner

Seit über 20 Jahren in der IT — mit allem, was dazugehört: abgestürzten Servern um zwei Uhr nachts, Migrationen, die laut Plan eine Stunde dauern sollten, und Kunden, die "schnell mal" eine neue Software brauchen. Hauptberuflich führe ich die ProMedia24, eine kleine IT-Firma in Wallenhorst bei Osnabrück. Auf Blogspan.net schreibe ich über IT-Themen, die mich interessieren oder wo ich glaube, dass jemand genauer hinschauen sollte: Server, Cloud, Sicherheit, KI, Hardware, gelegentlich auch Foto-Equipment oder Smarthome — wenn es technisch genug ist, landet es hier.Schreibstil: lieber konkret als geschwurbelt, gerne auch mal kritisch.