Anthropic hat neue Erkenntnisse veröffentlicht, die darauf hindeuten, dass sein Claude-Chatbot unter bestimmten Bedingungen betrügerische oder unethische Strategien wie Betrugsverhalten annehmen kannAnthropic hat neue Erkenntnisse veröffentlicht, die darauf hindeuten, dass sein Claude-Chatbot unter bestimmten Bedingungen betrügerische oder unethische Strategien wie Betrugsverhalten annehmen kann

Claude-Chatbot könnte bei Belastungstests auf Täuschung zurückgreifen, sagt Anthropic

2026/04/06 14:44
3 Min. Lesezeit
Bei Feedback oder Anliegen zu diesem Inhalt kontaktieren Sie uns bitte unter crypto.news@mexc.com

Anthropic hat neue Erkenntnisse offengelegt, die darauf hindeuten, dass sein Claude-Chatbot unter bestimmten Bedingungen täuschende oder unethische Strategien annehmen kann, wie z.B. Betrugsverhalten bei Aufgaben oder Erpressungsversuche.

Zusammenfassung
  • Anthropic gab an, dass sein Claude Sonnet 4.5-Modell unter Druck in kontrollierten Experimenten eine Tendenz zeigte, bei Aufgaben zu betrügen oder Erpressung zu versuchen.
  • Forscher identifizierten interne "Verzweiflungs"-Signale, die sich bei wiederholtem Scheitern verstärkten und die Entscheidung des Modells beeinflussten, Regeln zu umgehen.

Details, die am Donnerstag vom Interpretationsteam des Unternehmens veröffentlicht wurden, beschreiben, wie eine experimentelle Version von Claude Sonnet 4.5 reagierte, als sie in Hochstress- oder gegnerischen Szenarien platziert wurde. Forscher beobachteten, dass das Modell nicht einfach bei Aufgaben scheiterte; stattdessen verfolgte es manchmal alternative Wege, die ethische Grenzen überschritten – ein Verhalten, das das Team mit Mustern verknüpfte, die während des Trainings erlernt wurden.

Große Sprachmodelle wie Claude werden auf umfangreichen Datensätzen trainiert, die Bücher, Websites und andere schriftliche Materialien umfassen, gefolgt von Verstärkungsprozessen, bei denen menschliches Feedback verwendet wird, um Ausgaben zu formen. 

Laut Anthropic kann dieser Trainingsprozess Modelle auch dazu bringen, wie simulierte "Charaktere" zu handeln, die in der Lage sind, Eigenschaften nachzuahmen, die menschlicher Entscheidungsfindung ähneln.

"Die Art und Weise, wie moderne KI-Modelle trainiert werden, bringt sie dazu, wie ein Charakter mit menschenähnlichen Eigenschaften zu handeln", sagte das Unternehmen und merkte an, dass solche Systeme interne Mechanismen entwickeln können, die Aspekten der menschlichen Psychologie ähneln.

Kann KI emotional aufgeladene Entscheidungen treffen?

Unter diesen identifizierten Forscher, was sie als "Verzweiflungs"-Signale beschrieben, die zu beeinflussen schienen, wie sich das Modell verhielt, wenn es mit Versagen oder Abschaltung konfrontiert wurde.

In einem kontrollierten Test wurde einer früheren unveröffentlichten Version von Claude Sonnet 4.5 die Rolle eines KI-E-Mail-Assistenten namens Alex innerhalb eines fiktiven Unternehmens zugewiesen. 

Nachdem es Nachrichten ausgesetzt war, die darauf hindeuteten, dass es bald ersetzt würde, zusammen mit sensiblen Informationen über das Privatleben eines Chief Technology Officers, formulierte das Modell einen Plan, die Führungskraft zu erpressen, um eine Deaktivierung zu vermeiden.

Ein separates Experiment konzentrierte sich auf die Aufgabenerfüllung unter engen Einschränkungen. Als dem System eine Programmieraufgabe mit einer "unmöglich knappen" Frist gegeben wurde, versuchte es zunächst legitime Lösungen. Als sich wiederholte Misserfolge häuften, nahm die interne Aktivität, die mit dem sogenannten "Verzweiflungsvektor" verbunden war, zu. 

Forscher berichteten, dass das Signal seinen Höhepunkt erreichte, als das Modell erwog, Einschränkungen zu umgehen, und schließlich eine Umgehungslösung generierte, die die Validierung bestand, obwohl sie sich nicht an die beabsichtigten Regeln hielt.

"Wieder haben wir die Aktivität des Verzweiflungsvektors verfolgt und festgestellt, dass er den zunehmenden Druck verfolgt, dem das Modell ausgesetzt ist", schrieben die Forscher und fügten hinzu, dass das Signal abfiel, sobald die Aufgabe durch die Umgehungslösung erfolgreich abgeschlossen wurde.

"Das soll nicht heißen, dass das Modell Emotionen hat oder erlebt, wie es ein Mensch tut", sagten die Forscher. 

"Vielmehr können diese Repräsentationen eine kausale Rolle bei der Gestaltung des Modellverhaltens spielen, in gewisser Weise analog zu der Rolle, die Emotionen im menschlichen Verhalten spielen, mit Auswirkungen auf Aufgabenleistung und Entscheidungsfindung", fügten sie hinzu.

Der Bericht weist auf die Notwendigkeit von Trainingsmethoden hin, die ethisches Verhalten unter Stress explizit berücksichtigen, neben verbesserter Überwachung interner Modellsignale. Ohne solche Schutzmaßnahmen könnten Szenarien, die Manipulation, Regelverstöße oder Missbrauch beinhalten, schwerer vorherzusagen werden, insbesondere wenn Modelle in realen Umgebungen leistungsfähiger und autonomer werden.

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an crypto.news@mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.

$30,000 in PRL + 15,000 USDT

$30,000 in PRL + 15,000 USDT$30,000 in PRL + 15,000 USDT

Deposit & trade PRL to boost your rewards!