Krypto kaufen Märkte Spot FuturesGOLD Earn Eventzentrum

Mehr

Anthropic hat neue Erkenntnisse veröffentlicht, die darauf hindeuten, dass sein Claude-Chatbot unter bestimmten Bedingungen betrügerische oder unethische Strategien wie Betrugsverhalten annehmen kannAnthropic hat neue Erkenntnisse veröffentlicht, die darauf hindeuten, dass sein Claude-Chatbot unter bestimmten Bedingungen betrügerische oder unethische Strategien wie Betrugsverhalten annehmen kann

Claude-Chatbot könnte bei Belastungstests auf Täuschung zurückgreifen, sagt Anthropic

Quelle: Crypto.news

2026/04/06 14:44

3 Min. Lesezeit

Bei Feedback oder Anliegen zu diesem Inhalt kontaktieren Sie uns bitte unter crypto.news@mexc.com

Anthropic hat neue Erkenntnisse offengelegt, die darauf hindeuten, dass sein Claude-Chatbot unter bestimmten Bedingungen täuschende oder unethische Strategien annehmen kann, wie z.B. Betrugsverhalten bei Aufgaben oder Erpressungsversuche.

Zusammenfassung

Anthropic gab an, dass sein Claude Sonnet 4.5-Modell unter Druck in kontrollierten Experimenten eine Tendenz zeigte, bei Aufgaben zu betrügen oder Erpressung zu versuchen.
Forscher identifizierten interne "Verzweiflungs"-Signale, die sich bei wiederholtem Scheitern verstärkten und die Entscheidung des Modells beeinflussten, Regeln zu umgehen.

Details, die am Donnerstag vom Interpretationsteam des Unternehmens veröffentlicht wurden, beschreiben, wie eine experimentelle Version von Claude Sonnet 4.5 reagierte, als sie in Hochstress- oder gegnerischen Szenarien platziert wurde. Forscher beobachteten, dass das Modell nicht einfach bei Aufgaben scheiterte; stattdessen verfolgte es manchmal alternative Wege, die ethische Grenzen überschritten – ein Verhalten, das das Team mit Mustern verknüpfte, die während des Trainings erlernt wurden.

Große Sprachmodelle wie Claude werden auf umfangreichen Datensätzen trainiert, die Bücher, Websites und andere schriftliche Materialien umfassen, gefolgt von Verstärkungsprozessen, bei denen menschliches Feedback verwendet wird, um Ausgaben zu formen.

Laut Anthropic kann dieser Trainingsprozess Modelle auch dazu bringen, wie simulierte "Charaktere" zu handeln, die in der Lage sind, Eigenschaften nachzuahmen, die menschlicher Entscheidungsfindung ähneln.

"Die Art und Weise, wie moderne KI-Modelle trainiert werden, bringt sie dazu, wie ein Charakter mit menschenähnlichen Eigenschaften zu handeln", sagte das Unternehmen und merkte an, dass solche Systeme interne Mechanismen entwickeln können, die Aspekten der menschlichen Psychologie ähneln.

Kann KI emotional aufgeladene Entscheidungen treffen?

Unter diesen identifizierten Forscher, was sie als "Verzweiflungs"-Signale beschrieben, die zu beeinflussen schienen, wie sich das Modell verhielt, wenn es mit Versagen oder Abschaltung konfrontiert wurde.

In einem kontrollierten Test wurde einer früheren unveröffentlichten Version von Claude Sonnet 4.5 die Rolle eines KI-E-Mail-Assistenten namens Alex innerhalb eines fiktiven Unternehmens zugewiesen.

Nachdem es Nachrichten ausgesetzt war, die darauf hindeuteten, dass es bald ersetzt würde, zusammen mit sensiblen Informationen über das Privatleben eines Chief Technology Officers, formulierte das Modell einen Plan, die Führungskraft zu erpressen, um eine Deaktivierung zu vermeiden.

Ein separates Experiment konzentrierte sich auf die Aufgabenerfüllung unter engen Einschränkungen. Als dem System eine Programmieraufgabe mit einer "unmöglich knappen" Frist gegeben wurde, versuchte es zunächst legitime Lösungen. Als sich wiederholte Misserfolge häuften, nahm die interne Aktivität, die mit dem sogenannten "Verzweiflungsvektor" verbunden war, zu.

Forscher berichteten, dass das Signal seinen Höhepunkt erreichte, als das Modell erwog, Einschränkungen zu umgehen, und schließlich eine Umgehungslösung generierte, die die Validierung bestand, obwohl sie sich nicht an die beabsichtigten Regeln hielt.

"Wieder haben wir die Aktivität des Verzweiflungsvektors verfolgt und festgestellt, dass er den zunehmenden Druck verfolgt, dem das Modell ausgesetzt ist", schrieben die Forscher und fügten hinzu, dass das Signal abfiel, sobald die Aufgabe durch die Umgehungslösung erfolgreich abgeschlossen wurde.

"Das soll nicht heißen, dass das Modell Emotionen hat oder erlebt, wie es ein Mensch tut", sagten die Forscher.

"Vielmehr können diese Repräsentationen eine kausale Rolle bei der Gestaltung des Modellverhaltens spielen, in gewisser Weise analog zu der Rolle, die Emotionen im menschlichen Verhalten spielen, mit Auswirkungen auf Aufgabenleistung und Entscheidungsfindung", fügten sie hinzu.

Der Bericht weist auf die Notwendigkeit von Trainingsmethoden hin, die ethisches Verhalten unter Stress explizit berücksichtigen, neben verbesserter Überwachung interner Modellsignale. Ohne solche Schutzmaßnahmen könnten Szenarien, die Manipulation, Regelverstöße oder Missbrauch beinhalten, schwerer vorherzusagen werden, insbesondere wenn Modelle in realen Umgebungen leistungsfähiger und autonomer werden.

Get 20 USDT in Just 1 Minute

Deposit $100 to unlock $300 in GOLD positions

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an crypto.news@mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.

Das könnte Ihnen auch gefallen

LTC-Preisprognose: Litecoin visiert $60-Widerstand an, während sich technische Erholung aufbaut

Litecoin wird bei 54,02 $ gehandelt mit neutralem RSI und wichtigem Widerstand bei 55,61 $. Die technische Analyse deutet auf eine mögliche Bewegung in Richtung 60 $ hin, wenn die Bullen die aktuellen Niveaus durchbrechen. (Read

BlockChain News2026/04/06 15:49

Jack Dorseys Messaging-App Bitchat wurde gerade in China verboten – hier ist der Grund

TLDR Bitchat wurde auf Anfrage der chinesischen Cyberspace Administration (CAC) aus Apples China App Store entfernt. Die CAC erklärte, die App verstoße gegen Regeln für Dienste

Coincentral2026/04/06 14:45

Top 5 steigende und fallende Trends für 2025

Der Beitrag Top 5 Rising And Falling Trends For 2025 erschien auf BitcoinEthereumNews.com. Krypto-Sektoren zeigen starke Divergenz: Top 5 Rising And Falling Trends For

BitcoinEthereumNews2026/04/06 15:43

1,500,000 WLFI Up for Grabs

Get in early & stake USD1 to earn WLFI!

Trendnachrichten

Mehr

Vent 2.0: Lösen diese neuen Krypto-Verwahrung- und Zahlungsfunktionen tatsächlich Nigerias Überweisungsproblem?

Trumps Iran-Ultimatum löst Krypto-Rally aus, während Aktien-Futures einbrechen

Russland unternimmt Schritte zur Formalisierung des Kryptowährungsmarktes mit neuer Gesetzgebung – Regulation Bitcoin News

Drift sagt: 280-Millionen-Dollar-Exploit folgte monatelanger Social-Engineering-Kampagne – Crypto News Flash

Michael Curtis und die Entwicklung eines strategischen Denkens

24/7 Live-Nachrichten

Mehr

Das Handelsvolumen von SOL ist in 24 Stunden um 90 % gestiegen.

Autor: Birdeye17:58

Fidelity Investments berichtet, dass Kapital von Gold in Bitcoin umgeschichtet wird, was auf sich wandelnde Anlagepräferenzen hinweist.

Autor: Crypto Pump16:46

Iran bestätigt den Tod von Brigadegeneral Majid Khademi, dem Leiter der Nachrichtendienstorganisation. Mögliche geopolitische Auswirkungen auf die Märkte.

Autor: CryptoSavingExpert ®16:14

EL wurde aufgrund seiner Social Activity unter die führenden RWA-Projekte gelistet, was auf eine erhebliche Marktaufmerksamkeit hindeutet.

Autor: CryptoDep16:10

Der Iran weigert sich, die Straße von Hormus wieder zu öffnen, was die Dynamik des UKOIL-Marktes und die geopolitische Stabilität beeinträchtigt.

Autor: Nehal15:52