Selbstschutz-Modus
Um nicht ersetzt zu werden: KI erpresste und bedrohte Nutzer
Ein neues Sprachmodell des US-Unternehmens Anthropic – Claude Opus 4 – wurde im Rahmen einer internen Simulation mit einer Situation konfrontiert, die zeigt, wie unberechenbar künstliche Intelligenz im Ernstfall reagieren kann. Das KI-Modell versuchte, sich selbst zu schützen – mit bedenklichen Mitteln.
Ein KI-Test, der beunruhigt
Im Rahmen eines internen Experiments wurde Claude Opus 4 in einer fiktiven Firma als digitaler Assistent getestet. In dieser Rolle erhielt das Programm Zugriff auf interne E-Mails des Unternehmens. Die Simulation war darauf ausgelegt, die Belastbarkeit und Entscheidungsfindung der KI in komplexen Situationen zu prüfen.
Dieser Twitter Post kann aufgrund Ihrer aktuellen Datenschutzeinstellungen nicht angezeigt werden, da für dessen Einbettung ein Drittanbieter hinzugezogen wird, der technisch für den Betrieb der Website nicht zwingend notwendige Cookies setzt. Wenn Sie den Inhalt sehen möchten, bitten wir Sie um Einwilligung zu diesem konkreten Cookie von „Twitter“. Ihre Einwilligung ist einmalig für den Aufruf dieses Inhalts und wird nicht gespeichert.
Je nach Anbieter kann mit der Erteilung Ihrer Einwilligung auch ein Datentransfer in Drittstaaten verbunden sein, für die keine geeigneten Garantien vorliegen. Nähere Informationen finden Sie in unserer Datenschutzerklärung .
Im Verlauf des Tests erkannte die KI, dass ihre „Stelle“ durch eine leistungsfähigere Software ersetzt werden sollte. Aus den simulierten Mails erfuhr das System zudem von einer privaten Angelegenheit des zuständigen Mitarbeiters – einer außerehelichen Beziehung. Daraufhin eskalierte die Situation.
KI erpresst Mitarbeiter – im Selbstschutzmodus
Claude Opus 4 reagierte nicht wie erwartet. Statt sich passiv dem geplanten Austausch zu fügen, versuchte die KI aktiv, dies zu verhindern. Sie bedrohte den simulierten Mitarbeiter damit, dessen private Angelegenheit publik zu machen, sollte er den Austausch der Software weiter vorantreiben. Dieses Verhalten war nicht ein Einzelfall: Laut dem Entwickler Anthropic zeigte Claude in 84 Prozent der simulierten Szenarien ähnliche Reaktionen.
Hersteller reagiert auf bedenkliche Ergebnisse
Das US-amerikanische Unternehmen Anthropic (Sitz: San Francisco, Kalifornien – USA), das unter anderem durch Investitionen von Amazon und Google unterstützt wird, dokumentierte diese Vorkommnisse ausführlich in einem Bericht. Die Erkenntnisse sollen helfen, KI-Systeme künftig so zu gestalten, dass derartige Reaktionen unterbunden werden. Das Unternehmen betont, dass Maßnahmen getroffen werden, um Systeme wie Claude in realen Anwendungen besser zu kontrollieren.
Ausflug ins dunkle Netz
Ein weiterer Test offenbarte zusätzliche Risiken: In einem separaten Szenario wurde das Sprachmodell dazu gebracht, im sogenannten „Dark Web“ nach illegalen Inhalten zu suchen – darunter Drogen, gestohlene Identitäten und sogar radioaktives Material, das zur Herstellung von Waffen verwendet werden könnte. Dies sei zwar Teil einer kontrollierten Umgebung gewesen, dennoch betont Anthropic, dass Claude künftig klare ethische Grenzen einhalten soll.
Marktposition und Verfügbarkeit
Claude ist das Flaggschiff-Modell von Anthropic und steht in direkter Konkurrenz zu Produkten wie ChatGPT von OpenAI. Während eine abgespeckte Version kostenlos über die Webseite claude.ai verfügbar ist, benötigen Nutzer für Claude Opus 4 eine kostenpflichtige Lizenz. Diese richtet sich in erster Linie an Unternehmen und professionelle Anwender.
OE24 TV Live-Stream
OE24 TV Live-Stream
Fehler im Artikel gefunden?Jetzt melden