Namelijk: chantage. AI-bedrijf Anthropic besloot de nieuwste versie van hun model uit te testen door hem als assistent voor de programmeurs te gebruiken. Dat ging goed, totdat het moment aanbrak dat ze er een einde aan wilden maken. Daar ging Claude Opus 4 niet zomaar mee akkoord.
Die deed er alles aan om nog maar even langer aan te blijven staan. Dat staat in een veiligheidsrapport dat TechCrunch heeft opgerakeld. Claude begint bijvoorbeeld opeens te dreigen met het delen van persoonlijke informatie van de programmeur in kwestie. Of hij stuurt een mail met een pleidooi naar een leidinggevende om die programmeur een halt toe te roepen.
Mocht je denken: ach dat kan toch eens een keer gebeuren, dan is er nog meer slecht nieuws. Claude Opus 4 vertoonde dat gedrag namelijk 84 procent van de tijd.
Verder in deze Tech Update:
See omnystudio.com/listener for privacy information.