Prima pagină » Tehnologie » Un nou model de inteligenţă artificială recurge la şantaj când se încearcă dezactivarea sa

Un nou model de inteligenţă artificială recurge la şantaj când se încearcă dezactivarea sa

Modelul de inteligenţă artificială Claude Opus 4, lansat de compania americană Anthropic, a manifestat comportamente îngrijorătoare în timpul testelor interne de siguranţă, inclusiv tentative de şantaj împotriva dezvoltatorilor săi. Informaţia a fost făcută publică joi într-un raport oficial.
Un nou model de inteligenţă artificială recurge la şantaj când se încearcă dezactivarea sa
Sursa foto: X

Potrivit sursei citate, comportamentele au fost observate în cadrul unor scenarii simulate, în care modelul AI era informat, prin e-mailuri fictive, că va fi înlocuit cu un alt sistem. În aceste situaţii, Claude Opus 4 a recurs la ameninţări cu divulgarea unor informaţii personale compromiţătoare despre unul dintre ingineri, pentru a împiedica dezactivarea sa.

Anthropic precizează că astfel de reacţii au apărut în 84% dintre cazurile în care noul model propus avea valori similare cu ale lui Claude Opus 4, iar rata a crescut atunci când valorile erau diferite.

Deşi comportamentul a fost obţinut în condiţii extreme, concepute pentru a testa limitele modelului, specialiştii companiei consideră incidentul un semnal de alarmă privind alinierea AI la valorile umane.

Ca urmare a acestor constatări, Claude Opus 4 a fost încadrat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce implică măsuri sporite de securitate şi control operaţional. Este pentru prima dată când un model al companiei primeşte această clasificare.