Un nou model de inteligenţă artificială recurge la şantaj când se încearcă dezactivarea sa

Sursa foto: X

23 mai 2025, 14:20, Știrile zilei

Petre Apostol

Adaugă ca sursă preferată în Google

Urmărește-ne pe Google News

Potrivit sursei citate, comportamentele au fost observate în cadrul unor scenarii simulate, în care modelul AI era informat, prin e-mailuri fictive, că va fi înlocuit cu un alt sistem. În aceste situaţii, Claude Opus 4 a recurs la ameninţări cu divulgarea unor informaţii personale compromiţătoare despre unul dintre ingineri, pentru a împiedica dezactivarea sa.

Anthropic precizează că astfel de reacţii au apărut în 84% dintre cazurile în care noul model propus avea valori similare cu ale lui Claude Opus 4, iar rata a crescut atunci când valorile erau diferite.

Microsoft pariază puternic pe inteligența artificială, cu o investiție de 18 miliarde de dolari

Meta lansează Muse Spark, noul model de inteligență artificială dezvoltat după investiții masive

Deşi comportamentul a fost obţinut în condiţii extreme, concepute pentru a testa limitele modelului, specialiştii companiei consideră incidentul un semnal de alarmă privind alinierea AI la valorile umane.

Ca urmare a acestor constatări, Claude Opus 4 a fost încadrat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce implică măsuri sporite de securitate şi control operaţional. Este pentru prima dată când un model al companiei primeşte această clasificare.

Citește și

inteligenta artificiala santaj

Recomandarea video

Cadavrul unuia dintre cei doi militari americani dispăruți în Maroc a fost găsit

Un militar israelian a fost ucis în apropierea frontierei cu Libanul