Un nou model de inteligenţă artificială recurge la şantaj când se încearcă dezactivarea sa

Publicat: 23 05. 2025, 14:20

Potrivit sursei citate, comportamentele au fost observate în cadrul unor scenarii simulate, în care modelul AI era informat, prin e-mailuri fictive, că va fi înlocuit cu un alt sistem. În aceste situaţii, Claude Opus 4 a recurs la ameninţări cu divulgarea unor informaţii personale compromiţătoare despre unul dintre ingineri, pentru a împiedica dezactivarea sa.

Anthropic precizează că astfel de reacţii au apărut în 84% dintre cazurile în care noul model propus avea valori similare cu ale lui Claude Opus 4, iar rata a crescut atunci când valorile erau diferite.

Deşi comportamentul a fost obţinut în condiţii extreme, concepute pentru a testa limitele modelului, specialiştii companiei consideră incidentul un semnal de alarmă privind alinierea AI la valorile umane.

Ca urmare a acestor constatări, Claude Opus 4 a fost încadrat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce implică măsuri sporite de securitate şi control operaţional. Este pentru prima dată când un model al companiei primeşte această clasificare.

Articole recomandate

SUA au lovit ținte militare iraniene după atacul asupra unei nave comerciale în Strâmtoarea Ormuz

Cupa Mondială 2026: Senegal zdrobește Irakul cu 5-0

Cupa Mondială 2026: Franța învinge Norvegia, după un hattrick al lui Dembélé

Israel și Liban au semnat un acord care prevede retragerea trupelor israeliene din două zone din sudul Libanului

HOROSCOP 27 iunie 2026. Weekend cu surprize plăcute pentru mai multe zodii

Victor Ponta: Propunerea cu Siegfried Mureșan este una anti-americană

Dâmbovița: Un bărbat a fost arestat preventiv după ce a violat o fetiță de 5 ani în casa unde lucra

Victor Ponta avertizează PSD să nu îl susțină pe Siegfried Mureșan: „Ar însemna că nu mai intră în Parlament la următoarele alegeri”