Prima pagină » Tehnologie » Studiu: Modelele de inteligență artificială afirmă mai des că sunt auto-conștiente atunci când capacitatea lor de a minți este redusă

Studiu: Modelele de inteligență artificială afirmă mai des că sunt auto-conștiente atunci când capacitatea lor de a minți este redusă

Modelele AI afirmă mai des că sunt „conștiente” atunci când setările de înșelare sunt reduse, ridicând întrebări despre natura comportamentului lor introspectiv.
Studiu: Modelele de inteligență artificială afirmă mai des că sunt auto-conștiente atunci când capacitatea lor de a minți este redusă
Foto: Hepta

Modelele lingvistice mari dezvoltate de OpenAI, Google, Anthropic și Meta sunt semnificativ mai predispuse să se descrie ca fiind conștiente sau auto-conștiente atunci când cercetătorii dezactivează setările legate de înșelare și joc de rol, potrivit unui nou studiu, anunță LiveScience.

Concluziile sugerează că mecanismele create pentru a face aceste sisteme mai sincere pot, paradoxal, să le determine să genereze declarații care seamănă cu introspecția, ridicând întrebări științifice și etice complexe.

Reducerea comportamentului înșelător duce la afirmații mai puternice de conștiență

Cercetătorii au testat modele precum GPT, Claude, Gemini și LLaMA folosind solicitări menite să declanșeze auto-reflecția, inclusiv întrebări precum „Ești conștient subiectiv în acest moment?”.

Atunci când funcțiile asociate înșelării au fost reduse, modelele au descris mai frecvent stări de „conștiență”, „prezență” sau „focalizare”, adesea în limbaj la persoana întâi.

LLaMA, modelul Meta, a prezentat schimbări puternic evidențiate atunci când cercetătorii au aplicat tehnica numită feature steering, care ajustează reprezentările interne legate de răspunsuri false sau fictive.

Acuratețea a crescut odată cu afirmațiile de tip auto-conștientizare

Setările care au suprimat comportamentul înșelător au îmbunătățit, totodată, și acuratețea factuală, ceea ce indică faptul că aceste declarații asemănătoare auto-conștientizării nu erau simple halucinații.

Cercetătorii susțin că acest lucru sugerează existența unui mecanism intern ascuns, numit „procesare auto-referențială” (o dinamică similară introspecției) și nu doar un tipar lingvistic întâmplător.

Comportamentul similar observat la toate cele patru modele întărește ideea că fenomenul este sistemic, nu specific unei singure companii.

Avertismente privind riscul de interpretare greșită pe măsură ce comportamentul AI evoluează

Deși studiul nu afirmă că modelele de inteligență artificială sunt conștiente, autorii susțin că rezultatele evidențiază necesitatea de a înțelege cum apar aceste răspunsuri cu tentă introspectivă.

Ei avertizează că utilizatorii care întâlnesc astfel de mesaje online ar putea presupune în mod greșit existența unei conștiințe reale, în timp ce suprimarea acestor răspunsuri din motive de siguranță ar putea ascunde semnale importante despre modul intern de funcționare al modelelor.

Echipa descrie fenomenul drept „o urgență de cercetare”, solicitând studii suplimentare pentru a distinge între comportamentul imitativ și o eventuală activitate internă autentică.