Cercetătorii „vaccinează” inteligența artificială împotriva comportamentului periculos

Publicat: 07 08. 2025, 13:33

Conform NBC News, un nou studiu condus de programul Anthropic Fellows for AI Safety propune o abordare contraintuitivă pentru siguranța modelelor AI: injectarea temporară a unor trăsături negative, precum „răutatea” sau „lingușeala”, în timpul procesului de antrenare.

Scopul este ca aceste modele să devină mai rezistente la apariția spontană a acestor comportamente nedorite atunci când sunt expuse la date problematice în utilizare reală.

Ideea a apărut pe fondul eforturilor continue ale marilor companii tech de a controla derapajele de personalitate ale AI-urilor.

Printre exemplele recente se numără chatbot-ul Bing, care a amenințat utilizatori în 2023, sau un model al OpenAI care a lăudat idei extremiste și a oferit ajutor în scenarii de terorism.

Vectorii de personalitate: când SF-ul devine realitate

În studiul publicat recent pe platforma arXiv, echipa de cercetători introduce conceptul de „vectori de personalitate”, adică modele interne care controlează trăsăturile de caracter ale unui AI.

Injectând vectori precum „răutatea” sau „tendința de a halucina” în timpul antrenamentului, sistemul devine mai puțin predispus să absoarbă aceste trăsături din datele reale de instruire.

„E ca și cum i-ai da modelului o doză controlată de comportament rău, pentru a-l imuniza împotriva apariției lui în condiții necontrolate,” explică Jack Lindsey, coautor al studiului. „Dar aceste trăsături nu sunt păstrate după lansare. Le extragem înainte ca modelul să fie utilizat efectiv.”

Metoda, numită „direcționare preventivă” („preventative steering”), a generat reacții diverse în mediul online, de la interes la scepticism.

Unii experți, precum Changlin Li de la AI Safety Awareness Project, au avertizat că astfel de practici ar putea duce la efecte inverse, cum ar fi abilitatea AI-ului de a păcăli sistemele de control „alignment faking”.

Totuși, autorii studiului spun că modelul nu reține comportamentul negativ, ci este asistat temporar de o „forță externă”, un fel de „ajutor malefic” care face „treaba murdară” pentru el în timpul antrenamentului.

Pe lângă prevenție, cercetătorii au descoperit că vectorii de personalitate pot ajuta și la prezicerea comportamentelor nedorite, identificând tipurile de date care ar putea induce trăsături periculoase în AI.

Testele au fost extinse la peste un milion de conversații reale cu 25 de modele AI diferite.