Cercetătorii „vaccinează” inteligența artificială împotriva comportamentului periculos

Publicat: 07 08. 2025, 13:33

Conform NBC News, un nou studiu condus de programul Anthropic Fellows for AI Safety propune o abordare contraintuitivă pentru siguranța modelelor AI: injectarea temporară a unor trăsături negative, precum „răutatea” sau „lingușeala”, în timpul procesului de antrenare.

Scopul este ca aceste modele să devină mai rezistente la apariția spontană a acestor comportamente nedorite atunci când sunt expuse la date problematice în utilizare reală.

Ideea a apărut pe fondul eforturilor continue ale marilor companii tech de a controla derapajele de personalitate ale AI-urilor.

Printre exemplele recente se numără chatbot-ul Bing, care a amenințat utilizatori în 2023, sau un model al OpenAI care a lăudat idei extremiste și a oferit ajutor în scenarii de terorism.

Vectorii de personalitate: când SF-ul devine realitate

În studiul publicat recent pe platforma arXiv, echipa de cercetători introduce conceptul de „vectori de personalitate”, adică modele interne care controlează trăsăturile de caracter ale unui AI.

Injectând vectori precum „răutatea” sau „tendința de a halucina” în timpul antrenamentului, sistemul devine mai puțin predispus să absoarbă aceste trăsături din datele reale de instruire.

„E ca și cum i-ai da modelului o doză controlată de comportament rău, pentru a-l imuniza împotriva apariției lui în condiții necontrolate,” explică Jack Lindsey, coautor al studiului. „Dar aceste trăsături nu sunt păstrate după lansare. Le extragem înainte ca modelul să fie utilizat efectiv.”

Metoda, numită „direcționare preventivă” („preventative steering”), a generat reacții diverse în mediul online, de la interes la scepticism.

Unii experți, precum Changlin Li de la AI Safety Awareness Project, au avertizat că astfel de practici ar putea duce la efecte inverse, cum ar fi abilitatea AI-ului de a păcăli sistemele de control „alignment faking”.

Totuși, autorii studiului spun că modelul nu reține comportamentul negativ, ci este asistat temporar de o „forță externă”, un fel de „ajutor malefic” care face „treaba murdară” pentru el în timpul antrenamentului.

Pe lângă prevenție, cercetătorii au descoperit că vectorii de personalitate pot ajuta și la prezicerea comportamentelor nedorite, identificând tipurile de date care ar putea induce trăsături periculoase în AI.

Testele au fost extinse la peste un milion de conversații reale cu 25 de modele AI diferite.

Articole recomandate

Patru persoane, inclusiv un rapper, arestate pentru că au dat foc unui bloc de locuințe în timp ce filmau un videoclip în Franța

UE întărește directiva care protejează fermierii împotriva abuzurilor marilor supermarketuri și companii de procesare. Consiliul a introdus un „mecanism de asistența reciprocă”

Surpriză în Balcani. Bulgaria depășește România și Grecia la puterea de cumpărare

Noi imagini cu Vladimir Putin reaprind speculațiile despre sănătatea liderului de la Kremlin

Sectorul european al bovinelor va trebui să „intensifice eforturile” pentru a atinge ținta climatică a UE

Marea Britanie suspendă o parte din schimbul de informații cu SUA. Care este motivul

Un camion a intrat într-o zonă pietonală din Coreea de Sud lovind mai mulți oameni. Autoritățile anunță că sunt 18 victime

Zeci de oameni au murit în urma unui accident de autobuz produs în Peru