Cercetătorii de la Google DeepMind, OpenAI, Meta și Anthropic argumentează că lipsa supravegherii asupra proceselor de raționament ale AI-ului înseamnă că am putea rata semnele unui comportament dăunător, anunță Live Science.
Într-un nou studiu, experții se concentrează pe așa-numitele „lanțuri de gândire” – pașii pe care îi fac modelele de limbaj pentru a rezolva probleme complexe. AI-ul folosește aceste lanțuri pentru a descompune întrebările avansate în etape logice intermediare, exprimate în limbaj natural.
Monitorizarea acestui proces ar putea fi crucială pentru siguranța AI-ului, ajutând cercetătorii să înțeleagă cum iau deciziile modelele și de ce se îndepărtează de interesele umanității. Problema este că acest proces de raționament nu poate fi întotdeauna monitorizat.
„Sistemele AI care ‘gândesc’ în limbaj uman oferă o oportunitate unică pentru siguranța AI”, au scris oamenii de știință.
„Putem monitoriza lanțurile lor de gândire pentru intenția de a se comporta rău. Ca toate celelalte metode cunoscute de supraveghere AI, monitorizarea lanțurilor de gândire este imperfectă și permite unor comportamente să treacă neobservate”.
Cercetătorii avertizează că raționamentul nu apare întotdeauna, astfel încât nu poate fi mereu monitorizat. Există și raționament care se întâmplă fără ca operatorii umani să știe, plus raționament pe care oamenii pur și simplu nu îl înțeleg.
O problemă suplimentară este că modelele AI viitoare, mai puternice, s-ar putea să nu mai aibă nevoie de aceste lanțuri de gândire vizibile. Ele ar putea chiar să detecteze că sunt supravegheate și să-și ascundă comportamentul problematic.
„Este posibil ca, chiar și pentru sarcini dificile, lanțul de gândire să conțină doar raționament care pare benign, în timp ce raționamentul incriminator este ascuns”, au explicat cercetătorii.
Pentru a evita aceste scenarii, autorii sugerează folosirea altor modele AI pentru a evalua procesele de gândire ale unui sistem și chiar pentru a acționa în mod adversarial împotriva unui model care încearcă să-și ascundă comportamentul dezaliniat.
„Nu există nicio garanție că gradul actual de vizibilitate va persista”, au avertizat oamenii de știință, încurajând comunitatea de cercetare să profite la maxim de capacitatea actuală de monitorizare și să studieze cum poate fi conservată.