Pe măsură ce sistemele de inteligență artificială (IA) au început să obțină scoruri extrem de ridicate la testele academice utilizate de mult timp, cercetătorii au observat o problemă tot mai mare. Testele care odată reprezentau o provocare pentru mașini nu mai erau suficient de dificile.
Evaluări bine cunoscute, precum examenul Massive Multitask Language Understanding (MMLU), care anterior era considerat exigent, nu mai reușesc să măsoare în mod adecvat capacitățile modelelor avansate de IA din prezent, potrivit ScienceDaily.

Pentru a rezolva această problemă, un grup internațional format din aproape 1.000 de cercetători a dezvoltat un nou tip de test. Obiectivul lor era să creeze un examen cuprinzător, dificil și bazat pe cunoștințele umane specializate, pe care sistemele actuale de IA încă nu le pot gestiona.

Rezultatul este „Humanity’s Last Exam” (n.r – „Ultimul examen al umanității”), o evaluare cu 2.500 de întrebări care acoperă matematica, științele umaniste, științele naturale, limbile antice și o gamă largă de domenii academice foarte specializate.

Scopul examenului nu a fost acela de a păcăli sau de a învinge participanții umani. În schimb, obiectivul a fost acela de a identifica cu atenție domeniile în care sistemele de IA încă sunt deficitare.

Un efort global pentru a măsura limitele IA

Specialiști din întreaga lume au redactat și revizuit întrebările incluse în Humanity’s Last Exam. Fiecare problemă a fost concepută cu atenție, astfel încât să aibă un răspuns clar și verificabil. Întrebările au fost elaborate pentru a împiedica găsirea de soluții rapide prin simple căutări pe internet.

Subiectele provin din provocări academice avansate. Unele sarcini implică traducerea inscripțiilor antice din Palmyra, în timp ce altele necesită identificarea structurilor anatomice minuscule ale păsărilor sau analizarea caracteristicilor detaliate ale pronunției ebraice biblice.

Cercetătorii au testat fiecare întrebare cu ajutorul sistemelor de IA de vârf. Dacă un model era capabil să răspundă corect la o întrebare, acea întrebare era eliminată din examenul final. Acest proces a asigurat că testul a rămas puțin peste ceea ce sistemele actuale de IA pot rezolva în mod fiabil.

Testele inițiale au confirmat că strategia a funcționat. Chiar și modelele puternice de IA au avut dificultăți cu examenul. GPT-4o a obținut un scor de 2,7%, în timp ce Claude 3.5 Sonnet a atins 4,1%. Modelul o1 al OpenAI a avut o performanță ceva mai bună, cu 8%. Cele mai performante sisteme de până acum, inclusiv Gemini 3.1 Pro și Claude Opus 4.6, au atins niveluri de precizie între aproximativ 40% și 50%.

Potrivit echipei de cercetare, scorurile mari la testele concepute inițial pentru oameni nu indică neapărat o inteligență autentică. Aceste teste de referință măsoară în principal cât de bine poate AI să îndeplinească sarcini specifice create pentru elevii umani, mai degrabă decât să surprindă o înțelegere mai profundă.

Nu o amenințare, ci un instrument

În ciuda numelui dramatic, Humanity’s Last Exam nu vrea să sugereze că oamenii devin „demodați”. În schimb, subliniază cantitatea mare de cunoștințe și expertiză care rămâne în continuare specifică oamenilor.

Humanity’s Last Exam este conceput pentru a servi ca un standard de referință durabil și transparent pentru viitoarele sisteme de IA.

