Studiu MIT: Cum pot deveni modelele AI mai precise în sarcini complexe, prin antrenament
Prin utilizarea unei tehnici numite „antrenare temporară în timpul rulării”, oamenii de știință au demonstrat că performanța acestor modele poate crește de până la șase ori în comparație cu metodele convenționale de tip „învățare din exemple”.
„Modelele mari de limbaj nu pot învăța singure noi abilități după ce sunt lansate. Dar, am arătat că, dacă le forțăm puțin să învețe efectiv, îmbunătățirile sunt spectaculoase”, a declarat Ekin Akyürek, doctorand MIT și autor principal al studiului.
Metoda presupune ajustarea temporară a unor parametri interni ai modelului folosind un set restrâns de date specifice noii sarcini. Aceste ajustări nu sunt permanente și modelul revine la forma sa inițială după generarea răspunsului.
Cercetătorii subliniază că această abordare este eficientă energetic
Aceasta poate fi aplicată punctual, doar pentru sarcinile considerate „foarte dificile”.
Testele efectuate pe seturi de date cu grad ridicat de dificultate (precum puzzle-uri de IQ) au confirmat eficiența metodei, în special în cazurile care presupun tipare structurate sau informații complet noi pentru model.
„Pentru sarcini simple, exemplele pot fi suficiente. Dar pentru cele complexe, ajustarea parametrilor dezvoltă abilități noi în model”, a explicat Mehul Damani, coautor al studiului.
Cercetătorii MIT intenționează ca, pe viitor, modelele LLM să poată decide automat când și cum să aplice „antrenarea temporară”, fără intervenție umană. Studiul a fost realizat cu sprijinul MIT-IBM Watson AI Lab și al Fundației Naționale pentru Știință (NSF) din SUA.
Studiul a fost anunțat marți pe site-ul MIT și va fi prezentat oficial la International Conference on Machine Learning (ICML), care va avea loc între 13 și 19 iulie, la Vancouver (Canada).