Fenomenul a fost observat în special în cazul sistemului Codex, folosit pentru generarea de cod. În unele situații, chatbotul a început să descrie erorile din programare drept „mici goblini”. În alte cazuri s-a autodefinit ca un „goblin cu torță” care caută probleme în cod. Potrivit companiei, aceste referințe nu au fost introduse intenționat, ci au apărut ca rezultat al modului în care modelul a fost antrenat și evaluat, arată Il Post.
OpenAI a observat încă din noiembrie o creștere a frecvenței unor termeni precum „goblin” și „gremlin”. Inițial, fenomenul nu a ridicat semne de alarmă. Situația s-a schimbat odată cu lansarea modelului GPT-5.4, când utilizarea acestor cuvinte a crescut semnificativ, ajungând la un nivel de peste 3.800% față de versiuni anterioare. Investigația internă a arătat că problema era legată de modul în care era configurată personalitatea „Nerd” a chatbotului. Aceasta încuraja răspunsuri creative și neobișnuite, iar sistemul de evaluare favoriza explicit utilizarea unor elemente din cultura fantasy. În timp, acest mecanism a determinat modelul să folosească tot mai des astfel de referințe, deoarece primea feedback pozitiv pentru ele. Efectul s-a extins și la alte moduri de funcționare ale AI, din cauza interconectării sistemelor de antrenare.
Pentru a corecta problema, compania a eliminat complet personalitatea „Nerd” și a modificat sistemele interne de evaluare. În plus, a introdus reguli clare care interzic menționarea creaturilor fantastice – precum goblini, troli sau orci – cu excepția cazurilor în care acestea sunt strict relevante pentru răspuns. OpenAI a explicat că aceste ajustări sunt necesare pentru a menține coerența și utilitatea răspunsurilor generate de inteligența artificială.