Badacze OpenAI odkryli, iż AI „halucynuje” nie z powodu niedoskonałości kodu, ale przez system ocen, który… nagradza zgadywanie i karze wyrażanie niepewności. Zaproponowano więc zmianę metryk na takie, które premiują szczerość.
Asystenci oparci na sztucznej inteligencji od dawna zaskakują zdolnością do generowania wiarygodnie brzmiących, lecz… całkowicie fałszywych informacji – zmyślonych cytatów, fikcyjnych źródeł i nieprawdziwych faktów, nazywanych „halucynacjami”. Do tej pory winą obarczano niedoskonałości sieci neuronowych lub niedostateczne dane treningowe, jednak naukowcy z OpenAI, kierowani przez Adama Kalaiego i Santosha Vempalę z Georgia Tech, przedstawili alternatywne wyjaśnienie w 36-stronicowym opracowaniu opublikowanym 5 września 2025 roku.
Zespół badaczy wskazuje, iż główną przyczyną halucynacji są w tej chwili stosowane metryki ewaluacyjne, które skupiają się na trafności odpowiedzi i nagradzają mocne, pewne stwierdzenia, jednocześnie karząc modele za wyrażanie wątpliwości. Naukowcy porównują to do testów wielokrotnego wyboru, gdzie zgadujący zyskują punkty choćby za błędne odpowiedzi, podczas gdy uczestnicy, którzy przyznają się do braku wiedzy, pozostają bez punktów. W efekcie model „zgadujący” wypada lepiej w rankingach, mimo iż generuje więcej nieprawdziwych informacji.

Jako alternatywę proponuje się więc wprowadzenie nowych metryk, które silniej karzą za pełne pewności, ale błędne odpowiedzi, a nagradzają za powstrzymywanie się od odpowiedzi lub formuły wyrażające niepewność. Badacze wyjaśniają, iż taka zmiana zachęci modele do przyznawania się do niewiedzy, zamiast tworzenia iluzji precyzji.
Przykład z benchmarku SimpleQA pokazuje potencjał nowego podejścia: jeden model wstrzymał się od odpowiedzi w ponad połowie pytań i popełnił błąd tylko w 26% udzielonych odpowiedzi, podczas gdy inny model odpowiedział na prawie każde pytanie, ale aż w 75% przypadków „halucynował”. Te dane dowodzą, iż unikanie zgadywania może znacząco obniżyć liczbę fałszywych informacji.
Autorzy opracowania podkreślają, iż zmiana metryk to jedynie pierwszy krok. Konieczne będzie także dostosowanie procesów treningowych i optymalizacja algorytmów, aby efektywnie wykorzystać nowe kryteria oceny. OpenAI planuje przetestować zaproponowaną metodę na szerszym zbiorze benchmarków i w realnych zastosowaniach API.