OpenAI przyznaje, że nowe modele AI częściej halucynują

Nowe modele sztucznej inteligencji OpenAI — o3 i o4-mini — wykazują większą skłonność do halucynacji niż ich poprzednicy, mimo zaawansowania w rozumowaniu. Firma opublikowała raport, w którym przyznaje, że nie potrafi jeszcze wyjaśnić tego zjawiska. Pojawiają się pytania o granice zaufania do generatywnej AI.
Im bardziej zaawansowana, tym mniej wiarygodna?
OpenAI ujawniło w najnowszym raporcie technicznym, że najnowsze modele językowe z rodziny o3 oraz o4-mini częściej wytwarzają tzw. halucynacje — fałszywe lub zmyślone informacje — niż wcześniejsze generacje, takie jak o1, o1-mini czy GPT-4. Z danych opartych na wewnętrznych benchmarkach, szczególnie PersonQA, wynika, że model o3 generował halucynacje w 33% przypadków, a o4-mini — aż w 48%. Dla porównania, modele o1 i o3-mini halucynowały w mniej niż 15% zapytań.
Mimo że rozwój dużych modeli językowych zakłada poprawę rozumowania i zdolności wnioskowania, efektem ubocznym okazuje się wzrost liczby błędnych informacji. „Model o3 składa więcej twierdzeń — zarówno trafnych, jak i halucynacyjnych,” przyznaje OpenAI w dokumencie. Firma podkreśla też, że „potrzebne są dalsze badania, by wyjaśnić, dlaczego halucynacje nasilają się wraz ze skalowaniem zdolności rozumowania.”

Ostrzeżenia ekspertów się potwierdzają
Niektórzy badacze, jak znany krytyk dużych modeli językowych Gary Marcus, od lat ostrzegają przed halucynacjami generatywnej AI. W jednym z postów w serwisie X (dawniej Twitter) Marcus tłumaczył, że modele takie jak LLM nie odróżniają prawdy od fałszu, nie potrafią samodzielnie weryfikować faktów i generują odpowiedzi wyłącznie na podstawie statystycznego dopasowania słów w kontekście. Najnowsze obserwacje OpenAI wydają się te tezy potwierdzać. Problem ten ma istotne znaczenie dla użytkowników — od programistów po pracowników naukowych — którzy coraz częściej polegają na AI w tworzeniu treści, analizach i generowaniu kodu.
Przejęcie Windsurf i nowe ambicje OpenAI
W cieniu raportu o halucynacjach pojawiła się również informacja o możliwej akwizycji Windsurf — producenta popularnego asystenta kodowania opartego na AI. Wartość transakcji ma sięgnąć 3 miliardów dolarów, co oznaczałoby poważne wejście OpenAI na rynek narzędzi programistycznych i bezpośrednią rywalizację z takimi podmiotami jak Cursor.
W praktyce może to oznaczać zwiększoną obecność modeli OpenAI w środowiskach programistycznych, ale jednocześnie wzmacnia konieczność kontroli jakości i wiarygodności generowanego kodu.