OpenAI przyznaje, że nowe modele AI częściej halucynują

24 April 2025

Nowe modele sztucznej inteligencji OpenAI — o3 i o4-mini — wykazują większą skłonność do halucynacji niż ich poprzednicy, mimo zaawansowania w rozumowaniu. Firma opublikowała raport, w którym przyznaje, że nie potrafi jeszcze wyjaśnić tego zjawiska. Pojawiają się pytania o granice zaufania do generatywnej AI.

Im bardziej zaawansowana, tym mniej wiarygodna?

OpenAI ujawniło w najnowszym raporcie technicznym, że najnowsze modele językowe z rodziny o3 oraz o4-mini częściej wytwarzają tzw. halucynacje — fałszywe lub zmyślone informacje — niż wcześniejsze generacje, takie jak o1, o1-mini czy GPT-4. Z danych opartych na wewnętrznych benchmarkach, szczególnie PersonQA, wynika, że model o3 generował halucynacje w 33% przypadków, a o4-mini — aż w 48%. Dla porównania, modele o1 i o3-mini halucynowały w mniej niż 15% zapytań.

Mimo że rozwój dużych modeli językowych zakłada poprawę rozumowania i zdolności wnioskowania, efektem ubocznym okazuje się wzrost liczby błędnych informacji. „Model o3 składa więcej twierdzeń — zarówno trafnych, jak i halucynacyjnych,” przyznaje OpenAI w dokumencie. Firma podkreśla też, że “potrzebne są dalsze badania, by wyjaśnić, dlaczego halucynacje nasilają się wraz ze skalowaniem zdolności rozumowania.”

Ostrzeżenia ekspertów się potwierdzają

Niektórzy badacze, jak znany krytyk dużych modeli językowych Gary Marcus, od lat ostrzegają przed halucynacjami generatywnej AI. W jednym z postów w serwisie X (dawniej Twitter) Marcus tłumaczył, że modele takie jak LLM nie odróżniają prawdy od fałszu, nie potrafią samodzielnie weryfikować faktów i generują odpowiedzi wyłącznie na podstawie statystycznego dopasowania słów w kontekście. Najnowsze obserwacje OpenAI wydają się te tezy potwierdzać. Problem ten ma istotne znaczenie dla użytkowników — od programistów po pracowników naukowych — którzy coraz częściej polegają na AI w tworzeniu treści, analizach i generowaniu kodu.

Przejęcie Windsurf i nowe ambicje OpenAI

W cieniu raportu o halucynacjach pojawiła się również informacja o możliwej akwizycji Windsurf — producenta popularnego asystenta kodowania opartego na AI. Wartość transakcji ma sięgnąć 3 miliardów dolarów, co oznaczałoby poważne wejście OpenAI na rynek narzędzi programistycznych i bezpośrednią rywalizację z takimi podmiotami jak Cursor.

W praktyce może to oznaczać zwiększoną obecność modeli OpenAI w środowiskach programistycznych, ale jednocześnie wzmacnia konieczność kontroli jakości i wiarygodności generowanego kodu.

Najnowszy numer

Więcej z danej firmy

Krzysztof Gawkowski Minister Cyfryzacji i Wicepremier RP_

Polska i Japonia wzmacniają partnerstwo technologiczne

4 July 2025

ZetaTech dołącza do PIIT: nowy impuls dla rozwoju sztucznej inteligencji...

4 July 2025

NVIDIA Blackwell Ultra trafia na rynek. CoreWeave pierwszym dostawcą chmurowym...

4 July 2025

Polecane artykuły

Google Cloud Developers Summit 2025: “Sztuczna inteligencja może turbodoładować nasze...

4 July 2025

IT Champions 2025: “To nie tylko nagrody, ale też uznanie...

4 July 2025

TD SYNNEX & AWS Summit 2025: “Wspieramy klientów od początku...

4 July 2025

OpenAI przyznaje, że nowe modele AI częściej halucynują

Najnowszy numer

Więcej z danej firmy

Polska i Japonia wzmacniają partnerstwo technologiczne

ZetaTech dołącza do PIIT: nowy impuls dla rozwoju sztucznej inteligencji...

NVIDIA Blackwell Ultra trafia na rynek. CoreWeave pierwszym dostawcą chmurowym...

Google Cloud Developers Summit 2025: “Sztuczna inteligencja może turbodoładować nasze...

AI tworzy największą lukę talentów w IT od lat –...

AI tworzy nagie deepfake’i za grosze – rosyjska sieć zarabia...

Mechanizmy bezpieczeństwa Google Veo 3 zawodzą – rasistowskie treści zalały...

Baidu niczym Google: wdrożyło swoje AI do wyszukiwarki

Sektor usługowy przyspiesza z wdrażaniem AI. Już niemal połowa firm...

Model Veo 3 trafia do 159 krajów – Google konkuruje...

Polecane artykuły

Google Cloud Developers Summit 2025: “Sztuczna inteligencja może turbodoładować nasze...

IT Champions 2025: “To nie tylko nagrody, ale też uznanie...

TD SYNNEX & AWS Summit 2025: “Wspieramy klientów od początku...

Google Cloud Developers Summit 2025: “Cała magia modeli Eleven Labs...

IT Champions 2025: „Technologia to dla nas nie tylko bity...

Microsoft i Google wspierają cyfrową transformację Polski – nowy etap...

TD SYNNEX & AWS Partner Summit 2025: “Co 2 minuty...

Piotr Morko awansuje na stanowisko European Marketing Managera w Newline...

IT Champions 2025: “Dziękuję wszystkim naszym partnerom za to, że...

TD SYNNEX & AWS Partner Summit 2025: “Uważam, że dzisiaj...

Najnowszy numer