Polska AI przegrała? Nie. Ktoś po prostu źle przeczytał raport

Polska AI vs reszta świata

Nagłówki już ogłosiły. Polska AI na końcu stawki! Lokalne modele przegrywają z globalnymi gigantami! Narracja jest prosta, efektowna i, jak to zwykle bywa, tylko częściowo prawdziwa. Problem polega na tym, że raport, na który powołują się media, wcale nie odpowiada na pytanie, które próbuje się mu przypisać.

Na razie tę „historię” najmocniej opowiedziała „Rzeczpospolita”, a reszta rynku zaczęła ją powielać niemal bez zastrzeżeń. Wystarczyło jedno zestawienie wyników, żeby zbudować wygodny wniosek o przegranej polskich modeli. Tyle że jeśli ten raport przeczytać uważnie, okazuje się, że mówi on coś zupełnie innego. I wcale nie jest to historia o tym, kto wygrał, a kto przegrał.

Wokół raportu bardzo szybko powstała prosta historia. Globalni gracze wygrywają, lokalni przegrywają. Tego typu interpretacja brzmi znakomicie (bo sensacyjnie), ale opiera się na fundamentalnym uproszczeniu. Badanie nie porównuje modeli jako technologii. Porównuje odpowiedzi generowane przez chatboty działające w oficjalnych interfejsach, w domyślnych konfiguracjach. To oznacza, że wynik zależy nie tylko od samego modelu, ale również od całej warstwy produktowej.

Co istotne, badanie bardzo jasno definiuje swój zakres, który dotyczy działania modeli w oficjalnych narzędziach i realnych scenariuszach. Problem pojawia się dopiero na poziomie interpretacji, gdzie wyniki bywają odczytywane szerzej, niż pozwala na to przyjęta metodologia.

I dopiero na tym tle pojawia się pierwszy kluczowy problem. W jednym zestawieniu spotykają się rozwiązania, które w praktyce nie należą do tej samej kategorii. Z jednej strony mamy dopracowane produkty komercyjne. Z drugiej, modele open-weight lub półotwarte, które funkcjonują bliżej „surowej” technologii (np. Gemini 3.1 Pro vs Mistral 3).

Różnice między nimi nie sprowadzają się wyłącznie do jakości modelu. Obejmują cały kontekst działania:

  • stopień fine-tuningu (dostrajania modelu) i optymalizacji odpowiedzi
  • obecność warstw bezpieczeństwa i filtrów
  • dostęp do internetu i aktualnych danych
  • sposób prezentacji odpowiedzi użytkownikowi

W tym zestawieniu ścigają się więc nie tylko modele, ale całe produkty, a to zupełnie inna konkurencja.

 

Ranking, który mierzy coś innego

Na tym tle końcowy ranking zaczyna wyglądać inaczej. Zestawienie jest czytelne, liczby konkretne, różnice widoczne. Tyle że pytanie brzmi: co dokładnie zostało zmierzone? Nie potencjał technologii. Nie maksymalne możliwości modeli. Nawet nie ich stabilność. Zmierzono jakość pojedynczych odpowiedzi wygenerowanych w określonych warunkach. Każdy model odpowiadał raz na dany prompt, a następnie odpowiedzi były oceniane przez użytkowników, a to niesie za sobą konsekwencje.

Modele językowe nie są deterministyczne, to znaczy, że na to samo pytanie system może udzielić nieco innych odpowiedzi, ponieważ za każdym razem wybiera słowa na podstawie prawdopodobieństwa, a nie sztywnego wzorca. Jedna odpowiedź nie definiuje ich możliwości. Może być trafna, może być przeciętna, może być wyjątkowo dobra. Bez powtórzeń nie da się ocenić powtarzalności ani stabilności. Do tego dochodzi sposób oceny. Uczestnicy badania reprezentowali różne zawody i poziomy doświadczenia, co jest dużą zaletą, ale jednocześnie oznacza, że mierzymy przede wszystkim odbiór.

Użytkownicy nagradzają teksty, które brzmią naturalnie, są płynne i przekonujące oraz sprawiają wrażenie poprawnych. Znacznie rzadziej wychwytują subtelne błędy czy nieścisłości. W efekcie ranking odzwierciedla postrzeganą jakość, a niekoniecznie rzeczywistą poprawność. To ważne rozróżnienie, bo zmienia interpretację wyników.

W tym miejscu pojawia się jeszcze jeden istotny element, który ma bezpośredni wpływ na wynik badania, a jest nim skala grupy oceniającej. W badaniu wzięło udział zaledwie jedenaście osób! To z jednej strony więcej niż w typowych, nieformalnych testach, z drugiej jednak wciąż bardzo niewiele, jeśli chcemy mówić o wnioskach wykraczających poza konkretny eksperyment.

Przy takiej liczbie uczestników każdy pojedynczy głos ma relatywnie duże znaczenie. Wystarczy, że kilka osób ma podobne preferencje stylistyczne lub podobny sposób oceniania, aby przesunąć wynik całego modelu o zauważalny poziom. Co więcej, przy szerokim zakresie zadań, od faktów po kreatywność, naturalne różnice w podejściu do oceny tylko się pogłębiają. Jedni będą premiować poprawność, inni styl, jeszcze inni „wrażenie jakości”. Bez większej próby trudno te różnice zrównoważyć.

To ma też konsekwencję bardziej subtelną, ale równie ważną. Wynik badania staje się w dużej mierze odbiciem konkretnej grupy, a nie populacji użytkowników jako takiej. Nawet jeśli uczestnicy są zróżnicowani zawodowo, to nadal jest to niewielki wycinek rzeczywistości. W większej próbie część tych ocen by się „wygładziła”, skrajne preferencje straciłyby na znaczeniu, a ranking mógłby wyglądać nieco inaczej.

Nie oznacza to, że wyniki są nieważne. Oznacza natomiast, że ich interpretacja powinna być ostrożniejsza. Mówimy raczej o obrazie tego, jak określona grupa użytkowników oceniła konkretne odpowiedzi, niż o uniwersalnym werdykcie dotyczącym jakości modeli. I to znowu sprowadza nas do tej samej różnicy, która przewija się przez całe badanie – między percepcją a obiektywną miarą jakości.

 

 

Gdzie wnioski zaczynają się rozjeżdżać?

W raporcie pojawia się teza, że różnice między modelami są wyraźne, a wyniki pozwalają wyciągać praktyczne wnioski dotyczące ich zastosowania. I to jest częściowo prawda. Problem polega na tym, że łatwo przekroczyć granicę między obserwacją a uogólnieniem.

Najbardziej ryzykowny wniosek dotyczy interpretacji słabszych wyników modeli lokalnych. Autor sugeruje, że skoro wypadają gorzej w zadaniach związanych z językiem i kulturą, to podważa to ich przewagę w tych obszarach.

 

Badanie tego nie dowodzi!

Dlaczego? Bo testowane były konkretne implementacje w konkretnych środowiskach. Modele komercyjne korzystają z zaawansowanych warstw optymalizacyjnych, które poprawiają styl i spójność wypowiedzi. Modele lokalne często takich warstw nie mają albo mają je w ograniczonym zakresie. W rezultacie lepszy wynik globalnych narzędzi może wynikać nie z lepszego „rozumienia języka”, lecz z lepszego dopracowania produktu.

Podobny problem widać w zadaniach takich jak przytoczenie fragmentu „Pana Tadeusza”. Mniejszy model nie musi tego „pamiętać”, bo nie jest bazą wiedzy i nie ma tylu parametrów. Wnioski o „porażce” modeli lokalnych brzmią efektownie, ale pomijają kontekst. Tego typu zadania są silnie zależne od polityk bezpieczeństwa i ograniczeń licencyjnych. Nie są neutralnym testem kompetencji językowych.

To nie znaczy, że wyniki są błędne. Oznacza jedynie, że ich interpretacja wymaga większej ostrożności.

 

Produkt wygrywa z technologią

Najciekawszym wnioskiem, jaki można wyciągnąć z tego raportu, nie jest to, kto zajął pierwsze miejsce. Jest nim coś innego. Wygrywają nie tyle modele, ile produkty. Rozwiązania komercyjne są projektowane tak, aby maksymalizować wrażenie jakości. Odpowiedzi są dopracowane, uporządkowane, stylistycznie spójne. To daje przewagę w testach opartych na ocenie użytkowników.

Modele rozwijane w innych ekosystemach często koncentrują się na innych celach: kontroli, możliwości wdrożeń, zgodności z regulacjami. W takim ujęciu ich słabszy wynik nie jest porażką, tylko efektem innych priorytetów. To z kolei prowadzi do najważniejszego wniosku, który umyka w medialnych interpretacjach.

 

PLLuM

 

Polska AI nie przegrała – zmierzono coś innego

Narracja o „przegranej” polskiej AI powstała dlatego, że wynik badania został potraktowany jako uniwersalny ranking technologii. Tymczasem raport pokazuje coś znacznie bardziej konkretnego. Pokazuje, że w warunkach testowych opartych na jednorazowych odpowiedziach i ocenie jedenastu uczestników dopracowane produkty komercyjne, wspierane warstwami optymalizacyjnymi, filtrami bezpieczeństwa i dostępem do bieżących danych, generują odpowiedzi postrzegane jako lepsze. Nie jest to jednak to samo co przewaga technologiczna.

Modele lokalne i open-weight działają w innym paradygmacie: ich priorytetem jest kontrola, możliwość wdrożeń i zgodność z regulacjami, nie maksymalizowanie wrażenia jakości w domyślnym interfejsie chatbota.

To cenna wiedza. Dla firm, dla marketerów, dla osób pracujących z treścią bardzo praktyczna, ale to nie jest odpowiedź na pytanie o potencjał technologii, kierunek rozwoju czy długoterminową konkurencyjność. Jeśli więc coś naprawdę wynika z tego raportu, to nie to, że jedni przegrali, a drudzy wygrali. Raczej to, że:

  • warstwa produktowa ma dziś ogromne znaczenie
  • percepcja jakości często wygrywa z jej rzeczywistym poziomem
  • porównywanie różnych klas modeli bez kontekstu prowadzi do uproszczeń

I być może to jest najciekawsza lekcja z całej tej historii. Bo nie chodzi o to, kto wygrał ranking. Chodzi o to, co tak naprawdę zostało zmierzone. A to, jak widać, nie zawsze jest tym, co trafia do nagłówków.

 

Poprosiliśmy również o komentarz Sebastiana Kondrackiego, współtwórcę projektu Bielik i fundacji SpeakLeash. Poniżej publikujemy jego odpowiedzi.

Na ile, Pana zdaniem, wyniki tego badania odzwierciedlają realne możliwości modeli takich jak Bielik, a na ile są efektem różnic w ich wdrożeniu (interfejs, fine-tuning, brak dodatkowych warstw optymalizacyjnych obecnych w komercyjnych chatbotach)?

W mojej ocenie te wyniki tylko częściowo odzwierciedlają realne możliwości modeli takich jak Bielik. W dużej mierze są efektem różnic w sposobie ich wdrożenia i użycia. W badaniu porównano bowiem nie tyle same modele, co gotowe narzędzia działające w różnych konfiguracjach. Część z nich to rozbudowane systemy AI, które korzystają z dodatkowych mechanizmów, takich jak dostęp do Internetu czy specjalne tryby wnioskowania, podczas gdy Bielik był oceniany jako samodzielny model, dodatkowo uruchomiony przez demonstracyjny interfejs z ograniczeniami. To sprawia, że wynik w istotnym stopniu zależy od warunków testu, a nie wyłącznie od jakości modelu. To trochę jak porównywanie samochodów, gdzie jeden jedzie na oponach zimowych, a drugi na letnich – wynik mówi wtedy więcej o konfiguracji niż o realnych możliwościach pojazdów.

 

Czy w podobnym teście, ale przeprowadzonym na poziomie API lub w ujednoliconych warunkach, spodziewałby się Pan istotnie innych wyników dla modeli lokalnych? Jeśli tak, to w jakich obszarach?

Tak, spodziewałbym się zauważalnie innych wyników, szczególnie dla modeli takich jak Bielik czy PLLuM. To są rozwiązania projektowane głównie do zastosowań B2B i instytucjonalnych, gdzie działają w kontrolowanym środowisku, często na własnej infrastrukturze, z możliwością dostosowania parametrów i promptu systemowego. W teście zostały użyte w uproszczonej formie, która nie oddaje ich docelowego zastosowania. W warunkach ujednoliconych, na poziomie API, gdzie wszystkie modele działają bez dodatkowych rozszerzeń i z porównywalnymi ustawieniami, można byłoby lepiej ocenić ich faktyczne możliwości. Różnice wynikające ze skali nadal by pozostały, ponieważ globalne modele są wielokrotnie większe, ale wyniki byłyby bliższe rzeczywistemu potencjałowi poszczególnych rozwiązań.

Warto też zwrócić uwagę na dobór samych zadań. Przykładowo polecenie przytoczenia pierwszych wersów „Pana Tadeusza” w praktyce premiuje modele o bardzo dużej liczbie parametrów, które mogą „zapamiętywać” duże fragmenty tekstów z danych treningowych. Mniejsze modele, takie jak Bielik z około 11 miliardami parametrów, nie są projektowane jako magazyny wiedzy czy bazy danych przechowujące całe utwory literackie. Ich celem jest raczej rozumienie i przetwarzanie tekstu niż jego wierne odtwarzanie. W efekcie takie zadania naturalnie faworyzują największe modele i nie są reprezentatywne dla realnych zastosowań, w których liczy się analiza, wnioskowanie czy praca na treści, a nie odtwarzanie długich fragmentów z pamięci.

 

Czy uważa Pan, że takie badanie, w obecnej formie, może prowadzić do mylących wniosków o „przegranej” polskich modeli AI?

Tak, w obecnej formie takie badanie może prowadzić do mylących wniosków, zwłaszcza jeśli jego wyniki są przedstawiane w uproszczony sposób. Zestawiono rozwiązania o różnej skali, innym przeznaczeniu i działające w różnych warunkach, a następnie sformułowano ogólny wniosek o „przegranej”. To trochę jak porównywanie Forda Transita z Boeingiem w teście przyspieszenia i wyciąganie z tego wniosku, że jedno „przegrywa” z drugim, mimo że zostały zaprojektowane do zupełnie innych zastosowań.
Warto też podkreślić, że samo badanie nie wnosi szczególnie nowej wiedzy na tle istniejących benchmarków. Na świecie funkcjonuje wiele znacznie bardziej rygorystycznych i dobrze zaprojektowanych testów, w których jasno określa się zarówno wielkość modeli, jak i ich przeznaczenie, a wyniki można analizować w kontekście liczby parametrów czy typu zadań. Przykładem jest choćby Complex Polish Text Understanding Benchmark, gdzie również widać, że większe modele osiągają wyższe wyniki w bardziej złożonych zadaniach. To jednak nie jest zaskoczenie, tylko naturalna konsekwencja skali.

Kluczowe jest to, że takie benchmarki pozwalają porównywać modele w sposób bardziej świadomy. Możemy zestawić model mający setki miliardów parametrów, wymagający bardzo kosztownej infrastruktury, z modelem takim jak Bielik o wielkości około 11 miliardów parametrów, który można uruchomić lokalnie, nawet na relatywnie prostym sprzęcie. W bardziej złożonych zadaniach, np. wymagających rozumienia sarkazmu czy ironii, większe modele będą osiągały lepsze wyniki i to jest całkowicie naturalne. Nie oznacza to jednak, że mniejsze modele są „gorsze” w sensie praktycznym.

W rzeczywistości wybór modelu jest zawsze kompromisem między jakością, kosztem i kontrolą nad danymi. Jeśli ktoś generuje kilka artykułów miesięcznie, sensowne może być korzystanie z największych modeli dostępnych jako usługa. Natomiast w sytuacji, gdy przetwarzane są duże wolumeny danych, w tym dane wrażliwe, albo gdy wymagane jest wdrożenie lokalne, modele takie jak Bielik stają się jedyną realną opcją.

Dlatego benchmarki mogą być pomocne jako pewien kierunek wyboru, ale nie dają pełnej odpowiedzi i nie powinny być podstawą do budowania uproszczonych narracji. W tym przypadku problemem jest nie tylko sama metodologia badania, ale przede wszystkim sposób jego przedstawienia. Złożony temat został sprowadzony do chwytliwego komunikatu o „przegranej”, który lepiej buduje zasięg, niż oddaje rzeczywisty obraz technologii.