Dostosuj preferencje dotyczące zgody

Używamy plików cookie, aby pomóc użytkownikom w sprawnej nawigacji i wykonywaniu określonych funkcji. Szczegółowe informacje na temat wszystkich plików cookie odpowiadających poszczególnym kategoriom zgody znajdują się poniżej.

Pliki cookie sklasyfikowane jako „niezbędne” są przechowywane w przeglądarce użytkownika, ponieważ są niezbędne do włączenia podstawowych funkcji witryny.... 

Zawsze aktywne

Niezbędne pliki cookie mają kluczowe znaczenie dla podstawowych funkcji witryny i witryna nie będzie działać w zamierzony sposób bez nich.Te pliki cookie nie przechowują żadnych danych umożliwiających identyfikację osoby.

Brak plików cookie do wyświetlenia.

Funkcjonalne pliki cookie pomagają wykonywać pewne funkcje, takie jak udostępnianie zawartości witryny na platformach mediów społecznościowych, zbieranie informacji zwrotnych i inne funkcje stron trzecich.

Brak plików cookie do wyświetlenia.

Analityczne pliki cookie służą do zrozumienia, w jaki sposób użytkownicy wchodzą w interakcję z witryną. Te pliki cookie pomagają dostarczać informacje o metrykach liczby odwiedzających, współczynniku odrzuceń, źródle ruchu itp.

Brak plików cookie do wyświetlenia.

Wydajnościowe pliki cookie służą do zrozumienia i analizy kluczowych wskaźników wydajności witryny, co pomaga zapewnić lepsze wrażenia użytkownika dla odwiedzających.

Brak plików cookie do wyświetlenia.

Reklamowe pliki cookie służą do dostarczania użytkownikom spersonalizowanych reklam w oparciu o strony, które odwiedzili wcześniej, oraz do analizowania skuteczności kampanii reklamowej.

Brak plików cookie do wyświetlenia.

Nawet GPT-4.5, Claude 3.7 czy Gemini 2.0 oblewają nowy test. Czym jest ARC-AGI-2?

Naukowcy z Fundacji Arc Prize stworzyli niezwykle wymagający test, który weryfikuje możliwości współczesnych systemów sztucznej inteligencji. Najnowsza wersja testu – ARC-AGI-2 – obnażyła poważne ograniczenia czołowych modeli AI, które w zderzeniu z nowymi wyzwaniami praktycznie nie radzą sobie z prostymi zadaniami.

Podczas gdy ludzie biorący udział w badaniach rozwiązywali średnio 60% zagadek, czołowe modele AI, w tym GPT-4.5, Claude 3.7 Sonnet oraz Gemini 2.0 Flash, osiągały zaledwie około 1% poprawnych odpowiedzi. Modele specjalizowane, takie jak o1-pro czy R1, radziły sobie z wizualnymi łamigłówkami wymagającymi prawdziwego rozumienia i adaptacji tylko niewiele lepiej. Poniżej zamieszczamy przykładową planszę testową z ARC-AGI-2:

 

 

Test, stworzony przez François Cholleta, różni się od poprzednich wersji tym, że całkowicie eliminuje możliwość rozwiązywania problemów poprzez czystą moc obliczeniową. Kładzie nacisk na prawdziwe rozumowanie i efektywność, a nie tylko na osiąganie wysokich wyników. Co więcej, nawet wcześniej znakomicie oceniany model o3 od OpenAI, który w poprzedniej wersji testu dorównywał ludziom, tym razem uzyskał zaledwie 4% poprawnych odpowiedzi, generując przy tym koszt 200 dolarów za zadanie.

 

Porównanie wydajności modeli AI w testach ARC-AGI-1 i ARC-AGI-2

 

Stworzenie AI, która potrafiłaby nie tylko rozpoznawać wzorce, ale także myśleć kreatywnie (niczym człowiek) jest dla naukowców prawdziwym wyzwaniem. Obecne modele AI są w dużej mierze zależne od danych, na których zostały wytrenowane, i mają trudności z innowacyjnym podejściem do nowych problemów, co obnaża test ARC-AGI-2. Według ekspertów, dopiero gdy AI zacznie wykazywać zdolność do spontanicznego tworzenia nowych idei, możemy mówić o rzeczywistej sztucznej inteligencji na ludzkim poziomie.