Gemini 3.1 Pro liderem rankingu Humanity’s Last Exam – Google podnosi poprzeczkę

Google wprowadziło na rynek model Gemini 3.1 Pro, który ustanawia nowe standardy w dziedzinie zaawansowanego wnioskowania i natywnej multimodalności. Nowa jednostka nie tylko oferuje gigantyczne okno kontekstowe o rozmiarze 1 miliona tokenów, ale także zajęła pierwsze miejsce w prestiżowym rankingu „Humanity’s Last Exam”, wyprzedzając kluczowych konkurentów. Dla sektora przedsiębiorstw oznacza to dostęp do narzędzia zdolnego do bezbłędnej analizy ogromnych zbiorów danych oraz stabilnego wsparcia procesów agentowych w środowisku biznesowym.
Model Gemini 3.1 Pro został zaprojektowany z myślą o rozwiązywaniu najbardziej złożonych problemów, w których proste odpowiedzi tekstowe są niewystarczające. Dzięki pełnej integracji przetwarzania tekstu, obrazu, dźwięku i kodu, system potrafi generować dynamiczne interfejsy użytkownika oraz interaktywne wizualizacje dopasowane do konkretnego zapytania. Google wprowadziło również nową funkcję „Medium Thinking”, która pozwala użytkownikom biznesowym na optymalizację kosztów i szybkości pracy modelu poprzez wybór poziomu głębi analizy. Architektura modelu wspiera okno kontekstowe aż o rozmiarze 1 miliona tokenów, co w praktyce umożliwia jednoczesne przesyłanie do 900 dokumentów lub 10 plików wideo w ramach jednego promptu.
W testach wydajnościowych Gemini 3.1 Pro wykazuje dominację w kluczowych obszarach technicznych i naukowych. W benchmarku GPQA Diamond, sprawdzającym wiedzę naukową na poziomie akademickim, model osiągnął wynik 94,3%, a w teście ARC-AGI-2, mierzącym zdolność do uczenia się nowych koncepcji, uzyskał rekordowe 77,1%. Szczególną uwagę przyciąga sprawność w zadaniach programistycznych – w LiveCodeBench Pro model uzyskał 2887 punktów Elo, deklasując dotychczasowych liderów rynku. Równolegle z premierą Google zapowiedziało szeroką dostępność modelu w usługach Vertex AI, Google AI Studio oraz jako public preview w ramach GitHub Copilot, co otwiera drogę do budowy zaawansowanych agentów AI zdolnych do autonomicznego zarządzania workflowem.
Mimo imponujących wyników w większości kategorii, niektóre analizy wskazują na pewne obszary wymagające dopracowania. W testach wykorzystujących zewnętrzne narzędzia, takich jak rozszerzona wersja Humanity’s Last Exam, model Anthropic Opus 4.6 wciąż utrzymuje przewagę, co sugeruje, że Google ma jeszcze pole do optymalizacji w zakresie orkiestracji zewnętrznych API. Dodatkowo, w specyficznym teście multimodalnym MMMU Pro, nowszy model 3.1 Pro minimalnie ustępuje swojemu bezpośredniemu poprzednikowi (80,5% vs 81,0%), co jest rzadko spotykanym zjawiskiem przy kolejnych iteracjach technologii. Niemniej jednak, redukcja halucynacji i zwiększona wydajność tokenów czynią z Gemini 3.1 Pro jedno z najbardziej rzetelnych narzędzi dostępnych obecnie dla sektora B2B.





















