DeepSeek Math-V2 zdobywa złoty medal na olimpiadzie matematycznej IMO 2025 – pierwszy otwarty model na tym poziomie

DeepSeek wypuścił właśnie DeepSeek-Math-V2 – otwarty model AI specjalizujący się w zaawansowanym rozumowaniu matematycznym, który jako pierwszy model open-source osiągnął poziom złotego medalu na Międzynarodowej Olimpiadzie Matematycznej (IMO) 2025. Kluczową innowacją jest system samoweryfikacji: model nie tylko generuje rozwiązania, ale także sprawdza ich poprawność krok po kroku, eliminując jeden z największych problemów współczesnej AI – halucynacje i błędy logiczne. W teście Putnam 2024, najtrudniejszym konkursie matematycznym dla studentów w USA, Math-V2 zdobył 118 na 120 możliwych punktów.
Większość modeli AI osiąga poprawne odpowiedzi końcowe, ale ich proces rozumowania często zawiera błędy logiczne – co jest nieakceptowalne w matematyce wymagającej rygorystycznych dowodów. DeepSeek zbudował Math-V2 na bazie modelu eksperymentalnego DeepSeek-V3.2-Exp i wyposażył go w dwa kluczowe komponenty: weryfikator sprawdzający poprawność dowodów krok po kroku oraz generator twierdzeń zdolny do naprawiania własnych błędów. Model ma 685 miliardów parametrów i wykorzystuje pętle samoweryfikacji, w których dedykowany moduł weryfikacyjny ocenia pośrednie kroki w czasie rzeczywistym. W przeciwieństwie do tradycyjnych modeli autoregresywnych, które po prostu łączą tokeny bez nadzoru, Math-V2 generuje dowody i natychmiast sprawdza je pod kątem spójności logicznej – na przykład wykrywa błędy w manipulacjach algebraicznych czy wnioskowaniu logicznym i przekazuje poprawki z powrotem do procesu generowania.
Wyniki są imponujące. Math-V2 przetestowany na zadaniach z Międzynarodowej Olimpiady Matematycznej (IMO) 2025 oraz Chińskiej Olimpiady Matematycznej (CMO) 2024 osiągnął punktację na poziomie złotego medalu, stawiając go w elitarnym gronie modeli od OpenAI i Google DeepMind. W konkursie Putnam 2024 model stracił zaledwie 2 punkty na 120 możliwych, osiągając wynik lepszy niż 99% ludzkich uczestników tego prestiżowego testu. DeepSeek w swojej dokumentacji wyjaśnia: “Podążanie za wyższą dokładnością odpowiedzi końcowych nie gwarantuje poprawnego rozumowania i jest nieadekwatne dla zadań matematycznych takich jak dowodzenie twierdzeń, które wymagają rygorystycznej, krok po kroku wyprowadzonej dedukcji”. Zamiast tego Math-V2 został zaprojektowany do rozwiązywania otwartych problemów bez znanych rozwiązań, wykorzystując samoweryfikację jako sposób na skalowanie mocy obliczeniowej w czasie testów i przeprowadzanie głębszego rozumowania.
Model jest dostępny publicznie na Hugging Face i GitHub na licencji Apache 2.0 open-source, co stanowi znaczący krok naprzód dla otwartego ekosystemu AI. Ostatnie badanie MIT i Hugging Face wykazało, że udział chińskich modeli open-source w globalnych pobraniach wzrósł do 17% w ciągu ostatniego roku, co może dać Chinom kluczową przewagę nad USA na rynku otwartych modeli AI. DeepSeek podkreśla, że choć wiele pracy jeszcze przed nimi, wyniki sugerują, że samoweryfikowalne rozumowanie matematyczne jest realnym kierunkiem badań, który może pomóc w rozwoju bardziej zaawansowanych i niezawodnych systemów matematycznej AI. Dla biznesu oznacza to potencjał automatyzacji złożonych zadań wymagających precyzyjnego wnioskowania – od weryfikacji algorytmów po projektowanie systemów inżynieryjnych.






















