DeepSeek-OCR 2 już jest. Rewolucyjny “Causal Visual Flow” czyta dokumenty niczym człowiek

2 February 2026

DeepSeek AI udostępniło DeepSeek-OCR 2, przełomowy model do optycznego rozpoznawania znaków i analizy dokumentów, który wprowadza innowacyjną architekturę “Visual Causal Flow”. Nowy system, oparty na enkoderze DeepEncoder V2, naśladuje ludzki sposób czytania, dynamicznie porządkując wizualne fragmenty strony w logiczną całość, co pozwala na bezbłędne interpretowanie skomplikowanych układów wielokolumnowych, tabel i wzorów matematycznych, osiągając wynik 91.09% w teście OmniDocBench v1.5.

Kluczową innowacją w DeepSeek-OCR 2 jest zastąpienie tradycyjnego enkodera wizyjnego (typu CLIP ViT) autorskim rozwiązaniem DeepEncoder V2. W przeciwieństwie do standardowych metod, które skanują dokument “na sztywno” (np. od lewej do prawej), nowy enkoder traktuje stronę jako dwuwymiarową przestrzeń, którą przekształca w jednowymiarową sekwencję tokenów wizualnych zgodnie z logicznym przepływem treści (causal flow). Dzięki temu model “rozumie”, że tekst w bocznej ramce lub podpis pod wykresem należy czytać w odpowiednim kontekście, a nie jako przypadkowy ciąg znaków w środku akapitu. Całość opiera się na lekkim, ale potężnym modelu językowym Qwen2-0.5B oraz dekoderze DeepSeek-3B-MoE, co czyni go wyjątkowo wydajnym – przy zaledwie 3 miliardach parametrów deklasuje on znacznie większe modele w zadaniach strukturalnych.

W testach porównawczych DeepSeek-OCR 2 wykazał znaczną przewagę nad konkurencyjnymi rozwiązaniami, takimi jak Gemini 1.5 Pro czy wcześniejsze wersje GPT-4 Vision, szczególnie w zakresie “reading order” (kolejności czytania) i edycji na poziomie elementów (element-level edit distance). Model efektywnie kompresuje informacje wizualne, zużywając od 256 do 1120 tokenów na stronę, co jest wynikiem porównywalnym z Gemini 3 Pro, przy jednoczesnym zachowaniu wyższej precyzji w odwzorowaniu layoutu. Jest to krytyczne dla branż takich jak finanse czy prawo, gdzie błąd w odczycie tabeli może mieć poważne konsekwencje.

Co istotne, DeepSeek udostępnił model na licencji Apache 2.0, umożliwiając jego swobodne komercyjne wykorzystanie i lokalne wdrażanie (np. na kartach NVIDIA). Oznacza to, że firmy mogą teraz przetwarzać wrażliwe dokumenty na własnej infrastrukturze, bez konieczności wysyłania ich do chmury gigantów technologicznych. DeepSeek-OCR 2 wspiera wieloetapowe przetwarzanie (multi-crop views) i dynamiczną rozdzielczość, co pozwala na precyzyjną ekstrakcję danych nawet z dokumentów o nietypowych formatach czy niskiej jakości skanach.

Najnowszy numer

DeepSeek-OCR 2 już jest. Rewolucyjny “Causal Visual Flow” czyta dokumenty niczym człowiek

Najnowszy numer

Więcej z danej firmy

ONZ apeluje o jawność energetyczną sektora sztucznej inteligencji

Nowa unijna inicjatywa ADACities napędzi rozwój pojazdów autonomicznych w miastach...

Samsung Memory Summit 2026: „Odpowiednie nastawienie biznesowe i zaangażowanie przynoszą...

Tomasz Siemek objął stanowisko Head of AI & Data w...

Gartner: Neochmury przejmą jedną piątą rynku usług AI do 2030...

Destination AI Kraków: „HP IQ ma być tkanką łączącą nasze...

Cisco przejmuje WideField Security: Nowe narzędzia do ochrony agentów AI...

Masowe zwolnienia w Oracle: Gigant chmury przechodzi głęboką restrukturyzację

Samsung Memory Summit 2026: „Jeżeli chcielibyście zrobić z nami niesamowity...

Dell Unlocking Tomorrow 2026: „Zamiast blokować Shadow AI, zaoferujmy pracownikom...

Polecane artykuły

Samsung Memory Summit 2026: „Odpowiednie nastawienie biznesowe i zaangażowanie przynoszą...

Destination AI Kraków: „HP IQ ma być tkanką łączącą nasze...

Samsung Memory Summit 2026: „Jeżeli chcielibyście zrobić z nami niesamowity...

Dell Unlocking Tomorrow 2026: „Zamiast blokować Shadow AI, zaoferujmy pracownikom...

Suwerenność i etyka to twarde parametry, nie moda. Wywiad z...

Destination AI Kraków: „Bez AI świata już dzisiaj nie ma,...

Sektor Data Center w Polsce wygenerował ponad 10 mld PLN...

IFS Connect Eastern Europe 2026: „Poszukiwaliśmy platformy, która da nam...

Hybrydowe AI w biznesie. Jak przejść od testów do realnych...

Algorytmiczna eugenika, czyli w przededniu ery „bezemisyjnych mózgów”

Najnowszy numer