DeepSeek-OCR 2 już jest. Rewolucyjny “Causal Visual Flow” czyta dokumenty niczym człowiek

deepseek-AI

DeepSeek AI udostępniło DeepSeek-OCR 2, przełomowy model do optycznego rozpoznawania znaków i analizy dokumentów, który wprowadza innowacyjną architekturę “Visual Causal Flow”. Nowy system, oparty na enkoderze DeepEncoder V2, naśladuje ludzki sposób czytania, dynamicznie porządkując wizualne fragmenty strony w logiczną całość, co pozwala na bezbłędne interpretowanie skomplikowanych układów wielokolumnowych, tabel i wzorów matematycznych, osiągając wynik 91.09% w teście OmniDocBench v1.5.

Kluczową innowacją w DeepSeek-OCR 2 jest zastąpienie tradycyjnego enkodera wizyjnego (typu CLIP ViT) autorskim rozwiązaniem DeepEncoder V2. W przeciwieństwie do standardowych metod, które skanują dokument “na sztywno” (np. od lewej do prawej), nowy enkoder traktuje stronę jako dwuwymiarową przestrzeń, którą przekształca w jednowymiarową sekwencję tokenów wizualnych zgodnie z logicznym przepływem treści (causal flow). Dzięki temu model “rozumie”, że tekst w bocznej ramce lub podpis pod wykresem należy czytać w odpowiednim kontekście, a nie jako przypadkowy ciąg znaków w środku akapitu. Całość opiera się na lekkim, ale potężnym modelu językowym Qwen2-0.5B oraz dekoderze DeepSeek-3B-MoE, co czyni go wyjątkowo wydajnym – przy zaledwie 3 miliardach parametrów deklasuje on znacznie większe modele w zadaniach strukturalnych.

W testach porównawczych DeepSeek-OCR 2 wykazał znaczną przewagę nad konkurencyjnymi rozwiązaniami, takimi jak Gemini 1.5 Pro czy wcześniejsze wersje GPT-4 Vision, szczególnie w zakresie “reading order” (kolejności czytania) i edycji na poziomie elementów (element-level edit distance). Model efektywnie kompresuje informacje wizualne, zużywając od 256 do 1120 tokenów na stronę, co jest wynikiem porównywalnym z Gemini 3 Pro, przy jednoczesnym zachowaniu wyższej precyzji w odwzorowaniu layoutu. Jest to krytyczne dla branż takich jak finanse czy prawo, gdzie błąd w odczycie tabeli może mieć poważne konsekwencje.

 

 

Co istotne, DeepSeek udostępnił model na licencji Apache 2.0, umożliwiając jego swobodne komercyjne wykorzystanie i lokalne wdrażanie (np. na kartach NVIDIA). Oznacza to, że firmy mogą teraz przetwarzać wrażliwe dokumenty na własnej infrastrukturze, bez konieczności wysyłania ich do chmury gigantów technologicznych. DeepSeek-OCR 2 wspiera wieloetapowe przetwarzanie (multi-crop views) i dynamiczną rozdzielczość, co pozwala na precyzyjną ekstrakcję danych nawet z dokumentów o nietypowych formatach czy niskiej jakości skanach.