DeepSeek ma nowy pomysł na trenowanie AI. Metoda mHC odpowiedzią na sankcje chipowe

deepseek-AI

Chiński startup DeepSeek rozpoczął rok 2026 publikacją pracy badawczej, wprowadzając nową metodę trenowania modeli AI o nazwie “Manifold-Constrained Hyper-Connections” (mHC). Technika ta, opracowana m.in. przez założyciela firmy Lianga Wenfenga, ma na celu drastyczne obniżenie kosztów obliczeniowych i zwiększenie stabilności przy skalowaniu gigantycznych modeli językowych. Eksperci określają to jako “uderzający przełom”, który pozwala Chinom ominąć ograniczenia wynikające z amerykańskich sankcji na zaawansowane układy scalone.

Opublikowana w środę praca badawcza opisuje architekturę mHC jako odpowiedź na kluczowy problem współczesnego AI: niestabilność modeli przy ich skalowaniu. Tradycyjne metody, pozwalające różnym częściom sieci neuronowej na swobodną wymianę informacji (“Hyper-Connections”), często prowadzą do błędów przy wzroście złożoności. Nowe podejście DeepSeek wprowadza “ograniczone” (constrained) kanały komunikacji, co pozwala na bogatszą wymianę danych wewnątrz modelu przy jednoczesnym zachowaniu stabilności treningu. Analitycy z Counterpoint Research wskazują, że jest to strategiczny ruch, pozwalający osiągnąć wydajność modeli z najwyższej półki przy użyciu mniejszej mocy obliczeniowej – kluczowy atut w obliczu braku dostępu do najnowszych chipów NVIDII.

Publikacja ta jest interpretowana przez rynek jako zwiastun nadchodzącej premiery modelu DeepSeek-V4 (lub R2). Firma ma historię ujawniania fundamentów teoretycznych tuż przed debiutem swoich flagowych produktów – podobnie było w styczniu 2025 roku przed premierą modelu R1, który zszokował świat możliwościami zbliżonymi do ChataGPT o1 przy ułamku kosztów. Nowa metoda mHC, w połączeniu z wcześniejszymi innowacjami takimi jak DeepSeek Sparse Attention (DSA), może pozwolić chińskiemu gigantowi na kolejne “ominięcie” prawa Moore’a i rzucenie wyzwania OpenAI czy Google bez konieczności budowania farm serwerowych za miliardy dolarów.

Efektywność stała się znakiem rozpoznawczym DeepSeek. Ich poprzedni model V3 wytrenowano za zaledwie 5,5 miliona dolarów, co stanowiło mniej niż 10% budżetu konkurencji. Nowa architektura mHC idzie o krok dalej, optymalizując infrastrukturę “end-to-end” w sposób, który minimalizuje zużycie energii i pamięci. Lian Jye Su, główny analityk Omdia, przewiduje, że innowacja ta wywoła falę naśladownictwa w branży, zmuszając zachodnie laboratoria do zrewidowania podejścia “brute-force” (siłowego) na rzecz bardziej wyrafinowanych, matematycznych optymalizacji treningu.