DeepSeek udowadnia, że w AI liczy się pomysł, a nie brutalna moc obliczeniowa

DeepSeek CUDA PTX

Niespełna dwa miesiące, 2048 procesorów graficznych Nvidii i język programowania sprzed ery CUDA – chiński DeepSeek pobił rekord efektywności w szkoleniu sztucznej inteligencji. Ich model językowy (671 miliardów parametrów) powstał 10 razy szybciej niż konkurencyjne rozwiązania gigantów takich jak Meta. Sekret? Inżynierowie zamiast standardowych narzędzi Nvidii sięgnęli po zapomniany niemal „asembler GPU”.

W wyścigu o dominację w sztucznej inteligencji pojawił się nowy gracz. Chiński start-up DeepSeek, korzystając z klastra 2048 GPU Nvidia H800, wytrenował swój flagowy LLM w zaledwie 60 dni. Efektywność? Dziesięciokrotnie wyższa niż w przypadku Llama 3 – przy jednoczesnym zużyciu energii niższym o 90%.

Kluczem okazał się nietypowy pomysł: zamiast korzystać z popularnego frameworka CUDA, inżynierowie sięgnęli po PTX (Parallel Thread Execution) – niskopoziomowy język programowania, który Nvidia promowała… 15 lat temu.

„To jak porzucenie wygodnego autopilota w samolocie dla ręcznego sterowania śrubokrętem. Ale tylko tak można wycisnąć z GPU ostatnie pokłady mocy” – tłumaczy anonimowo jeden z ekspertów cytowany przez Wired.

DeepSeek CUDA PTX

PTX, nazywany „asemblerem dla kart graficznych”, pozwolił na mikroskopijne dostrojenie każdej operacji. Na przykład: 20 z 132 jednostek przetwarzających w każdym GPU przeznaczono wyłącznie na komunikację między serwerami, co przyspieszyło wymianę danych. Dodatkowo DeepSeek opracował autorski system DualPipe, nakładający fazy obliczeń i komunikacji – jak taśma w fabryce, która nigdy nie stoi.

Efekt? Koszt szkolenia modelu wyniósł jedyne 5,6 mln dolarów – Meta na podobne zadanie wydała ok. 500 mln.

Choć liczby robią wrażenie, część środowiska podchodzi do doniesień z rezerwą.

„PTX to piekło dla programistów. Każda zmiana w architekturze Nvidii może unieważnić te optymalizacje” – ostrzega na Twitterze @GPU_Guru.

Niepokój widać też na Wall Street. Inwestorzy obawiają się, że jeśli każdy zacznie tak majstrować przy GPU, sprzedaż najdroższych modeli spadnie. Paradoksalnie, entuzjazmu nie kryje… Pat Gelsinger, szef Intela.

„To dowód, że AI zmieści się nawet w taniej elektronice. Wyobrażacie sobie ChatGPT w pralce?” – żartuje w rozmowie z Tom’s Hardware.

Chińska firma nie zwalnia tempa. Model DeepSeek-V3 jest już dostępny open-source, a w planach jest stworzenie AI ogólnego przeznaczenia (AGI).

„Nasza filozofia? Mniej mocy, więcej sprytu” – mówi w wideowywiadzie CEO firmy, cytując starochińskie przysłowie o szczupaku, który płynął pod prąd.