DeepSeek zaskakuje branżę nowym modelem AI – otwarte źródło i ogromna moc

25 March 2025

Chiński startup DeepSeek zaskoczył branżę sztucznej inteligencji premierą niezwykle zaawansowanego modelu językowego DeepSeek-V3-0324. Model o imponujących rozmiarach (641 GB) został niespodziewanie opublikowany na platformie Hugging Face, co w pełni wpisuje się w dotychczasową strategię firmy, polegającą na cichych, ale zarazem przełomowych premierach.

Kluczowym atutem nowego rozwiązania jest jego licencja MIT, która umożliwia swobodne wykorzystanie komercyjne. Wstępne testy przynoszą zaskakujące rezultaty – model działa nawet na standardowym sprzęcie konsumenckim, jak Mac Studio z chipem M3 Ultra. Znany badacz AI, Awni Hannun, potwierdził, że 4-bitowa wersja modelu generuje ponad 20 tokenów na sekundę na urządzeniu z 512 GB pamięci RAM. Co istotne, mimo że Mac Studio kosztuje blisko 9,5 tysiąca dolarów, sama możliwość uruchomienia tak zaawansowanego systemu poza profesjonalnymi centrami danych stanowi technologiczny przełom.

The new Deep Seek V3 0324 in 4-bit runs at > 20 toks/sec on a 512GB M3 Ultra with mlx-lm! pic.twitter.com/wFVrFCxGS6
— Awni Hannun (@awnihannun) March 24, 2025

DeepSeek-V3-0324 wykorzystuje innowacyjną architekturę Mixture-of-Experts (MoE), która aktywuje tylko część parametrów podczas przetwarzania, a mianowicie około 37 miliardów z dostępnych 685 miliardów. Dzięki temu rozwiązaniu model charakteryzuje się znacznie wyższą wydajnością niż tradycyjne systemy, zużywając przy tym mniej mocy obliczeniowej. Dodatkowe technologie, takie jak Multi-Head Latent Attention (MLA) i Multi-Token Prediction (MTP), jeszcze bardziej zwiększają jego możliwości, przyspieszając generowanie tekstu nawet o 80%.

Strategia DeepSeek wyraźnie kontrastuje z podejściem zachodnich gigantów AI. Podczas gdy OpenAI czy Anthropic zamykają swoje modele za płatną zaporą, chińskie firmy coraz częściej stawiają na otwarte rozwiązania. Efektem tej polityki jest dynamiczny rozwój chińskiego ekosystemu sztucznej inteligencji, gdzie startupy i naukowcy mogą korzystać z zaawansowanych technologii bez ponoszenia astronomicznych kosztów licencyjnych.

Premiera DeepSeek-V3-0324 może być zwiastunem kolejnego projektu – modelu DeepSeek-R2, który ma być skoncentrowany na zaawansowanym rozumowaniu i zadebiutować już w najbliższych miesiącach. Wprowadzenie tak otwartego i wydajnego rozwiązania może całkowicie przewartościować rynek dostępu do technologii AI oraz stanowić bezpośrednie wyzwanie dla nadchodzącego GPT-5 od OpenAI.