Lenovo ustanawia nowy rekord wydajności AI na pojedynczym serwerze

18 March 2025

Lenovo ogłosiło przełomowy wynik wydajności swojego najnowszego serwera AI – ThinkSystem WA7785a G3. Urządzenie osiągnęło rekordowy wynik 6708 tokenów na sekundę przy implementacji pełnoskalowego modelu DeepSeek o rozmiarze 671 miliardów parametrów na pojedynczej maszynie. To znaczący krok naprzód w dziedzinie przetwarzania ultradużych modeli językowych na pojedynczym serwerze.

Lenovo przypisuje ten sukces zastosowaniu nowoczesnej platformy obliczeniowej Wanquan, która optymalizuje dostęp do pamięci oraz wykorzystuje architekturę PCIe 5.0. Dodatkowo firma zaimplementowała specjalnie dobrane operatory z frameworka SGLang, które usprawniły zarówno proces pre-treningu, jak i inferencji modelu. Dzięki tym rozwiązaniom ThinkSystem WA7785a G3 osiągnął rekordową wydajność przy jednoczesnym zachowaniu wysokiej efektywności energetycznej.

Wydajność w praktycznych scenariuszach użytkowania

Testy przeprowadzone przez Lenovo wykazały imponujące osiągi serwera w różnych zastosowaniach. W symulowanych zadaniach typu pytanie-odpowiedź (z długością kontekstu 128/1K) serwer obsługiwał jednocześnie do 158 użytkowników, przy czasie generacji pojedynczego tokena wynoszącym 93 ms i czasie do pierwszego tokena na poziomie 2,01 s. W scenariuszach generowania kodu (długość kontekstu 512/4K) obsługiwano 140 użytkowników równocześnie, a TPOT wynosił 100 ms, a TTFT 5,53 s.

Dla porównania wcześniejszy model – ThinkSystem WA7780 G3 – osiągnął 2500 tokenów/s, co oznacza, że nowa generacja serwerów niemal trzykrotnie zwiększyła wydajność. Lenovo podkreśla, że serwer WA7785a G3 może bez problemu obsłużyć potrzeby firmy liczącej 1500 pracowników, co czyni go idealnym rozwiązaniem dla przedsiębiorstw i instytucji wymagających dużych mocy obliczeniowych w zakresie AI.

Współpraca Lenovo i AMD w dążeniu do jeszcze lepszych wyników

Lenovo podkreśla, że osiągnięcie tego przełomu było możliwe dzięki ścisłej współpracy z AMD oraz zespołom badawczym Lenovo Research i ICI Lab. Inżynierowie obu firm wspólnie pracowali nad optymalizacją sprzętową i programową, co doprowadziło do rekordowego wyniku. Lenovo zapowiada, że to dopiero początek – dalsze badania nad optymalizacją systemu mają na celu jeszcze większe zwiększenie wydajności i efektywności działania modeli AI.