Huawei i NSCC zbudowały superkomputer oparty wyłącznie na CPU

Chińskie Narodowe Centrum Superkomputerowe w Shenzhen oficjalnie zaprezentowało i wdrożyło przełomowy system obliczeniowy LineShine. Ta potężna instalacja osiąga wydajność na poziomie 1,54 eksaflopa w zadaniach związanych z uczeniem maszynowym. Najbardziej zaskakującym elementem konstrukcji pozostaje całkowita rezygnacja ze specjalizowanych układów graficznych (GPU), co pozwala Chinom skutecznie ominąć amerykańskie blokady eksportowe.

Sercem opisywanej maszyny są autorskie jednostki obliczeniowe LX2, które mają być konstrukcjami inżynierów Huawei. Cała platforma sprzętowa składa się z 20 480 węzłów, a każdy z nich mieści dwa zaawansowane układy scalone. Zbiorcza konfiguracja tworzy potężne środowisko zawierające łącznie 2 451 840 rdzeni ogólnego przeznaczenia, zgodnych z nowoczesnym standardem Armv9.

Pojedynczy komponent LX2 wykorzystuje strukturę opartą na dwóch chipletach obliczeniowych i oferuje 304 samodzielne rdzenie. Projektanci podzielili te zasoby na osiem mniejszych klastrów po 38 jednostek, które dzielą między sobą spory zasób pamięci podręcznej drugiego poziomu (L2) o pojemności 28,5 MB. Poszczególne rdzenie posiadają rozszerzenia wektorowe oraz matrycowe, przyspieszające operacje matematyczne niezbędne przy uczeniu maszynowym.

Dzięki zaawansowanym rozszerzeniom sprzętowym pojedynczy układ osiąga wydajność rzędu 60,3 TFLOPS w obliczeniach podwójnej precyzji oraz 960 TOPS w operacjach stałoprzecinkowych. Sprzęt natywnie obsługuje zróżnicowane formaty zapisu danych, w tym zaawansowane standardy BF16 oraz FP16 wykorzystywane w nowoczesnej analityce. Pozwala to na realizację skomplikowanych algorytmów naukowych, które dotychczas wymagały obecności zewnętrznych akceleratorów.

 

Nietypowy podsystem pamięci i szybka komunikacja

Twórcy superkomputera zdecydowali się na wdrożenie unikalnej konfiguracji pamięci operacyjnej, łącząc dwa odmienne standardy w jednej obudowie. Każdy procesor dysponuje 32 GB zintegrowanych modułów HBM o imponującej przepustowości sięgającej 4 TB/s. Dodatkowo system wspierany jest przez zewnętrzną pamięć DDR5 o pojemności do 256 GB, co ułatwia przechowywanie wielkich zbiorów danych. Wymianą informacji pomiędzy poszczególnymi obszarami zarządza mechanizm SDMA, który optymalizuje lokowanie pakietów w szesnastu domenach NUMA.

Wielkie znaczenie dla sprawności całej instalacji ma autorska sieć połączeń o nazwie LingQi, która gwarantuje transfery na poziomie 1,6 Tb/s dla każdego węzła obliczeniowego. Taka przepustowość pozwala na błyskawiczną koordynację zadań pomiędzy tysiącami działających jednocześnie procesorów. Podczas testów praktycznych, obejmujących generowanie modeli obserwacji Ziemi, system osiągał w szczytowych momentach wydajność rzędu 2,16 eksaflopa. Eksperci szacują, że teoretyczna moc obliczeniowa dla precyzji FP64 może wynosić nawet 2,47 eksaflopa.

 

Huawei wchodzi mocniej w motoryzację. Luxeed V9 to pokaz technologicznych ambicji firmy

 

Biznesowe korzyści oraz wyzwania jednolitej struktury

Zastosowanie architektury opartej wyłącznie na jednostkach centralnych (CPU) przynosi wymierne korzyści dla przedsiębiorstw i instytucji badawczych. Eliminacja układów graficznych pozwala uniknąć wąskich gardeł związanych z powolnym transferem danych pomiędzy klasycznym procesorem a akceleratorem. Upraszcza to znacznie cały stos oprogramowania i pozwala na bezpośredni dostęp do gigantycznych, spójnych pul pamięci operacyjnej. Co najważniejsze dla chińskiego sektora technologicznego, takie rozwiązanie całkowicie uniezależnia infrastrukturę od dostaw amerykańskich korporacji oraz zamkniętego ekosystemu CUDA.

Wdrożenie to wiąże się jednak z istotnymi kompromisami technicznymi, na które zwracają uwagę specjaliści z branży HPC. Systemy procesorowe charakteryzują się znacznie wyższym zapotrzebowaniem na energię elektryczną w porównaniu do maszyn wyposażonych w akceleratory graficzne. Cechują się one także niższą gęstością obliczeniową podczas masowego przetwarzania sieci neuronowych. To właśnie te ograniczenia sprawiają, że zachodni giganci technologiczni wciąż preferują budowanie systemów hybrydowych.