Alibaba Cloud ogranicza użycie GPU Nvidii o 82%

Dzięki nowemu systemowi Aegaeon, jak twierdzi Alibaba Cloud – 213 akceleratorów działa jak 1 192. To poważna zmiana, która pozwoliła ograniczyć zapotrzebowanie na układy GPU od NVIDII.

Chiński gigant Alibaba Cloud ogłosił, że opracowany przez niego system Aegaeon pozwolił zmniejszyć zapotrzebowanie na układy GPU firmy Nvidia aż o 82% podczas kilkumiesięcznych testów w środowisku produkcyjnym. Zastosowana technologia umożliwiła uzyskanie nawet dziewięciokrotnego wzrostu wydajności, dzięki czemu 213 GPU osiągało taką samą przepustowość obliczeniową, jak 1 192 akceleratory w dotychczasowych rozwiązaniach.

Rezultaty testów zaprezentowano w recenzowanym artykule naukowym podczas ACM Symposium on Operating Systems (SOSP) 2025 w Seulu. Według autorów, innowacja może istotnie zwiększyć efektywność wykorzystania dostępnych układów w chmurach obliczeniowych – co ma szczególne znaczenie w Chinach, gdzie dostęp do najnowszych GPU Nvidii, takich jak H20, jest ograniczony przez amerykańskie przepisy eksportowe.

W przeciwieństwie do innowacji skupionych na treningu modeli, Aegaeon działa na etapie wnioskowania. System pełni rolę inteligentnego planera obciążenia, który maksymalizuje wykorzystanie GPU w środowiskach, gdzie zapotrzebowanie na moc obliczeniową jest nieregularne. Zamiast przypisywać pojedynczy akcelerator do konkretnego modelu, Aegaeon wirtualizuje dostęp do GPU na poziomie tokenów, umożliwiając współdzielenie jednego układu przez wiele modeli jednocześnie. W efekcie wzrasta tzw. goodput – miara efektywnej wydajności – nawet dziewięciokrotnie w porównaniu z wcześniejszymi systemami serwerless.

Jak wynika z publikacji, testy prowadzono w środowisku produkcyjnym Model Studio przez kilka miesięcy. W tym czasie liczba GPU potrzebnych do obsługi dziesiątek dużych modeli językowych (LLM) – w tym o wielkości do 72 miliardów parametrów – spadła z 1 192 do zaledwie 213. W projekcie uczestniczyli badacze z Uniwersytetu Pekińskiego oraz inżynierowie z działu infrastruktury Alibaba Cloud, w tym CTO firmy, Jingren Zhou.

Według raportu „South China Morning Post”, testy przeprowadzono na układach Nvidia H20 – jednych z nielicznych akceleratorów dostępnych legalnie dla chińskich nabywców. Alibaba tłumaczy, że największe oszczędności uzyskano dzięki łączeniu wielu modeli na jednym GPU oraz zastosowaniu autoskalerów działających na poziomie tokenów, które dynamicznie przydzielają zasoby w trakcie generowania wyników, zamiast rezerwować je z góry.

W testach porównawczych Aegaeon przewyższył rozwiązania ServerlessLLM i MuxServe od 1,5 do 9 razy pod względem efektywnej przepustowości.

Nie wiadomo jeszcze, czy tak imponujące wyniki uda się powtórzyć poza środowiskiem technologicznym Alibaby. Autorzy pracy nie ujawnili szczegółów dotyczących użytej infrastruktury sieciowej, choć wiadomo, że Alibaba Cloud dysponuje własną siecią eRDMA (elastic RDMA) i od lat rozwija zintegrowane stosy GPU dla chmury obliczeniowej. Oznacza to, że pełna wydajność Aegaeona może zależeć od ściśle zoptymalizowanego, pionowo zintegrowanego środowiska.

Niezależnie od tego, eksperci wskazują, że rozwiązanie Alibaby może wzbudzić duże zainteresowanie wśród globalnych dostawców chmur (hyperscalerów), którzy coraz częściej poszukują sposobów na zwiększenie efektywności istniejących zasobów GPU w obliczu gwałtownie rosnącego popytu na moc obliczeniową dla sztucznej inteligencji.