Amazon buduje gigantyczny superklaster AI dla Anthropic

Amazon Web Services uruchamia jeden z największych projektów infrastrukturalnych w historii AI – Project Rainier. To gigantyczny, rozproszony superklaster, zbudowany z myślą o potrzebach Anthropic, rosnącego konkurenta OpenAI. Setki tysięcy autorskich akceleratorów Trainium2 i infrastruktura na niespotykaną skalę mają zapewnić przewagę w wyścigu o najbardziej zaawansowaną sztuczną inteligencję.
Nowa era superklastrów – Project Rainier w liczbach
Amazon, jako jeden z największych inwestorów w Anthropic (dotąd przeznaczył na wsparcie firmy ponad 8 miliardów dolarów), realizuje projekt, który ma pomóc partnerowi zbudować przewagę nad OpenAI czy xAI Elona Muska. Project Rainier, którego pełne uruchomienie zaplanowano na drugą połowę 2025 roku, to infrastruktura rozproszona po wielu centrach danych w Stanach Zjednoczonych. Według przedstawicieli Annapurna Labs (spółki należącej do Amazona), pojedynczy kompleks w stanie Indiana obejmie aż 30 data center, każde o powierzchni 18,6 tys. m². Łączne zapotrzebowanie energetyczne tej infrastruktury ma przekroczyć 2,2 GW.
Amazon nie ujawnia pełnej skali przedsięwzięcia, lecz według dostępnych informacji, docelowo klaster ma wykorzystywać setki tysięcy akceleratorów Trainium2. Już pojedynczy Trn2 UltraServer – główna jednostka obliczeniowa systemu – łączy 64 chipy Trainium2, a całe rozwiązanie może być skalowane do dziesiątek tysięcy takich UltraServerów.
Trainium2 i architektura Rainiera
Sercem Project Rainier są układy Trainium2, zaprojektowane przez Annapurna Labs i produkowane przez TSMC w technologii 5 nm. Każdy z chipów wyposażony jest w dwa rdzenie obliczeniowe oraz cztery stosy pamięci HBM, co przekłada się na 1,3 petaFLOPS mocy w precyzji FP8, 96 GB HBM oraz imponujące 2,9 TB/s przepustowości. Zastosowanie wsparcia dla tzw. sparsity pozwala zwiększyć wydajność do 5,2 petaFLOPS, ale chip nadal ustępuje najnowszym układom Nvidia Blackwell pod względem wydajności „na sztukę”.
Jednak przewaga Trainium2 leży w skalowalności i architekturze sieciowej. AWS łączy akceleratory w 16-chipowe instancje Trn2, zgrupowane w UltraSerwery i dalej w „UltraCluster”. Wykorzystuje tu autorską magistralę NeuronLink v3 oraz własną sieć EFAv3 (Elastic Fabric Adapter), zapewniającą 200 Gbps na akcelerator i dziesiątki petabitów przepustowości w całym klastrze, przy opóźnieniach poniżej 10 mikrosekund. Innowacją jest także zastosowanie rozproszonego chłodzenia powietrzem, co pozwala obniżyć koszty operacyjne względem konkurencyjnych rozwiązań chłodzonych cieczą.

Przyszłość rozwiązań Amazon
Najnowsze akceleratory Nvidia – Blackwell B200 – oferują większą moc obliczeniową i przepustowość pamięci, jednak to podejście Amazona do masowej skalowalności i kosztu jednostkowego może przechylić szalę na jego korzyść, szczególnie dla klientów budujących modele na skalę globalną. Przewagą AWS jest także głęboka integracja własnych API oraz możliwość konsumpcji mocy obliczeniowej „na żądanie” – w modelu typowym dla chmury publicznej.
Warto dodać, że Amazon już testuje trzecią generację Trainium (Trainium3), która ma zaoferować nawet czterokrotnie większą wydajność i o 40% lepszą efektywność energetyczną. Oczekuje się, że UltraSerwery oparte na tych układach będą przekraczać 1,3 exaFLOPS mocy przy obliczeniach z wykorzystaniem sparsity. Debiut tej technologii spodziewany jest pod koniec 2025 lub na początku 2026 roku.