NVIDIA Hopper H100 z rdzeniem Tensor 4. generacji jest dwa razy szybszy zegar w zegar

22 August 2022

Na konferencji Hot Chips 34 firma NVIDIA przedstawia procesor graficzny Hopper H100, dając nam przedsmak tego, co architektura 4th Gen Tensor Core ma do zaoferowania.

Podczas gdy AMD stosuje podejście MCM w swoich procesorach graficznych HPC, NVIDIA zdecydowała się na razie pozostać przy konstrukcji monolitycznej. Ich Hopper H100 jest jednym z największych procesorów graficznych wykonanych w procesie technologicznym 4N firmy TSMC, który został zoptymalizowany i wykonany wyłącznie dla NVIDIA.

Procesor graficzny H100 jest układem o bardzo dużej mocy, wykonanym w technologii 4nm i zawierającym 80 miliardów tranzystorów oraz pamięć HBM3. H100 zbudowany jest na płycie PCB PG520, która posiada ponad 30 układów VRM i masywny, zintegrowany interpozytor, który wykorzystuje technologię CoWoS firmy TSMC, aby połączyć procesor graficzny Hopper H100 z 6-warstwową konstrukcją HBM3. Niektóre z głównych technologii zastosowanych w GPU Hopper H100 obejmują:

132 SMs (2x Performance Per Clock)
4th Gen Tensor Cores
Thread Block Clusters
2nd Gen Multi-Instance GPU
Confidential Computing
PCIe Gen 5.0 Interface
HBM3 DRAM
50 MB L2 Cache
4th Gen NVLink (900 GB/s Total Bandwidth)
New SHARP support
NVLink Network

Nowy standard HBM3 pozwala jednak na uzyskanie nawet 80 GB pojemności przy prędkości 3 TB/s. Dla porównania obecna najszybsza karta graficzna do gier RTX 3090 Ti oferuje zaledwie 1 TB/s przepustowości i 24 GB pojemności VRAM. Poza tym procesor graficzny H100 Hopper wyposażono również w ostatni format danych FP8, a dzięki nowemu złączu SXM można zbudować konstrukcję zasilania zdolną pobrać 700 Watów. Układ oferuje także dwukrotnie wyższe prędkości FMA w formatach FP32 i FP64 oraz 256 KB pamięci podręcznej L1.

Przechodząc do specyfikacji, procesor graficzny NVIDIA Hopper GH100 składa się z 144 jednostek obliczeniowych SM (Streaming Multiprocessor), które znajdują się w sumie w 8 GPC. Te GPC składają się z 9 TPC, które są dodatkowo złożone z 2 jednostek SM każda. Daje to nam 18 jednostek SM na GPC i 144 na całą konfigurację 8 GPC. Każdy SM składa się z maksymalnie 128 jednostek FP32, co powinno dać nam łącznie 18,432 rdzeni CUDA.

Pamięć podręczna to kolejny obszar, któremu NVIDIA poświęciła wiele uwagi, zwiększając ją do 48 MB w procesorze Hopper GH100. Jest to wzrost o 20% w stosunku do 50 MB pamięci podręcznej w procesorze graficznym Ampere GA100 i 3x większy niż w przypadku flagowego procesora Aldebaran MCM firmy AMD, MI250X.

Podsumowując dane dotyczące wydajności, procesor graficzny NVIDIA GH100 Hopper będzie oferował 4000 TFLOPs wydajności obliczeniowej w trybie FP8, 2000 TFLOPs w trybie FP16, 1000 TFLOPs w trybie TF32 i 60 TFLOPs w trybie FP64. Te rekordowe liczby dziesiątkują wszystkie inne akceleratory HPC, które pojawiły się przed nim. Dla porównania, jest on 3,3x szybszy niż własny procesor graficzny A100 firmy NVIDIA i 28% szybszy niż Instinct MI250X firmy AMD w obliczeniach FP64. W obliczeniach FP16, GPU H100 jest 3x szybszy niż A100 i 5.2x szybszy niż MI250X, co jest dosłownie bonkersem.

Wariant PCIe, który jest okrojonym modelem, został niedawno wystawiony w Japonii za ponad 30 000 dolarów, więc można sobie wyobrazić, że wariant SXM z mocniejszą konfiguracją i lepszym układem zasilania będzie kosztował około 50 tysięcy dolarów.