Szybkość odpowiedzi na zapytania użytkowników została przetestowana przez nowy benchmark AI

Grupa MLCommons zajmująca się benchmarkingiem sztucznej inteligencji opublikowała w środę nowy zestaw testów i wyników oceniających prędkość, z jaką najwyższej klasy sprzęt może uruchamiać aplikacje AI i odpowiadać użytkownikom. 

Jak podaje Reuters, dwa nowe testy porównawcze dodane przez MLCommons mierzą prędkość, z jaką chipy i systemy AI mogą generować odpowiedzi z potężnych modeli AI. Wyniki z grubsza pokazują, jak szybko aplikacja AI, taka jak ChatGPT, może odpowiedźieć na zapytanie użytkownika.

Grupa zdecydowała się na dodanie do pakietu dwóch nowych testów porównawczych. Model Llama 2 70B został wybrany do reprezentowania „większych” LLM z 70 miliardami parametrów, natomiast model Stable Diffusion XL jest ekwiwalentem generatywnych modeli sztucznej inteligencji przekształcających tekst na obraz.

Serwery zasilane chipami Nvidia H100 zbudowanymi przez takie firmy jak Google, Supermicro i samą Nvidię z łatwością zdobyły oba nowe standardy w zakresie surowej wydajności.

Surowa wydajność nie jest jedyną miarą, która jest krytyczna podczas wdrażania aplikacji AI. Zaawansowane chipy AI pochłaniają ogromne ilości energii, a jednym z najważniejszych wyzwań dla firm zajmujących się sztuczną inteligencją jest wdrożenie chipów zapewniających optymalną wydajność przy minimalnej ilości energii.

Kilku producentów serwerów przedstawiło projekty oparte na słabszym chipie L40S firmy. Konstruktor serwerów Krai przedstawił projekt testu porównawczego generowania obrazu z chipem Qualcomm AI, który pobiera znacznie mniej energii niż najnowocześniejsze procesory Nvidia. Intel przedstawił także projekt oparty na chipach akceleratora Gaudi2. Firma określiła wyniki jako „solidne”.