LATTE3D od Nvidii tworzy kształty 3D w mniej niż sekundę

22 March 2024

Naukowcy z firmy NVIDIA stworzyli najnowszy model generatywnej sztucznej inteligencji typu text-to-3D, nazwany LATTE3D (Large-scale Amortized Text-To-Enhanced3D). LATTE3D w ciągu sekundy zamienia podpowiedzi tekstowe w trójwymiarowe reprezentacje obiektów i zwierząt.

Stworzone w popularnym formacie używanym w standardowych aplikacjach do renderowania, wygenerowane kształty mogą być z łatwością serwowane w wirtualnych środowiskach do tworzenia gier wideo, kampanii reklamowych, projektów projektowych lub wirtualnych terenów treningowych dla robotyki.

“Rok temu modele AI potrzebowały godziny, aby wygenerować wizualizacje 3D tej jakości – a obecny stan techniki wynosi teraz około 10 do 12 sekund – powiedziała Sanja Fidler, wiceprezes ds. badań nad sztuczną inteligencją w firmie NVIDIA, której zespół z laboratorium AI z siedzibą w Toronto opracował LATTE3D. – Możemy teraz generować wyniki o wiele szybciej, dzięki czemu generowanie tekstu do 3D w czasie zbliżonym do rzeczywistego jest w zasięgu twórców z różnych branż”.

To udoskonalenie oznacza, że LATTE3D może niemal natychmiastowo tworzyć kształty 3D po uruchomieniu wnioskowania na pojedynczym procesorze graficznym, takim jak NVIDIA RTX A6000, który został użyty w wersji demonstracyjnej NVIDIA Research.

Model generuje kilka różnych opcji kształtów 3D w oparciu o każdą podpowiedź tekstową, dając twórcy możliwość wyboru. Wybrane obiekty można zoptymalizować pod kątem wyższej jakości w ciągu kilku minut. Następnie użytkownicy mogą wyeksportować kształt do aplikacji graficznych lub platform, takich jak NVIDIA Omniverse.

LATTE3D został wytrenowany przy użyciu procesorów graficznych NVIDIA A100 Tensor Core. Oprócz kształtów 3D, model został wytrenowany na różnych podpowiedziach tekstowych generowanych za pomocą ChatGPT, aby poprawić jego zdolność do radzenia sobie z różnymi frazami, które użytkownik może wymyślić, aby opisać konkretny obiekt 3D.