Nvidia, zapowiedziała Magic3D, sztuczną inteligencję, która potrafi tworzyć modele 3D na podstawie opisu tekstowego

Magic3D firmy Nvidia potrafi tworzyć obiekty 3D na podstawie wprowadzonego tekstu. Model ten ma znacząco przewyższać tekstowy model 3D Dreamfusion firmy Google, który został zaprezentowany zaledwie we wrześniu 2022 roku.

Podobnie jak Dreamfusion, Magic3D opiera się w swoim rdzeniu na modelu generowania obrazu, który wykorzystuje tekst do tworzenia obrazów z różnych perspektyw, które z kolei służą jako dane wejściowe do generowania 3D. Zespół badawczy Nvidii wykorzystuje do tego swój wewnętrzny model rozpoznawania obrazów AI eDiffi, podczas gdy Google polega na modelu Imagen.

Zaletą tej metody jest to, że generatywny model sztucznej inteligencji nie musi być trenowany za pomocą rzadkich modeli 3D. W przeciwieństwie do swobodnie dostępnego modelu Get3D firmy Nvidia, który przekształca tekst w 3D, Magic3D może również generować wiele modeli 3D z różnych kategorii bez dodatkowego szkolenia.

„Magic3D przewyższa Dreamfusion pod względem rozdzielczości i szybkości działania.”

Według zespołu badawczego Nvidii, Magic3D zajmuje połowę czasu na stworzenie modelu 3D w porównaniu do Dreamfusion – około 40 minut zamiast średnio półtorej godziny – przy ośmiokrotnie większej rozdzielczości.

Magic3D oferuje również funkcje edycyjne typowe dla systemów AI rozpoznawania obrazu, które można przenieść do procesu generowania 3D. Na przykład podpowiedzi tekstowe mogą być dostosowane po wstępnej generacji: Wiewiórka na motocyklu zmienia się w królika na skuterku.

Co więcej, dopracowanie modelu dyfuzji eDiffi pozwala również na optymalizację generowanych modeli 3D do konkretnych przedmiotów. Model może również przenieść styl obrazu wejściowego na model 3D.

Zespół badawczy Nvidii ma nadzieję, że Magic3D może „zdemokratyzować syntezę 3D” i pobudzi kreatywność w tworzeniu treści 3D. Wydaje się to być zgodne z duchem firmy z Doliny Krzemowej, Andreessen Horowitz: Spekuluje, że generatywna AI przekształci sektor gier, który opiera się na wszelkiego rodzaju formatach mediów, a treści 3D w szczególności.

Więcej informacji znajdziecie we wpisie na stronie Nvidii pod tym linkiem.