Zamień proste szkice w fotorealistyczne obrazy korzystając z NVIDIA GauGAN

4 July 2024

W ramach cyklu AI Decoded omówiono demo technologiczne GauGAN opublikowane przez zespół NVIDIA Research. Technologia ta znacząco usprawniła przepływ pracy związany ze sztuczną inteligencją, co zapoczątkowało falę aplikacji opartych na generatywnej AI, takich jak np. NVIDIA Canvas.

Jak to wszystko działa

GAN to modele głębokiego uczenia, które obejmują dwie uzupełniające się sieci neuronowe: generator i dyskryminator.

Te sieci neuronowe konkurują ze sobą. Generator próbuje tworzyć realistyczne, realistyczne obrazy, podczas gdy dyskryminator próbuje odróżnić to, co jest prawdziwe, od tego, co zostało wygenerowane. W miarę jak sieci neuronowe rzucają sobie nawzajem wyzwania, GAN stają się coraz lepsze w tworzeniu realistycznie wyglądających próbek.

Sieci GAN doskonale radzą sobie ze zrozumieniem złożonych wzorców danych i tworzeniem wysokiej jakości wyników. Są one wykorzystywane w takich zastosowaniach jak synteza obrazu, przenoszenie stylów, rozszerzanie danych i tłumaczenie obrazu na obraz.

NVIDIA GauGAN, nazwany na cześć postimpresjonistycznego malarza Paula Gauguina, to demo sztucznej inteligencji do fotorealistycznego generowania obrazów. Zbudowany przez NVIDIA Research, bezpośrednio doprowadził do opracowania aplikacji NVIDIA Canvas – i można go doświadczyć za darmo za pośrednictwem NVIDIA AI Playground.

GauGAN cieszy się ogromną popularnością od czasu debiutu na NVIDIA GTC w 2019 r. – jest używany przez nauczycieli sztuki, agencje kreatywne, muzea i miliony innych użytkowników online.

Od szkicu do scenerii van Gogha

Zasilana przez GauGAN i lokalne układy GPU NVIDIA RTX, NVIDIA Canvas wykorzystuje sztuczną inteligencję do przekształcania prostych pociągnięć pędzla w realistyczne krajobrazy, wyświetlając wyniki w czasie rzeczywistym.

Użytkownicy mogą zacząć od naszkicowania prostych linii i kształtów przy użyciu palety rzeczywistych elementów, takich jak trawa czy chmury – określanych w aplikacji jako “materiały”.

Model AI generuje następnie ulepszony obraz na drugiej połowie ekranu w czasie rzeczywistym. Na przykład, kilka trójkątnych kształtów naszkicowanych przy użyciu materiału “góry” pojawi się jako oszałamiająca, fotorealistyczna panorama. Użytkownicy mogą też wybrać materiał “chmury” i kilkoma kliknięciami myszy przekształcić otoczenie ze słonecznego w pochmurne.

Kreatywne możliwości są nieograniczone – naszkicuj staw, a inne elementy obrazu, takie jak drzewa i skały, odbiją się w wodzie. Zmień materiał ze śniegu na trawę, a scena zmieni się z przytulnej zimowej scenerii w tropikalny raj.