Nowa adaptacja Stable Diffusion AI pozwala tworzyć niezwykłe materiały video na podstawie samych podpowiedzi tekstowych

22 March 2023

Na tle generatywnych Sztucznych Inteligencji przetwarzających tekst na obraz, nie ma właściwie żadnych rozwiązań dla wideo. Wkrótce może się to jednak zmienić, ponieważ startup Runway ujawnił niedawno swój nowy model AI: Gen-2.

Funkcjonując podobnie do Stable Diffusion (przy którego tworzeniu Runway miało swój udział), Gen-2 działa poprzez przyjmowanie podpowiedzi tekstowych w celu stworzenia filmów od podstaw. Jak można zobaczyć na stronie dewelopera, można stworzyć materiał wideo z lotu ptaka na pasmo górskie lub zachód słońca na zewnątrz nowojorskiego loftu. Ulepszenie z tekstu na wideo nie brzmi może na początku tak imponująco, jednak rzeczywiście tak jest, jeśli porównamy je z poprzednim projektem Runway.

Jeszcze w lutym deweloper wypuścił model Gen-1, który był bardziej edytorem wideo. Wymagał jakiejś bazy, jak niedokończona animacja 3D lub osoba, zanim model nałożyłby ten materiał na wideo stworzone przez AI. Stara AI nie potrafiła stworzyć niczego od podstaw. Fani starego modelu będą mogli nadal cieszyć się Gen-1, ponieważ jego funkcje staną się oddzielnymi trybami w Gen-2.

Tryb oznaczony numerem 01 jest głównym elementem funkcji text-to-video. Drugi z nowych trybów pozwala na dodanie obrazu do podpowiedzi tekstowej, aby uzyskać lepsze rezultaty. A w trzecim trybie wystarczy przesłać obraz, aby wygenerować wideo. Podpowiedź tekstowa nie będzie wymagana. Wszystkie kolejne tryby po trybie trzecim, będą bazowały na pierwszym modelu Gen-1.

Technologia ta jest jeszcze w początkowej fazie rozwoju. Filmy z prezentacji demonstracyjnej wyglądają dość dziwnie, by nie powiedzieć gorzej. Znajdują się głęboko w dolinie niesamowitości, gdy budynki wtapiają się w siebie, a ludzie zachowują puste spojrzenia. Mimo to, możliwość posiadania publicznie dostępnej, generującej tekst na wideo AI jest całkiem interesująca. Może ona otworzyć nowe drogi dla kreatywności (lub dezinformacji). Niektórzy giganci technologiczni już wcześniej zajmowali się wideo AI, jak Google i jego projekt Imagen Video, ale te modele są nadal za zamkniętymi drzwiami.

Niektóre raporty twierdzą, że istnieje lista oczekujących na wczesny dostęp do Gen-2 na prywatnym kanale Discord firmy Runway. Jednak jedyna beta, jaką udało się potwierdzić, dotyczy Gen-1. Możliwe, że w późniejszych miesiącach pojawi się beta Gen-2, choć na razie nie ma żadnych oficjalnych informacji na ten temat.