Chińscy badacze zamierzają odtworzyć możliwości przetwarzania tekstu na wideo Sora Open AI

Naukowcy z Uniwersytetu w Pekinie i firma Rabbitpre zajmująca się sztuczną inteligencją z Shenzhen połączyli siły, aby rozpocząć projekt o nazwie Open-Sora.

Ich celem jest stworzenie, przy pomocy społeczności open source, wersji modelu przetwarzania tekstu na wideo OpenAI, Sora, który będzie łatwiejszy w obsłudze i bardziej skalowalny – podaje „South China Morning Post”. Sora z OpenAI od czasu premiery wywołała wiele hałasu w świecie sztucznej inteligencji, a ten projekt jest najnowszym posunięciem Chin w wyścigu AI.

Według strony projektu w serwisie GitHub w Open-Sora poczyniono już znaczne postępy, opracowując trzyczęściową strukturę i prezentując cztery demonstracje przebudowanych filmów wideo. Te filmy różnią się rozdzielczością i proporcjami, a czas trwania wynosi od trzech do 24 sekund.

Przyszłe cele projektu obejmują udoskonalenie technologii w celu tworzenia filmów o wyższej rozdzielczości oraz wzbogacenie szkoleń o dodatkowe dane i większą liczbę jednostek przetwarzania grafiki, aby zapewnić usłudze większą moc obliczeniową. Te kroki są kluczowe dla poprawy wydajności modelu i rozszerzenia jego możliwości w celu generowania bardziej szczegółowych i dłuższych filmów

Duże chińskie firmy technologiczne, takie jak Tencent AI i ByteDance, również odważyły się wejść w dziedzinę przetwarzania tekstu na wideo. Tencent AI wypuściło VideoCrafter2, zestaw narzędzi do generowania i edycji wideo typu open source, umożliwiający generowanie filmów z tekstu, aczkolwiek ograniczonych do 2 sekund. MagicVideo-V2 firmy ByteDance łączy w sobie różne moduły, tworząc kompleksowe możliwości generowania wideo.

Inicjatywa Open-Sora to wynik współpracy pomiędzy Wyższą Szkołą Podyplomową Uniwersytetu Pekińskiego w Shenzhen i Rabbitpre, tworzącymi „Wspólne laboratorium Rabbitpre AIGC”. To dzielone laboratorium, założone w czerwcu 2023 r., zajmuje się badaniem treści wytwarzanych przez sztuczną inteligencję. Zespół projektowy składa się z 13 członków, w tym adiunkta Yuana Li i profesora Tiana Yonghonga z Uniwersytetu w Pekinie, założyciela i dyrektora generalnego Rabbitpre Donga Shaolinga oraz dyrektora ds. technologii Zhou Xinga.

Sora – model od OpenAI, który ma zamieniać tekst na wideo