Meta udostępnia model AI do tłumaczenia mowy na dziesiątki języków
Meta Platforms, udostępniła we wtorek model sztucznej inteligencji umożliwiający tłumaczenie i transkrypcję mowy na dziesiątki języków, co stanowi potencjalny element składowy narzędzi umożliwiających komunikację w czasie rzeczywistym ponad podziałami językowymi.
Jak podaje Reuters, dyrektor generalny Mark Zuckerberg powiedział, że widzi takie narzędzia ułatwiające interakcje między użytkownikami z całego świata w metawersie, zbiorze wzajemnie połączonych wirtualnych światów, w którym widzi przyszłość firmy.
Zuckerberg twierdzi, że otwarty ekosystem sztucznej inteligencji działa na korzyść Meta, ponieważ firma może więcej zyskać, skutecznie wykorzystując crowdsourcing do tworzenia narzędzi skierowanych do konsumentów na swoje platformy społecznościowe niż pobierać opłaty za dostęp do modeli.
Firma poinformowała w poście na blogu, że model SeamlessM4T może obsługiwać tłumaczenia między tekstem a mową w prawie 100 językach, a także pełne tłumaczenie mowy na mowę dla 35 języków, łącząc technologię, która wcześniej była dostępna tylko w oddzielnych modelach.
Jak czytamy dalej w poście, Meta udostępnia model publicznie do użytku niekomercyjnego. Największa na świecie firma zajmująca się mediami społecznościowymi wypuściła w tym roku całą masę, w większości darmowych, modeli sztucznej inteligencji, w tym wielojęzyczny model o nazwie Llama, który stanowi poważne wyzwanie dla zastrzeżonych modeli sprzedawanych przez wspierane przez Microsoft OpenAI i Alphabet Google.
Niezależnie od strategii Meta stoi jednak przed podobnymi problemami prawnymi jak reszta branży dotyczącymi danych szkoleniowych wykorzystywanych do tworzenia swoich modeli.
W lipcu komiczka Sarah Silverman i dwóch innych autorów złożyło pozwy o naruszenie praw autorskich zarówno przeciwko Meta, jak i OpenAI, oskarżając firmy o wykorzystywanie ich książek jako danych szkoleniowych bez pozwolenia.
W przypadku modelu SeamlessM4T badacze Meta stwierdzili w artykule badawczym, że zebrali dane szkoleniowe audio z 4 milionów godzin „surowego dźwięku pochodzącego z publicznie dostępnego repozytorium przeszukanych danych internetowych”, nie określając, które to repozytorium. Jak wynika z artykułu badawczego, dane tekstowe pochodzą ze zbiorów danych utworzonych w zeszłym roku, które pobrały treść z Wikipedii i powiązanych z nią stron internetowych.