Xiaomi stworzyło specjalne rozwiązanie, aby pomóc osobom z zaburzeniami mowy

23 May 2022

Xiaomi zaprezentowało najnowsze zastosowanie zaawansowanych algorytmów sztucznej inteligencji w samodzielnie opracowanej technologii syntezy mowy. Technologia Text-To-Speech, opracowana przez Xiaomi AI Lab, jest używana do generowania unikalnego brzmienia głosu dla osób z zaburzeniami mowy.

Dzięki temu, osoby z zaburzeniami mowy mogą komunikować się za pomocą indywidualnego „własnego głosu”, zamiast syntezowanych elektronicznie, monotonnych dźwięków. To efekt prac, będących częścią projektu badawczego „Own My Voice” prowadzonego przez Komitet Techniczny Xiaomi, który jest doskonałym przykładem zaangażowania firmy w tworzenie i rozwijanie innowacji, które mogą poprawić komfort życia.

Dlaczego Xiaomi uruchomiło ten projekt?

Nawiązując do pragnienia wielu osób z zaburzeniami mowy, aby posiadać własne, niepowtarzalne brzmienie i charakter głosu w codziennej komunikacji, firma powołała zespół projektowy „Own My Voice”.

„Jesteśmy podekscytowani możliwością zbadania wielu obszarów i wartości, jakie niosą ze sobą innowacje technologiczne, takich jak np. odpowiadanie na potrzeby użytkowników w zakresie samoidentyfikacji i w budowie tożsamości”. – powiedział Zhu Xi, koordynator projektu Tech for Good w Komitecie Technicznym Xiaomi.

Sposób realizacji

Aby stworzyć możliwie najbardziej spersonalizowane głosy dla osób z zaburzeniami mowy, zespół Xiaomi zaangażował w projekt ponad 200 ochotników, których próbki mowy zarejestrowano i przeanalizowano na potrzeby projektu. Następnie wykorzystano specjalne algorytmy, które dopasowaly nagrane do mowy użytkownika. Dzięki temu udało się ustalić najbardziej odpowiednie brzmienie jako głos referencyjny dla danej osoby z zaburzeniami mowy. Mając na uwadze ochronę prywatności, wybrane rzeczywiste głosy zostały poddane złożonej modyfikacji akustycznej, aby uzyskać nowe, oryginalne brzmienie.

Następnie użyto technologii spontanicznej konwersji tekstu na mowę (Text-To-Speech) do wytrenowania modelu sztucznej inteligencji. Wszystko po to, by nowy głos nabrał naturalnego rytmu i intonacji, co pozwala wiernie wyrazić emocje i ton mowy człowieka.

W projekcie „Own My Voice” połączono wiele zaawansowanych algorytmów z opracowaną przez Xiaomi nową technologią syntezy mowy, aby zapewnić unikalność, bezpieczeństwo i autentyczność generowanego głosu.

Znaczenie i waga projektu

Trzonem tego projektu jest grupa ekspertów w dziedzinie technologii mowy z Xiaomi AI Lab. Od 2017 roku opublikowali oni 37 prac na temat mowy, wygłoszonych podczas wielu międzynarodowych konferencji, takich jak International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Sukces aplikacji „Own My Voice” zależy od opracowanej przez nich unikalnej technologii Text-To-Speech.

Technologia zamiany tekstu na mowę metodą spontaniczną upodabnia syntezowany głos do prawdziwej ludzkiej mowy w zakresie intonacji, pauz, szybkości i innych cech. Zastępuje to monotonne i nienaturalne brzmienie głosu elektronicznego. Technologia ta jest już stosowana w wielu inteligentnych urządzeniach Xiaomi wyposażonych w funkcję asystenta głosowego. Projekt „Own My Voice” pokazuje, że synteza mowy Text-To-Speech może być również szeroko stosowana w przełamywaniu barier niepełnosprawności i poprawie komfortu życia.

„Jeżeli zauważymy i uwzględnimy tego typu potrzeby na wczesnym etapie, proces upowszechniania innowacji można znacznie skrócić, a korzyści, które z nich płyną, mogą być szybciej dostępne dla potrzebujących tego osób” – wyjaśnia Zhu Xi.