Groq i PlayAI prezentują Dialog – syntezator mowy, który podnosi poprzeczkę w modelach TTS

27 March 2025

Groq i PlayAI ogłosiły współpracę, która ma na celu stworzenie najbardziej zaawansowanego modelu Text-to-Speech (TTS) na rynku. Ich wspólne dzieło, Dialog, jest pierwszym modelem TTS dostępnym w języku arabskim, skierowanym na rynek Bliskiego Wschodu. Dzięki infrastrukturze Groq, Dialog działa z prędkością do 140 znaków na sekundę, co oznacza generowanie tekstu nawet dziesięć razy szybciej niż w czasie rzeczywistym.

Dialog już teraz wyróżnia się zaawansowanym zrozumieniem kontekstu rozmowy. W przeciwieństwie do wielu innych modeli, które traktują każdą odpowiedź jako oddzielne zdarzenie, Dialog uwzględnia cały przebieg rozmowy. Dzięki takiemu podejściu, model potrafi dostosować intonację, tempo i emocje do dynamiki rozmowy, co sprawia, że generowany głos brzmi bardziej naturalnie i ludzko.

Współpraca między Groq i PlayAI jest krokiem w kierunku stworzenia bardziej realistycznych interakcji między ludźmi a AI. Dialog ma być wykorzystywany w aplikacjach takich jak obsługa klienta, automatyzacja sprzedaży czy usługi dostępu dla osób z niepełnosprawnościami wzrokowymi. Model ten umożliwia tworzenie immersyjnych doświadczeń głosowych, w tym syntetycznych podcastów, które będą brzmieć jak prawdziwe rozmowy między ludźmi.

Groq, lider w dziedzinie infrastruktury AI, zapewnia dostęp do syntezatora Dialog poprzez swoją platformę GroqCloud. Pozwoli to deweloperom budować aplikacje głosowe w pełni oparte na tej technologii. W ramach GroqCloud dostępne są zarówno darmowe, jak i płatne plany, co ułatwia eksperymentowanie z modelem bez konieczności czynienia dużych inwestycji.

Na koniec warto dodać, że wyniki testów przeprowadzonych przez narzędzie Podonos pokazują, że Dialog wypada lepiej niż inne modele pod względem naturalności i ekspresji. W tych niezależnych badaniach użytkownicy wybierali Dialog trzykrotnie częściej, niż inne czołowe modele TTS dostępne na rynku (m.in. ElevenLabs v2.5 Turbo czy ElevenLabs Multilingual v2.0).