Mistral AI predstavio novi tekst u govor model: Radi na 9 jezika, reprodukcija kreće za 90 milisekundi

Francuska kompanija Mistral AI predstavila je novi model za pretvaranje teksta u govor, pod nazivom Vokstral, namenjen upotrebi u glasovnim asistentima i poslovnim sistemima, poput korisničke podrške i prodaje.

Sa ovim rešenjem, Mistral ulazi u direktnu konkurenciju sa kompanijama ElevenLabs, Deepgram i OpenAI.

Model podržava devet jezika – engleski, francuski, nemački, španski, holandski, portugalski, italijanski, hindi i arapski – i omogućava prilagođavanje glasa na osnovu uzorka kraćeg od pet sekundi. Sistem prepoznaje naglasak, intonaciju i ritam govora, a može i da prelazi između jezika bez gubitka karakteristika istog glasa, prenosi TechCrunch.

Vokstral funkcioniše gotovo u realnom vremenu – nakon unosa teksta počinje sa reprodukcijom za oko 90 milisekundi, dok za generisanje deset sekundi audio-zapisa koristi oko 1,6 sekundi, što je višestruko brže od samog trajanja snimka.

Ranije tokom godine, Mistral AI je lansirao i modele za transkripciju, uključujući verzije za obradu velikih količina podataka i za rad u realnom vremenu sa minimalnim kašnjenjem.

Novim TTS modelom kompanija zaokružuje ponudu glasovnih tehnologija za poslovne korisnike, dok se kao ključna prednost ističe otvorenost i prilagodljivost sistema, što omogućava kompanijama da modele prilagode sopstvenim potrebama i zahtevima.

BONUS VIDEO:

Ostavite komentar Odustani od odgovora

Izdvojeno za vas

Ostale vesti

Portal u fokusu