Francuska kompanija Mistral AI predstavila je novi model za pretvaranje teksta u govor, pod nazivom Vokstral, namenjen upotrebi u glasovnim asistentima i poslovnim sistemima, poput korisničke podrške i prodaje.
Sa ovim rešenjem, Mistral ulazi u direktnu konkurenciju sa kompanijama ElevenLabs, Deepgram i OpenAI.
Model podržava devet jezika – engleski, francuski, nemački, španski, holandski, portugalski, italijanski, hindi i arapski – i omogućava prilagođavanje glasa na osnovu uzorka kraćeg od pet sekundi. Sistem prepoznaje naglasak, intonaciju i ritam govora, a može i da prelazi između jezika bez gubitka karakteristika istog glasa, prenosi TechCrunch.
Vokstral funkcioniše gotovo u realnom vremenu – nakon unosa teksta počinje sa reprodukcijom za oko 90 milisekundi, dok za generisanje deset sekundi audio-zapisa koristi oko 1,6 sekundi, što je višestruko brže od samog trajanja snimka.
Ranije tokom godine, Mistral AI je lansirao i modele za transkripciju, uključujući verzije za obradu velikih količina podataka i za rad u realnom vremenu sa minimalnim kašnjenjem.
Novim TTS modelom kompanija zaokružuje ponudu glasovnih tehnologija za poslovne korisnike, dok se kao ključna prednost ističe otvorenost i prilagodljivost sistema, što omogućava kompanijama da modele prilagode sopstvenim potrebama i zahtevima.
BONUS VIDEO:







Komentari (0)