OmniVoice de la Xiaomi: sinteză vocală multilingvă

OmniVoice de la Xiaomi: sinteză vocală multilingvă

Comentarii

6 Minute

Inteligența artificială vocală are obiceiul de a suna impresionant pe hârtie și ciudat de lipsită de viață în practică. Xiaomi consideră că are o soluție. Compania a publicat codul sursă pentru OmniVoice, un nou model de sinteză vocală creat pentru a gestiona clonarea vocii, generarea vocală multilingvă și controlul detaliat asupra modului în care sună, de fapt, o voce sintetică.

Ceea ce face ca lansarea să iasă în evidență nu este doar promisiunea obișnuită de vorbire mai clară sau de randare mai rapidă. Xiaomi prezintă OmniVoice ca un model care poate funcționa în sute de limbi, inclusiv în limbile cu resurse reduse, adesea ignorate de sistemele vocale convenționale. Dacă această afirmație se confirmă în afara demonstrațiilor de laborator, ar putea avea implicații mult dincolo de telefoanele de top și asistenții inteligenți.

Anunțul a fost făcut prin canalul oficial WeChat al Xiaomi, unde compania a spus că OmniVoice se descurcă bine atât în chineză, cât și în engleză și, în anumite sarcini multilingve, poate egala sau chiar depăși alternativele comerciale. Este o afirmație îndrăzneață. Dar detaliile sugerează că Xiaomi țintește un punct dureros real în tehnologia vocală: majoritatea sistemelor de sinteză vocală încă funcționează cel mai bine pentru câteva limbi importante, în timp ce restul primesc o versiune diluată a experienței.

Unde OmniVoice poate schimba conversația

Xiaomi spune că OmniVoice a fost conceput având la bază sinteza vocală multilingvă. Compania îl descrie ca un model de sinteză vocală pentru clonarea vocii care acceptă sute de limbi, inclusiv limbi cu material de antrenament foarte limitat online. În termeni practici, asta înseamnă că sistemul este menit să genereze vorbire inteligibilă și cu sunet natural chiar și atunci când datele sunt rare, o provocare care a încetinit mult dezvoltarea IA vocale pentru limbile regionale și de nișă.

Potrivit Xiaomi, modelul a depășit mai multe sisteme comerciale în teste pe 24 de limbi, în special în ceea ce privește similaritatea vocală și inteligibilitatea, în ciuda faptului că a fost antrenat doar pe seturi de date cu cod sursă deschis. Într-o evaluare mai largă acoperind 102 limbi, compania spune că OmniVoice a ajuns aproape de nivelul de inteligibilitate umană și în unele cazuri chiar l-a depășit. Un astfel de enunț merită, desigur, verificare independentă, dar semnalează cât de agresiv vrea Xiaomi să poziționeze modelul în cursa globală pentru IA.

Unul dintre aspectele mai interesante ale anunțului este accentul pe antrenamentul cu date reduse. Xiaomi afirmă că chiar și limbile cu mai puțin de 10 ore de material disponibil pot obține totuși sinteză vocală de înaltă calitate. Pentru comunitățile și dezvoltatorii care lucrează cu limbi subreprezentate, acesta ar putea fi adevăratul titlu. Un model care reduce barierele de date schimbă cine are acces să creeze instrumente vocale.

Sub capotă, OmniVoice urmează o cale diferită față de multe dintre fluxurile de sinteză vocală mai complexe de astăzi. În loc să suprapună mai multe module și etape de predicție, Xiaomi spune că folosește o singură rețea Transformer bidirecțională pentru a transforma textul direct în vorbire. Arhitectură mai simplă. Mai puține componente. Potențial mai puține blocaje.

Acest design este legat și de viteză. Xiaomi susține că OmniVoice poate fi antrenat pe 100.000 de ore de date într-o singură zi și că, în faza de inferență, poate rula cu până la 40 de ori viteza reală în PyTorch. Pentru dezvoltatori, asta contează. Inferența rapidă este adesea diferența dintre o demonstrație spectaculoasă și ceva care poate fi integrat în produse de consum, sisteme de asistență clienți, instrumente de accesibilitate sau platforme de conținut.

Compania indică două alegeri tehnice în spatele acestor câștiguri. Prima este ceea ce numește o strategie completă de mascare aleatorie a codebook-ului, despre care se spune că îmbunătățește atât eficiența, cât și performanța generală a modelului în timpul antrenamentului. A doua este folosirea unui model lingvistic mare în preantrenare, o decizie pe care Xiaomi spune că ajută la îmbunătățirea pronunției și a inteligibilității într-un cadru de sinteză vocală non-autoregresiv. Pe scurt, modelul nu încearcă doar să sune fluent; încearcă să înțeleagă structura limbajului suficient de bine pentru a pronunța cuvintele dificile mai natural.

Aceasta devine deosebit de relevant în lumea reală, unde sinteza vocală se blochează frecvent la nume, accente, cuvinte împrumutate sau texte bilingve. Xiaomi spune că OmniVoice oferă utilizatorilor mai mult control și aici. Pronunții dificile, inclusiv caracterele polifonice chinezești și numele proprii în engleză, pot fi corectate manual pentru a crește fiabilitatea.

Funcțiile pentru consumatori sunt locul unde OmniVoice începe să pară mai puțin ca o lucrare de cercetare și mai mult ca o platformă. Utilizatorii pot genera voci personalizate descriind trăsături precum vârsta, genul, tonalitatea, accentul, dialectul și stilul de vorbire. Poate, de asemenea, să producă voci șoptite și alte stiluri vocale specializate fără a necesita un fragment audio de referință, ceea ce reprezintă un salt notabil în flexibilitate.

Xiaomi mai spune că modelul poate curăța audio de referință zgomotos înainte de a clona o voce, extrăgând trăsături ale vorbitorului mai clare din înregistrări realizate în medii imperfecte. Poate părea un detaliu minor, dar oricine a lucrat cu audio din lumea reală știe cât de dezordonat este de obicei materialul sursă. Un sistem de clonare care rezistă la zgomotul de fundal este mult mai util decât unul care funcționează doar în condiții de studio.

Apoi vine expresivitatea. OmniVoice acceptă controale de intonație, inclusiv efecte precum râs și oftaturi, care ar putea face ca vorbirea sintetică să sune mai puțin robotică și mai conversațională. Acolo se îndreaptă piața. Următoarea generație de IA vocală nu este doar despre citirea precisă a textului cu voce tare. Este despre spectacol, personalitate și nuanțe emoționale.

Xiaomi nu este prima companie care urmărește acest obiectiv și nu va fi nici ultima. Dar, prin publicarea codului sursă al OmniVoice, face un pariu strategic că accesul mai larg al dezvoltatorilor poate ajuta la introducerea tehnologiei sale vocale în mai multe produse, piețe și limbi. Dacă modelul va îndeplini măcar o parte din ceea ce promite Xiaomi, OmniVoice ar putea deveni una dintre cele mai interesante lansări cu cod sursă deschis în domeniul IA vocale ale anului.

Lasă un Comentariu

Comentarii