Cel mai recent sistem al startup-ului din Mountain View, Realtime TTS-2, analizează indicii vocali precum tonul, ritmul și înălțimea vocii pentru a deduce în timp real starea emoțională a vorbitorului. Apoi își ajustează dinamic propria voce și modul de livrare pentru a crea interacțiuni mai naturale și mai sensibile emoțional (TTS înseamnă „text-to-speech”, un tip de model AI de tip voce), notează Business Insider.
Pe măsură ce modelele AI de voce devin mai realiste, utilizarea și nivelul de implicare ar putea crește. Deși modelele bazate pe text, programarea asistată de AI și generarea de imagini au avut succes până acum, conversația vocală cu modele și chatboturi este potențial un mod mai natural de a folosi această tehnologie. CEO-ul Inworld, Kylan Gibbs, consideră că rezolvarea componentei emoționale este esențială pentru scalarea acestei tehnologii.
„Conversația în timp real, așa cum avem acum, este modul natural în care interacționează oamenii”, a declarat el într-un interviu recent. „Cu cât te apropii mai mult de asta, cu atât vezi mai mult engagement.”
Lansarea marchează o schimbare de direcție pentru companie, care a strâns peste 100 de milioane de dolari de la investitori precum Founders Fund, Intel și Microsoft. Modelul anterior al Inworld deja ocupa poziții de top în benchmark-urile industriei pentru calitatea vocii, depășind rivali precum Google și ElevenLabs. Însă Gibbs a spus că acest lucru nu este suficient.
Până acum, majoritatea modelelor AI de voce de top au fost concepute pentru audiobook-uri, voiceover-uri și conținut similar, potrivit lui Gibbs, fost product manager la DeepMind.
„Dacă auzi o voce AI astăzi, sună ca un om, dar sună ca un om care citește un scenariu, și există ceva care nu se leagă”, a spus el. „Poate suna bine, dar se simte greșit. E ca și cum ai asculta un audiobook în conversație.”
Acest decalaj dintre realism și interacțiune naturală a devenit următoarea țintă a Inworld.
Pentru a rezolva problema, TTS-2 combină mai multe capabilități care, în mod normal, nu există împreună în sistemele AI de voce. De exemplu, înțelege istoricul complet și contextul unei conversații, astfel încât aceeași frază spusă după o glumă are un impact diferit față de aceeași frază spusă după o veste proastă.
Noul model poate detecta, de asemenea, semnale emoționale din vorbirea umană în timp real și actualizează continuu ceea ce Inworld numește „starea utilizatorului” și „starea agentului”, pentru a ghida modul în care răspunde AI-ul.
Într-o demonstrație exclusivă la sediul Inworld din Silicon Valley, Gibbs a arătat cum funcționează TTS-2. În câteva secunde, modelul AI de voce a trecut prin mai multe stări diferite, în funcție de modul în care Gibbs vorbea și de subiectele introduse.
Într-un moment, vocea AI a devenit „empatică, apologetică și directă” când răspundea la o întârziere în serviciul de suport. A evoluat rapid spre „răbdătoare, caldă și clarificatoare”, apoi „empatică, utilă, cu ritm alert”, în funcție de context și ton.
Mai târziu, în aceeași demonstrație, un personaj AI numit „Jason” a arătat cât de nuanțate pot fi reacțiile. După ce Gibbs a făcut o glumă intenționat nepotrivită, AI-ul nu a ignorat situația și nici nu a răspuns rigid.
În schimb, a oferit o reacție echilibrată: „Ei bine, a fost cu siguranță eficient. Cu siguranță mi-a atras atenția. Nu aș spune că a fost amuzant, dar a fost impresionant într-un fel.”
Tonul transmitea un ușor amuzament, combinat cu o ușoară dezaprobare politicoasă, un exemplu de tip de nuanță pe care Inworld încearcă să îl atingă.
Gibbs a spus că acest tip de conștientizare emoțională a lipsit până acum din vocea AI, deoarece sistemele existente tratează vorbirea ca pe simple intrări text izolate. În schimb, TTS-2 este conceput să interpreteze un spectru mai larg de semnale, inclusiv stilul de livrare și prosodia, adică modul în care ceva este spus, nu doar cuvintele.
Tehnologia ar putea avea aplicații largi, de la servicii pentru clienți și sănătate până la educație și companioni AI, a mai spus Gibbs.
Inworld poziționează acest model ca infrastructură pentru dezvoltatori, nu ca produs de consum, oferindu-l printr-un API care se conectează la sisteme AI existente. API-urile (interfețe de programare a aplicațiilor) sunt o metodă standard prin care aplicațiile fac schimb de date.
În timp ce rivalul ElevenLabs activează la nivel de aplicații pentru clienți, Inworld oferă acces la modelele de bază, permițând dezvoltatorilor să creeze propriile aplicații.
Această strategie vine și din dorința lui Gibbs de a nu concura direct cu propriii clienți. În plus, creșterea instrumentelor de codare AI, precum Claude Code de la Anthropic și Codex de la OpenAI, face dezvoltarea de aplicații mult mai simplă, reducând valoarea acestui nivel al tehnologiei.
„Acum producem doar modele și API-uri”, a adăugat el.