Echipa DeepMind de la Google a realizat un progres remarcabil cu noul lor model, numit Veo 3. În doar câteva secunde, acesta poate genera secvențe video de înaltă fidelitate, dar ceea ce îl distinge fundamental este capacitatea de a produce simultan și audio-ul asociat – dialog, sunete de fond, efecte – totul perfect sincronizat cu imaginea. Dacă până acum modelele text-to-video ofereau doar imagini statice sau videoclipuri mute, Veo 3 marchează o tranziție comparabilă cu cea de la filmul mut la filmul sonor: clipuri video de calitate 4K în care componenta audio este inerentă creației, nu adăugată ulterior.
Google VEO 3 demonstratie:
Less than 24 hours since Google dropped Veo3 and people are already creating wild stuff!
13 insane examples 🧵👇
1. A giraffe riding a bike in NYCpic.twitter.com/ktGDnwol99
— TechHalla (@techhalla) May 21, 2025
Veo 3 este, în esență, un generator video bazat pe AI. El preia descrieri în text (urmând să includă și imagini statice) și le transformă în clipuri de până la 8 secunde. Detaliile vizuale sunt impresionante, incluzând mișcări naturale ale personajelor, expresii faciale credibile și o sincronizare a buzelor cu dialogul aproape impecabilă. Rezultatul este un videoclip ce pare filmat de profesioniști, dar care a fost integral conceput și executat de inteligența artificială, eliminând necesitatea actorilor, camerelor sau platourilor de filmare tradiționale.
Deocamdată, accesul la Veo 3 este limitat. Tehnologia este disponibilă prin intermediul chatbotului Gemini (pe gemini.google.com), exclusiv pentru abonații planului Ultra (care costă 249 dolari pe lună) și doar în Statele Unite. Cu toate acestea, testele au arătat o capacitate deja solidă de a înțelege și a genera conținut credibil în alte limbi, inclusiv italiana, sugerând o extindere viitoare a suportului lingvistic.
Testele efectuate de jurnaliștii de la La Stampa au scos în evidență capabilitățile remarcabile ale Veo 3, chiar și pentru scenarii neconvenționale. Un exemplu notabil este crearea unui fals jurnal TV în care o prezentatoare dă vestea că un AGI (Inteligență Generală Artificială) a rezolvat problemele de trafic și gropile din Roma. Rezultatul a fost un clip perfect sincronizat, cu o voce realistă și o estetică generală convingătoare. Un alt test a generat un dialog fluid și natural între doi podcasteri AI, discutând viitorul inteligenței artificiale, fără nicio intervenție umană post-producție în ceea ce privește tonul, ritmul sau mimica.
Experiment 1: Jurnal fals de știri generat de AI:
#Veo3 / Esperimento 1: una breaking news surreale [n.b. questo video è stato creato da un’intelligenza artificiale di @Google] pic.twitter.com/SbblbOIfmP
— Pier Luigi Pisa (@Pier_Luigi_Pisa) May 27, 2025
Experiment 2: Un podcast cu dialog fluid generat de AI:
#Veo3 / Esperimento 2: un podcast „AGItato” [n.b. questo video è stato creato da un’intelligenza artificiale di @Google] pic.twitter.com/L8aCZeRSBp
— Pier Luigi Pisa (@Pier_Luigi_Pisa) May 27, 2025
Într-o piață deja populată de modele performante precum Sora de la OpenAI sau Runway, Veo 3 se impune prin abilitatea sa unică de a genera întregul pachet audio-vizual simultan. Cerând, de exemplu, „urmărire auto pe ploaie”, Veo 3 nu oferă doar imagini cu mașini rapide pe carosabil ud; el adaugă sunetele specifice: stropi de apă, claxoane, zgomot de motor, sunetul ploii. Această imersivitate audio-vizuală integrată este, la ora actuală, un element distinctiv major.
Potențialul Veo 3 de a revoluționa creația de conținut este enorm. De la regizori independenți și educatori la artiști și echipe de marketing, oricine poate crea acum, în câteva minute, materiale video complexe ce anterior necesitau bugete mari și resurse considerabile.
Însă, odată cu aceste oportunități vin și riscuri pe măsură:
După cum a demonstrat și testul cu știrile false, un clip generat de Veo 3, lipsit de context sau avertismente, poate înșela cu ușurință un utilizator neavizat.
Veo 3 este mai mult decât o simplă inovație tehnică. Este un punct de cotitură, începutul unei noi ere în modul în care creăm, distribuim și percepem conținutul digital. Imaginile și vocile generate artificial sunt pe cale să redefinească comunicarea, educația și, în cele din urmă, relația noastră cu realitatea vizuală și sonoră. Întrebarea fundamentală nu mai este cât de realist poate părea un videoclip creat de AI, ci dacă, în viitorul apropiat, vom mai avea instrumentele sau capacitatea de a face diferența între real și artificialul creat chiar de noi.