fbpx
NewsTech

Vall-E è una IA in grado di imitare perfettamente la voce umana dopo tre secondi di ascolto

Si discute da molto tempo ormai sul tema dei deepfake e sul loro utilizzo in ambiti legali (come ad esempio le produzioni di contenuti audiovisivi) e meno. Per chi non lo sapesse, per deepfake si intende lo sfruttamente di un’intelligenza artificiale (IA) in grado di riprodurre e simulare, in modo assolutamente fedele e credibile, aspetto fisico e voce di persone reali.

Un mercato sconfinato, che potrebbe letteralmente rivoluzionare il mondo dello spettacolo e del cinema. Pensate, ad esempio, alle iconiche voci dei personaggi dei franchise che tanto amiamo. E pensate poi a quando, inevitabilmente, quei doppiatori non ci saranno più. L’impiego di deepfake potrebbe riportare in vita quelle stesse voci di doppiatori defunti per eventuali sequel. E c’è chi ha già dato anche il consenso: lo scorso settembre James Earl Jones, iconica voce di Darth Vader, ha acconsentito affinché la sua voce venisse utilizzata per i futuri film della saga di Star Wars mediante tecnologia deepfake. Il franchise di Guerre Stellari ha già utilizzato svariate volte l’IA, per ricreare le versioni più giovani di Luke Hamill, Carrie Fisher e del compianto Peter Cushing.

L’IA che imita la voce alla perfezione: Vall-E

Oggi, nello specifico, vi parliamo di una delle ultimissime novità nel mondo deepfake: Vall-E. Si tratta di un’IA, sviluppata da un team di ricercatori Microsoft, che ha una peculiarità: può imitare alla perfezione le voci umane con soli 3 secondi di ascolto, e non è necessario che i file audio in entrata siano di qualità eccelsa.

Amazon Music: 3 mesi gratuiti senza obbligo di abbonamento
Amazon Prime: 30 giorni gratis, Prova subito!

I ricercatori che hanno sviluppato Vall-E affermano che la maggior parte dei sistemi di sintesi vocale attuali sono limitati. Questi limiti deriverebbero dalla loro “dipendenza da sorgenti di alta qualità e dati puliti”.

In buona sostanza l’IA, per sintetizzare in modo credibile una voce, necessita di analizzarne lo spettro sonoro, così da comprenderne tutte le eventuali variazioni dinamiche e tonali. File audio di scarsa qualità, compressi e ricchi di rumore generano risultati insoddisfacenti. A quanto pare però Vall-E si accontenta di poco, anzi: è in grado di imitare perfettamente la voce umana anche da una clip sonora non eccelsa e di breve durata.

Vall-E viene addestrato con un set di dati molto ampio e diversificato: oltre 60.000 ore di parlato in lingua inglese proveniente da più di di 7.000 voci. Gli sviluppatori spiegano che I dati inviati all’intelligenza artificiale contengono “discorsi rumorosi e trascrizioni imprecise”, soprattutto se paragonati a quelli utilizzati da altri sistemi di sintesi vocale. 

“I risultati dell’esperimento mostrano che Vall-E supera in modo significativo il sistema TTS [Text-to-Speech] all’avanguardia in termini di naturalezza del parlato e somiglianza del parlante”, si legge in un documento ufficiale del team di sviluppo.

Un esempio dell’operato di Vall-E

Se siete curiosi di ascoltare la voce (anzi le voci) di Vall-E, potete ascoltare alcune delle sue simulazioni a questo link. Sul sito sono presenti dozzine di frasi pronunciate dall’IA, elaborate da sprazzi di conversazione, opere cinematografiche e molto altro. La raccolta ci mostra inoltre le capacità espressive di Vall-E (che è in grado di simulare emozioni, reazioni e intenzioni come rabbia e tristezza nel tono di voce): in pratica ciò che farebbe un attore in carne e ossa. Infine vi sono esempi di sintesi vocale anche in condizioni estreme, con file molto sporchi e pieni di rumore.

Si tratta insomma solo di una prima demo tecnica. Per ora. Se queste sono le premesse, le potenzialità sono assolutamente illimitate.

I rischi dell’IA

Il mondo delle IA e del deepfake non è però tutto entusiasmo e simulazioni. Il settore, sebbene in costante espansione, deve rispondere a numerose critiche. Vi ricordate l’incredibile boom di Lensa AI, Dall-E e di altre app in grado di generare arte in modo procedurale? Come vi abbiamo spiegato approfonditamente in questo articolo, app di questo tipo sono accusate di violazione di privacy e di proprietà intellettuale. Spesso, infatti, attingono in modo assolutamente libero ad opere di altri artisti presenti in rete, senza citarli né ricompensarli.

La svastica sul sole
  • Editore: Fanucci
  • Autore: Philip K. Dick , Luigi Bruti Liberati , Carlo Pagetti , Maurizio Nati
  • Collana: Collezione immaginario Dick

Per quanto riguarda le IA vocali, queste preoccupazioni sono praticamente doppie, dato che la simulazione di voci di privati potrebbe indurre a potenziali truffe in ambito telemarketing e non solo. Rischi che sono riconosciuti dagli stessi sviluppatori di Vall-E, i quali hanno dichiarato: 

“Poiché VALL-E è in grado di sintetizzare il parlato in modo fedele, simulando l’identità del parlante, potrebbe comportare potenziali rischi nell’uso improprio del modello, come lo spoofing dell’identificazione vocale o l’impersonificazione di un oratore specifico. Per mitigare tali rischi, è possibile creare un modello di rilevamento in grado di verificare se una clip audio proviene da un sintetizzatore VALL-E”.

Se solo John Connor ne avesse avuto uno in Terminator 2.

Da non perdere questa settimana su Techprincess

✒️ La nostra imperdibile newsletter Caffellattech! Iscriviti qui 
 
🎧 Ma lo sai che anche Fjona ha la sua newsletter?! Iscriviti a SuggeriPODCAST!
 
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
 
💌 Risolviamo i tuoi problemi di cuore con B1NARY
 
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
 
💸E trovi un po' di offerte interessanti su Telegram!

Marco Brunasso

Scrivere è la mia passione, la musica è la mia vita e Liam Gallagher il mio Dio. Per il resto ho 30 anni e sono un musicista, cantante e autore. Qui scrivo principalmente di musica e videogame, ma mi affascina tutto ciò che ha a che fare con la creazione di mondi paralleli. 🌋From Pompei with love.🧡

Ti potrebbero interessare anche:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Back to top button