Mi sono fatto un deep fake da solo: come mi sono clonato voce e immagine

Articoli, Guide, News home

Si parla da molto tempo di digital twin: il “gemello digitale” è una replica digitale di un oggetto, sistema o processo del mondo reale. O, se vogliamo, anche di una persona (in realtà il vero digital twin è praticamente autonomo) anche se in quel caso sarebbe più opportuno parlare di “second brain”.
Ora, con gli strumenti di intelligenza artificiale a disposizione di tutti, è possibile “clonarsi”, creare un avatar con la nostra faccia e la nostra voce, che fa e dice cose che non abbiamo mai fatto né detto. Rovescio della medaglia: i deep fake, vale a dire video o audio manipolati che utilizzano l’IA per creare l’illusione che determinate azioni o discorsi siano stati eseguiti da persone reali. Il termine “deepfake” è una combinazione di “deep learning” (un sottocampo dell’IA) e “fake”, che indica qualcosa di falso o ingannevole. Un esempio? Zelensky che si arrende a Putin.

Per comprende meglio il meccanismo, mi sono creato un deep fake da solo. Ecco come ho fatto, passo per passo.

Eleven Labs: generatore di Voci basato sull’IA

Prima di tutto dovevo clonarmi la voce. Per questo ho usato Eleven Labs: l’azienda newyorkese ha creato un modello generativo che consente di progettare da zero voci artificiali. In altre parole, è possibile generare voci personalizzate che non corrispondono a nessuna voce esistente. Oppure, ed è questo che ci interessa, è possibile dare allo strumento in pasto dei campioni della propria voce per “clonarla”, per generare una voce sintetica con stesse caratteristiche (estensione, timbro, intensità, tono, stile, ecc.). L’ho fatto. Ho preso 15 file audio contenenti la registrazione della mia voce e li ho dato in pasto all’algoritmo.

Una volta clonata la mia voce, sono passato alla sezione “Speech Synthesis” (in pratica “sintesi vocale”) e ho scritto il testo per l’avatar. Un testo breve, da 500 caratteri per un parlato da circa mezzo minuto. A quel punto il “text to speech” ha fatto il suo dovere e ho scaricato il file audio del mio parlato virtuale.

A quel punto mi serviva un avatar parlante.

D-ID.com: creazione di Avatar Realistici con AI

D-ID.com è una piattaforma Web che utilizza l’animazione facciale in tempo reale e il text-to-speech avanzato per creare esperienze di intelligenza artificiale conversazionale immersive, simili a quelle reali. Utilizzando D-ID, ho caricato una foto di me stesso (avrei potuto usare anche il mio avatar) e ho poi personalizzato la mia animazione caricando il file audio.

A quel punto non ho fatto altro che aspettare la magia. Dopo qualche minuto ho scaricato il video (un po’ “metallico”, ma interessante) con la mia immagine parlante e con le labbra del ritratto in sincrono con il parlato. Vuoi vedere l’effetto finale?

Il video del mio deep fake

Una volta scaricato il video da D-ID.com ho fatto un minimo di montaggio video, ed ecco il risultato:

Come ti sembra?

La combinazione di Eleven Labs e D-ID.com ha reso possibile la creazione del mio avatar parlante. Questi strumenti di IA non solo hanno ridotto i costi e il tempo necessario per la produzione video, ma hanno anche offerto una flessibilità e un controllo senza precedenti sul risultato finale. Con l’effetto “wow” dei video generati da IA, sono stato in grado di creare l’effetto wow!