Clonazione vocale e deepfake audio: quando al telefono risponde l’Intelligenza Artificiale

È una domenica pomeriggio di gennaio nel New Hampshire quando la signora Gail Huntley, 73 anni, riceva una chiamata. La donna riconosce immediatamente la voce al telefono: si tratta di Joe Biden.

Ma c’è qualcosa di strano nella conversazione. Il Presidente americano, infatti, sta chiamando la signora Huntley per dirle di non recarsi a votare alle primarie democratiche dello Stato che si sarebbero tenute pochi giorni dopo sostenendo che recarsi alle urne alle primarie di gennaio avrebbe precluso il voto alle elezioni presidenziali di novembre 2024 a vantaggio del partito repubblicano e quindi di risparmiare il proprio voto per la tornata elettorale dell’autunno.

Quello della signora Huntley non è stato un caso isolato. A pochi giorni dalle primarie del New Hampshire le chiamate di Joe Biden agli elettori democratici per sconsigliare di recarsi a votare hanno raggiunto, secondo le stime, tra 5.000 e 25.000 persone.

Ovviamente, il Presidente americano non ha mai effettuato neanche una di queste telefonate e ovviamente non è affatto vero che votare alle elezioni primarie democratiche avrebbe precluso agli elettori di esercitare i loro diritti a novembre.

La voce che i cittadini americani hanno ascoltato al telefono, infatti, era un deepfake audio, frutto di una tecnica di clonazione vocale tramite intelligenza artificiale. In questo specifico caso, dietro alle chiamate non si celavano grandi potenze straniere o gruppi terroristici che volevano influenzare l’esito del voto, ma il consulente politico di un candidato democratico che correva contro Biden.

Da un punto di vista strettamente legale, la vicenda ha acceso i riflettori sulle capacità potenziali dell’AI generativa, che può diventare uno strumento formidabile per ingannare i cittadini e ha portato ad una causa milionaria intentata dalle autorità statunitensi contro il consulente in questione (che tra i vari reati di cui è accusato dovrà rispondere anche del tentativo di impedire agli americani di votare) e le società telefoniche che hanno consentito il flusso di chiamate preregistrate. Nel frattempo, negli USA (e non solo) si sta legiferando sempre più frequentemente e in maniera più stringente per far sì che i prodotti generati dalle AI (immagini, video e audio) siano ben etichettati e riconoscibili al pubblico, soprattutto in ambito elettorale.

Ma l’aspetto più inquietante della vicenda è che il creatore effettivo della registrazione vocale che simulava il Presidente Biden è un mago di strada dello Stato della Louisiana (un campione in piegature di forchette e fughe da camicie di forza, seconda la stampa USA), non propriamente un hacker di primissimo piano. Questo mago, con una registrazione iniziale di pochi secondi di una frase di Biden e con un compenso di 150 dollari, ha creato in totale autonomia un clone vocale del Presidente americano assolutamente credibile.

Cosa potrebbero fare un governo, un’agenzia di intelligence o una grande multinazionale con budget milionari e squadre di tecnici professionisti?

Deepfake audio ed elezioni

Quando si parla di deepfake e di AI generativa tendenzialmente il primo pensiero riguarda le immagini e i video creati tramite l’intelligenza artificiale. Gli audio (e soprattutto la clonazione vocale) rappresentano un aspetto meno noto ma che potenzialmente può produrre effetti anche più dannosi.

Quello di Joe Biden non è stato un caso isolato. Nel 2023, poco prima del voto per le elezioni presidenziali della Slovacchia, è stata diffusa online una registrazione vocale generata dall’AI in cui il candidato europeista conversava con una giornalista riguardo alcuni voti che il suo partito avrebbe comprato per truccare l’esito delle elezioni. Sebbene sia impossibile stabilire se e quanto questo deepfake abbia influenzato gli elettori, l’esito del voto ha visto vincere il candidato avversario filorusso.

Sempre negli Stati Uniti, il candidato sindaco di Chicago, Paul Vallas (che poi ha perso al ballottaggio), ha dovuto replicare pubblicamente per smentire una registrazione diffusa sui social in cui la sua voce veniva utilizzata per dire frasi in difesa dei casi di violenza della polizia (un tema particolarmente divisivo e scottante negli USA).

La voce del sindaco di Londra, Sadiq Khan, è stata clonata e a febbraio 2024 è stata diffusa una sua finta registrazione in cui sosteneva, con frasi provocatorie, che la marcia in favore della Palestina dovesse avere la precedenza rispetto alle celebrazioni del Giorno dell’Armistizio (in cui si celebra la fine della Prima Guerra Mondiale).

In un anno cruciale come quello del 2024, in cui oltre al nuovo inquilino della Casa Bianca si vota (o si è votato) anche nel Regno Unito, in Francia, in Iran, per la composizione del Parlamento Europeo, in Spagna (per alcune regioni) e in Germania (per alcuni Lander), sarà fondamentale riuscire a legiferare e a controllare la diffusione dei deepfake audio.

Questi, a differenza di immagini e video, risultano infatti più difficili da identificare, mentre sono più facili da produrre (e con costi decisamente ridotti) e, soprattutto, hanno un impatto più diretto sui cittadini perché il suono di una voce familiare (un politico noto, un personaggio dello spettacolo o un conoscente) è qualcosa a cui istintivamente siamo portati a dare fiducia.

Forse in futuro non sarà più così.

Da sempre appassionato di scrittura, di storia e di mappe, ho conseguito due lauree per poter coniugare questi campi: una triennale in Scienze della Comunicazione e una magistrale in Relazioni Internazionali. La collaborazione con AMIStaDeS ha fatto espandere i miei orizzonti, consentendomi di esplorare settori nuovi e di approfondire le mie vecchie passioni. Negli ultimi anni mi sono dedicato principalmente alla comunicazione applicata alla politica e ai conflitti: dalla propaganda alla deterrenza nucleare al cyberspazio, il campo di battaglia in cui si combattono le guerre digitali.

Related Posts

Ultime news