Quando la voce inganna: ESET spiega come individuare i deepfake al telefono

Deepfake audio e video, accessibili a chiunque grazie alla GenAI, alimentano frodi finanziarie aziendali. Difendersi richiede formazione, processi e tecnologia.

Possiamo ancora fidarci di ciò che sentiamo? Sempre più spesso la risposta è negativa. L’AI generativa (GenAI) ha reso accessibile a chiunque la creazione di deepfake audio e video: oggi bastano pochi passaggi per produrre una clip artefatta. Una dinamica che espone a rischi concreti anche le aziende.

I deepfake vengono utilizzati per aggirare controlli “Know Your Customer” e meccanismi di autenticazione degli account. Possono persino consentire ad attori con intenzioni ostili di spacciarsi per candidati a un’offerta di lavoro. Il pericolo più rilevante riguarda però le frodi finanziarie, in particolare i bonifici fraudolenti e la compromissione degli account del Top Management di un’azienda.

Sottovalutare la minaccia dei deepfake può avere conseguenze serie. Secondo il governo britannico, lo scorso anno sarebbero stati condivisi fino a otto milioni di contenuti fake, rispetto ai 500.000 del 2023. Il numero reale potrebbe essere ancora più elevato.

Sabrina Curti, Marketing Director di ESET Italia

Come funzionano gli attacchi

Un esperimento condotto da Jake Moore, Global Security Advisor di ESET, dimostra quanto sia semplice lanciare un attacco audio deepfake contro un’organizzazione. È sufficiente un breve campione vocale della persona da impersonare e alla generazione del resto provvede la GenAI. Un possibile schema di attacco può svilupparsi così:

L’attaccante sceglie chi impersonare: un CEO, un CFO o magari un fornitore.
Reperisce online un campione audio. Per i manager che intervengono in pubblico è relativamente semplice: social media, interviste TV o video pubblici. Bastano pochi secondi.
Individua la persona da contattare, spesso dopo una ricerca su LinkedIn per identificare membri dell’helpdesk IT o del team finance.
Può contattare direttamente il bersaglio oppure anticipare la richiesta via email: ad esempio un CEO che sollecita un bonifico urgente, una richiesta di reset password/MFA o un fornitore che chiede il pagamento di una fattura scaduta.
Effettua la chiamata utilizzando una voce deepfake generata con GenAI per impersonare il CEO o il fornitore. A seconda dello strumento, può limitarsi a frasi predefinite oppure usare sistemi più avanzati “speech-to-speech”, che trasformano quasi in tempo reale la voce dell’attaccante in quella della vittima.

Quando l’udito inganna

Questi attacchi stanno diventando sempre più economici, accessibili e convincenti. Alcuni strumenti riescono ad aggiungere rumori di fondo, pause e incertezze per rendere la voce più credibile. Migliora anche la capacità di imitare ritmo, inflessione e tic linguistici di ciascun individuo. In una conversazione telefonica, eventuali anomalie legate all’AI risultano meno evidenti.

Gli hacker ricorrono inoltre a tecniche di social engineering, creando un senso di urgenza per spingere l’interlocutore ad agire rapidamente. Un’altra leva frequente è la richiesta di riservatezza. Se a questo si aggiunge l’autorità percepita di un dirigente senior, si comprende come le vittime possano cadere in inganno.

Esistono comunque segnali che possono aiutare a individuare una voce sintetica, soprattutto se la tecnologia impiegata non è particolarmente sofisticata:

ritmo del parlato innaturale
tono emotivo eccessivamente piatto
respirazione irregolare o frasi pronunciate senza pause
timbro vagamente robotico (con strumenti meno evoluti)
rumore di fondo assente in modo sospetto o troppo uniforme

Come difendersi

Il motivo per cui i criminali investono tempo in queste frodi è evidente: il potenziale guadagno. I casi concreti si moltiplicano. Uno dei più noti risale al 2020, quando un dipendente di un’azienda negli Emirati Arabi Uniti trasferì 35 milioni di dollari dopo aver creduto alla telefonata del proprio direttore, apparentemente impegnato in un’operazione di M&A.

Considerando i progressi compiuti dalla tecnologia deepfake negli ultimi anni, conviene adottare misure mirate per ridurre il rischio.

Il punto di partenza è la formazione del personale. I programmi di awareness dovrebbero includere simulazioni di audio deepfake, così che i dipendenti comprendano cosa aspettarsi, quali siano le conseguenze e come comportarsi. È utile insegnare a riconoscere le dinamiche tipiche del social engineering e scenari come quelli descritti. Esercitazioni pratiche possono poi verificare l’effettiva assimilazione delle procedure.

Segue l’aspetto organizzativo. Tra le misure da valutare:

verifica fuori banda delle richieste ricevute telefonicamente, ad esempio tramite canali di messaggistica aziendali indipendenti
doppia autorizzazione per bonifici di importo elevato o modifiche ai dati bancari dei fornitori
passphrase o quesiti predefiniti da impiegare nelle chiamate come meccanismo di verifica dell’identità.

Anche la tecnologia offre supporto. Esistono strumenti in grado di analizzare diversi parametri per rilevare la presenza di una voce sintetica. Un’opzione più complessa da attuare consiste nel ridurre la disponibilità pubblica di campioni audio, limitando le occasioni in cui i dirigenti espongono la propria voce online.

Persone, processi e tecnologia

I deepfake restano facili ed economici da produrre. Considerando le somme potenzialmente in gioco, le truffe basate sulla clonazione vocale continueranno a rappresentare una minaccia concreta. L’approccio più efficace per contrastarle si basa su tre pilastri: persone, processi e tecnologia.

Una volta definito un piano, occorre rivederlo periodicamente per mantenerlo adeguato all’evoluzione dell’AI. Il nuovo scenario delle frodi informatiche richiede attenzione costante e capacità di adattamento.