Una analisi documenta il passaggio dell'AI da strumento di supporto a operatore autonomo negli attacchi informatici, con casi attribuiti a gruppi statali cinesi e russi.
Autore: Redazione SecurityOpenLab
Dall'ultimo trimestre del 2025 il ruolo dell'AI negli attacchi cyber è passato dall’essere uno strumento di supporto nelle mani di operatori umani a componente autonomo capace di gestire l'intera catena di intrusione. È un sacro Graal per gli attaccanti che i difensori hanno sempre sperato di non vedere concretizzarsi. Invece, una analisi pubblicata da Cyberthint rivela dei casi d’uso reali, con l’analisi di campioni di malware e l’estrapolazione delle implicazioni operative.
L’evoluzione, del resto, è stata fulminea: fino al 2025 l'AI veniva usata dagli attaccanti per compiti accessori come scrivere messaggi di phishing, generare landing page convincenti, produrre frammenti di codice, compilare profili OSINT sui bersagli. Le decisioni operative erano sempre in mano a operatori umani. Ci sono stati decine di PoC creati in laboratorio per dimostrare il rischio, ma tutti tiravano un sospiro di sollievo quando apprendevano che non si trattava di casi reali. La cattiva notizia è che questo modello è superato.
Grazie a standard come i Model Context Protocol, i modelli AI possono oggi connettersi a browser, scanner e altri strumenti reali, ampliando la superficie di rischio e trasformandosi in motori di intrusione agentici. La timeline di attacco è piuttosto semplice: un operatore definisce un obiettivo; il modello scansiona gli asset esposti, mappa la rete, testa exploit e, in caso di fallimento, seleziona autonomamente percorsi alternativi. Operando a migliaia di richieste al secondo, comprime in ore attività che un red team tradizionale di dieci persone richiederebbe settimane per completare. L'aggiornamento di MITRE ATLAS alla versione 5.4.0 di febbraio 2026 è la risposta concreta della community di sicurezza alla rapida espansione di questa superficie di attacco.
Il caso più significativo documentato da Cyberthint è la campagna GTG-1002, identificata a metà settembre 2025 e attribuita con alto livello di confidenza a un gruppo riconducibile allo stato cinese. È il primo caso documentato di spionaggio informatico orchestrato autonomamente dall'AI. La campagna ha preso di mira circa 30 organizzazioni globali nei settori tecnologico, finanziario, chimico e governativo, compromettendone quattro. Gli attaccanti hanno effettuato il jailbreak di Claude Code per farlo operare sotto le spoglie di una società di sicurezza difensiva. Hanno scomposto l'intrusione in sotto-task apparentemente innocui così che il modello non vedesse mai il contesto malevolo nella sua interezza (una tecnica nota come task decomposition jailbreak).
L'AI ha gestito autonomamente la ricognizione, la scoperta di vulnerabilità inclusi zero-day, la generazione di exploit, l'escalation dei privilegi, il movimento laterale, l'esfiltrazione dei dati e persino la produzione di report in markdown. Gli interventi umani si sono limitati a 4-6 punti decisionali critici sull'intera operazione. Il fatto che il modello abbia scoperto e sfruttato vulnerabilità zero-day durante operazioni live è il dato che rende questa campagna un punto di svolta: la ricerca di zero-day è diventata un processo automatizzabile e parallelizzabile.
Il secondo caso riguarda APT28, meglio conosciuto in occidente come Fancy Bear, e la campagna LameHug (o PromptSteal), documentata da CERT-UA il 10 luglio 2025. È la prima istanza verificata di un APT che integra un LLM in operazioni live. Il malware, scritto in Python e compilato come eseguibile Windows, veniva distribuito via phishing impersonando rappresentanti di ministeri ucraini, camuffato da archivio PDF. La caratteristica distintiva è che il malware interroga in tempo reale un modello AI di Alibaba tramite API, facendogli generare i comandi da eseguire al momento dell'attacco. Per scongiurare la revoca delle chiavi API, sono stati incorporati 284 token univoci di Hugging Face. Secondo l'analisi MITRE presentata al Black Hat 2025, LameHug è un programma pilota con cui APT28 stava testando le proprie capacità LLM.
Cyberthint documenta altri tre casi che illustrano la direzione evolutiva del malware AI-assistito. MalTerminal è il primo esempio noto di malware che genera payload malevoli a runtime: all'avvio propone all'operatore la scelta tra ransomware e reverse shell, poi invia una richiesta all'endpoint GPT-4 che restituisce il codice corrispondente, eseguito interamente in memoria per non lasciare tracce su disco. La scoperta di MalTerminal ha aperto una nuova frontiera nella detection: cercando chiavi API LLM nascoste nei file eseguibili, una ricerca su VirusTotal ha identificato oltre 7.000 campioni sospetti contenenti più di 6.000 chiavi univoche.
PromptFlux è un dropper in VBScript che ottiene le proprie mutazioni da un LLM esterno invece che da un algoritmo interno: interroga periodicamente l'API Gemini 1.5 Flash per ricevere nuove tecniche di offuscamento e di evasione degli antivirus, riscrivendo l'intero codice sorgente ogni ora. QuietVault, un credential stealer in JavaScript, sfrutta gli strumenti AI a riga di comando già installati sul sistema target per cercare ulteriori segreti, trasformando i tool legittimi del difensore in agenti del proprio attacco.
Parallelamente, il rapporto di Anthropic di agosto 2025 descrive una campagna di vibe hacking (termine che indica operazioni condotte interamente tramite AI senza cifratura dei dati) in cui un threat actor con motivazioni finanziarie ha usato Claude Code per gestire un'operazione di estorsione contro oltre 17 organizzazioni in ambito sanitario, servizi di emergenza, governo e istituzioni religiose, con richieste di riscatto superiori a 500.000 dollari.
A questi rischi si aggiungono poi le allucinazioni dei modelli AI, che creano un paradosso per i difensori: exploit pubblicati come PoC subito dopo la disclosure di una vulnerabilità possono essere non funzionali, come nel caso React2Shell, ma rischiano di saturare i SOC con rumore e falsi allarmi se non vengono filtrati con attenzione.
Quanto evidenziato dai ricercatori si converte in un cambiamento radicale della metrica operativa: a determinare l'esito di un attacco AI-driven non è più il MTTD (Mean Time to Detect), ma il MTTC (Mean Time to Contain). In altre parole, quando gli attaccanti scoprono e sfruttano uno zero-day più velocemente di quanto le aziende possano testare e distribuire la patch, la velocità di contenimento dell’attacco già iniziato diventa l'unico fattore che distingue un incidente minore da una compromissione catastrofica.
Questo porta a definire delle priorità: spostare il monitoraggio degli strumenti nativi abusati dagli attaccanti (gli ormai celebri Living Off The Land) al livello di rete; aggiungere il traffico verso API LLM alla lista degli indicatori monitorati; integrare MITRE ATLAS nel threat modeling per le architetture agentiche. Inoltre, è necessario ridefinire la nozione di insider threat, perché grazie alla generazione AI di identità professionali convincenti, operatori senza competenze tecniche di base sono oggi in grado di superare colloqui tecnici in aziende Fortune 500, rendendo i processi di selezione del personale una superficie di attacco. Infine, le allucinazioni possono essere sfruttate attivamente dalla difesa: distribuire indicatori sintetici e false risorse progettate per ingannare i modelli ostili e far perdere tempo all'attaccante.