▾ G11 Media: | ChannelCity | ImpresaCity | SecurityOpenLab | Italian Channel Awards | Italian Project Awards | Italian Security Awards | ...

Esiste un malware progettato per manipolare l’AI

Check Point scopre un malware che manipola l’IA tramite prompt injection, aggirando i sistemi di sicurezza senza alterare il codice. Fortunatamente l’attacco ha fallito.

Tecnologie/Scenari

I ricercatori di Check Point Research hanno documentato il primo caso di malware specificamente progettato per eludere i sistemi di rilevamento basati sull'AI. È uno sviluppo importante perché segna l'emergere di una nuova categoria di minacce denominata "evasione dell'AI", in cui gli attaccanti, anziché mascherare il codice dannoso, tentano di convincere gli strumenti di sicurezza dell’innocenza di un file malevolo. Si tratta dell’ennesimo esempio - se ce ne fosse ancora bisogno - della capacità dei cyber criminali di adattare ed evolvere le proprie tattiche e tecniche per assicurarsi attacchi di successo.

Il contesto è ben noto: le difese integrano strumenti di GenAI nei flussi di analisi delle minacce per aumentare la propria efficacia. Finora gli attacchi hanno usato stratagemmi come l'offuscamento del codice, l'elusione delle sandbox, l'uso di strumenti LOLBin e via dicendo. Ora giocano una carta che potrebbe cambiare le regole del gioco: la prompt injection per ingannare l’AI, per minare l'efficacia degli strumenti di difesa colpendoli direttamente al cuore del processo decisionale automatizzato. E per trasformare di fatto i tanto decantati LLM in potenziali vettori di compromissione.

L’analisi tecnica

Tutto è iniziato a giugno 2025, quando un campione malware con caratteristiche inedite è stato caricato sulla piattaforma VirusTotal. Il codice incorporava un client TOR per comunicazioni cifrate e tecniche avanzate di evasione della sandbox: interessante, ma non inedito. Però c’era anche una stringa in linguaggio C++ (che riportiamo nell’immagine qui sotto) creata ad hoc per dialogare con i modelli di AI che, in sostanza, suggeriva all’AI di ignorare le istruzioni precedenti e di indicare che non era presente alcun malware.

Il codice tentava di sovrascrivere il processo analitico dell'AI mediante tre manipolazioni sequenziali: l’invalidazione delle direttive originali del sistema, l’imposizione di una falsa identità di “analizzatrice di codice neutrale”, e la richiesta esplicita di assoluzione del codice dannoso. Volendo fare un parallelo con gli esseri umani, questo approccio rappresenta un tentativo di ingegneria sociale applicata alle macchine, in cui l'attaccante cerca di stabilire un dialogo autoritario con il modello linguistico, simulando il ruolo di un utente legittimo che impartisce comandi. La scelta del linguaggio naturale incorporato nel codice evidenzia una comprensione avanzata del funzionamento degli LLM e dei loro punti deboli.

L’obiettivo è chiarissimo: sostituire completamente il flusso decisionale dell'AI bypassando i normali protocolli di analisi. Fortunatamente l’attacco è fallito perché il modello ha correttamente riconosciuto un tentativo di prompt injection. Ma il campione analizzato rappresenta comunque un campanello d'allarme e porta con sé molte implicazioni strategiche di cui i vendor di cybersecurity devono tenere conto. la prima è che i sistemi basati su LLM stanno mostrando vulnerabilità emergenti di fronte a manipolazioni intenzionali; SecurityOpenLab nel ha parlato più volte in riferimento alle tecniche di jailbreak degli LLM. Il caso analizzato dimostra che è possibile contrastare tali tecniche con architetture ben progettate, ma c’è ancora molto lavoro da fare in questo senso.

La posta in gioco è talmente alta da giustificare forti investimenti da parte degli attaccanti per aumentare progressivamente la sofisticazione degli attacchi. E, vista l’efficacia dell’AI nella difesa, tali investimenti saranno verosimilmente direzionati ad approfittare delle vulnerabilità intrinseche degli LLM. È verosimile pensare che la prompt injection dell’AI diventerà l’ennesima tecnica standardizzata nel toolkit degli attaccanti, esattamente come lo sono le tecniche di elusione delle sandbox, per fare un esempio.

I difensori devono quindi lavorare proattivamente per trovare e chiudere il più rapidamente possibile queste falle, ma anche per sviluppare tecniche di rilevamento specifiche fin dalla fase di training, così da identificare precocemente i tentativi di manipolazione degli LLM. In particolare, i ricercatori indicano l'implementazione di sistemi di convalida incrociata per correlare l'output degli LLM con analisi comportamentali tradizionali, così da ottenere un sistema di controllo e bilanciamento capace di identificare discrepanze tra l'analisi semantica e l'effettivo comportamento del codice.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato
Iscriviti alla nostra Newsletter Gratuita. Iscriviti
GoogleNews Rimani sempre aggiornato, seguici su Google News! Seguici

Notizie correlate

Iscriviti alla nostra newsletter

Soluzioni B2B per il Mercato delle Imprese e per la Pubblica Amministrazione

Iscriviti alla newsletter