MalTerminal: l’ascesa dei malware potenziati dai modelli LLM

MalTerminal segna la svolta nel cybercrime: è il primo malware che integra LLM, genera codice dannoso runtime e sfida i sistemi di difesa tradizionali.

I malware LLM-enabled sono ancora agli albori, ma la presenza di tool proof-of-concept modulari e la figura dell’operatore assistito da prompt mostrano con chiarezza la direzione evolutiva delle minacce, come evidenziato dalla scoperta di MalTerminal da parte dei ricercatori SentinelLabs.

MalTerminal è il primo malware noto che sfrutta modelli LLM in modo diretto tramite API GPT-4: genera logica malevola on-demand e rende più complesse le attività difensive basate su detection classica. Il campione, presentato a LABScon 2025, basa il proprio flusso operativo su script Python e API LLM per la creazione di payload eseguibili runtime e l’ausilio di prompt strutturati. Gli strumenti accessori, inclusi menu interattivi e scanner destinati a classificare file Python via LLM, sono funzionalità collaterali pensate per sperimentare nuove tecniche offensive o testing red team. A oggi non risultano campagne attive, ma la nuova dipendenza da chiavi API, prompt e servizi LLM richiede ai difensori un cambio di paradigma nelle strategie di analisi retrospettiva.

Identikit di un malware LLM-enabled

Secondo i ricercatori dei SentinelLabs, gli LLM interagiscono con il mondo delle minacce in diversi modi, che si possono distinguere secondo una precisa tassonomia. In alcuni casi, i threat actor distribuiscono falsi assistenti AI progettati per infettare le vittime, promettendo loro funzionalità avanzate sulla scia dell’entusiasmo per l’intelligenza artificiale. In altri casi, le integrazioni dei modelli linguistici vengono attaccate tramite prompt injection, approfittando di architetture software non sufficientemente protette. Esistono poi situazioni in cui il malware viene generato direttamente dagli LLM: in questo caso, il codice malevolo nasce su richiesta, ma, come sottolineano gli analisti, questi esempi sono ancora poco maturi e spesso necessitano di correzioni manuali da parte degli attaccanti. Più diffusi al momento sono i casi in cui l’LLM svolge il ruolo di “spalla” per l’attaccante, aiutandolo nella creazione di email di phishing, supporto alla scrittura di codice dannoso o assistenza nell’analisi di dati rubati, senza però essere integrato nel malware.

L’ambito in cui rientra MalTerminal è invece quello del modello linguistico inserito direttamente all’interno del malware stesso. È a questa categoria che si deve prestare la maggiore attenzione, perché questo tipo di malware è caratterizzato da dipendenze non banali: deve necessariamente incorporare nel binario delle chiavi API e prompt strutturati, ossia elementi che introducono punti di fragilità (la chiave può essere revocata) ma anche nuovi vettori di detection tramite caccia retrospettiva/YARA.

Come individuare questi nuovi malware LLM-enabled? I SentinelLABS propongono un approccio doppio. Prima di tutto, è necessaria una analisi retroattiva su larga scala tramite regole YARA sulle chiavi API note dei provider LLM, come per esempio OpenAI o Anthropic. Ciascun fornitore ha pattern caratteristici, che devono essere presenti. In seconda battuta è necessaria un’attività di content analysis per individuare prompt hardcoded. In parole semplici, ciascun software LLM-enabled deve esplicitare istruzioni per il modello, quindi analizzando queste stringhe è possibile risalire all'intento operativo malevolo.

I ricercatori dei SentinelLabs hanno analizzato un dataset oltre 7.000 campioni contenenti oltre 6.000 chiavi collezionate da VirusTotal in un anno: l'uso del prompt hunting è stato decisivo nell'individuazione di una molteplicità di strumenti offensivi che sfruttano gli LLM, fra cui generatori di shellcode, tool per penetration testing, agent che violavano le policy delle API commerciali, navigatori di browser automatizzati per il bypass di tecnologie antibot, utility di estrazione dati da training LLM e injector di vulnerabilità CWE (un errore di implementazione nella scrittura del codice).

Altri casi: PromptLock e LameHug/PROMPTSTEAL

MalTerminal non è l’unico esempio di LLM-enabled malware. Esistono precedenti degni di menzione, sempre analizzati dagli analisti dei SentinelLabs, che riassumiamo di seguito.

Il primo è PromptLock, un campione proof-of-concept creato da un team universitario, che è realizzato in Golang, che ha varianti per Windows, Linux x64 e ARM. Utilizza l’API locale di Ollama per chiamare GPT-OSS:20B e produrre script Lua eseguibili malevoli on-the-fly. Le stringhe di prompt sono ideate per eludere i controlli di sicurezza dei modelli, e presenta istruzioni avanzate per l’elaborazione di directory, l’estrazione di informazioni di sistema e l’esfiltrazione di file verso server remoti tramite comandi generati ad-hoc.

Prompt LLM incorporati nel malware PromptSteal

Il secondo è LameHug/PROMPTSTEAL, associato all’attività di APT28 su segnalazione del CERT-UA. Utilizza la libreria SSH Paramiko in Python e una batteria di 284 chiavi API HuggingFace hardcoded (spesso recuperate da dump pubblici del 2023, per maggiore resilienza). Il prompt al modello viene usato per generare comandi shell adattativi, con ruolo e output customizzati. La strategia multi-key serve per evitare il blacklisting delle API e per garantirsi maggiore persistenza in ambienti ostili.

Comune denominatore di tutti i malware LLM-enabled è che minano alle fondamenta il vantaggio difensivo: la logica dannosa non risiede più nel codice statico, ma viene generata dinamicamente. Questo complica sia la detection che l’analisi comportamentale, poiché il malware adatta routine e comandi che variano a seconda dell'ambiente in cui agisce, rendendo impossibile prevederne il comportamento. Fortunatamente c’è una buona notizia: per poter funzionare, questi malware necessitano di lasciare tracce nel binario del prompt e nelle chiavi API. Sono proprio queste tracce che i difensori devono segnare punti a proprio favore nella detection e nel threat hunting, e le loro evidenze emergono con la retroanalisi di campioni e clustering per chiavi embedded e prompt codificati, come accennato in apertura.