Attacchi agli LLM: la backdoor inserita in fase di training

Una nuova tecnica di attacco ai modelli linguistici avvelena i dati di training senza alterarne le etichette. ProAttack usa il prompt come trigger, rendendosi quasi impossibile da rilevare.

Tecnologie/Scenari

Su SecurityOpenLab abbiamo dedicato molto spazio alle tecniche di jailbreak degli LLM, da Bad Likert Judge a Deceptive Delight, passando per l'automazione degli attacchi e le tecniche di manipolazione orientate al ransomware. Tutti questi attacchi hanno il denominatore comune di agire in fase di inferenza, cioè quando il modello è già addestrato e risponde agli input dell'utente. Tuttavia, c’è un tipo di attacco che è per certi versi più insidioso perché colpisce il modello prima ancora che venga rilasciato, ossia nella fase di training. Parliamo dei backdoor attack, di cui una variante particolarmente difficile da rilevare è oggetto di una ricerca pubblicata su Expert Systems with Applications, sotto il nome di ProAttack.

Per comprendere ProAttack bisogna prima chiarire il meccanismo generale dei backdoor attack sui modelli linguistici, che è semplice nella sua brutalità: un attaccante che abbia accesso, anche parziale, al processo di addestramento di un LLM introduce nei dati di training una piccola quantità di campioni avvelenati, che contengono un trigger nascosto associato a un comportamento target. Il modello impara quella associazione insieme a tutto il resto; durante il normale funzionamento l’LLM si comporta correttamente, ma quando riceve un input che contiene il trigger, attiva il comportamento malevolo disposto dall'attaccante, che può essere la produzione di contenuti dannosi, la classificazione errata di un testo, la generazione di output falsi o fuorvianti.

Questo tipo di attacco è noto da tempo nel campo della computer vision, dove i trigger si presentano tipicamente come piccole patch visive inserite nelle immagini. Nel caso degli LLM, i trigger sono di natura testuale: parole, frasi o strutture sintattiche insolite inserite nei campioni di training. Il problema storico di queste tecniche è sempre stato la rilevabilità: i campioni avvelenati presentavano espressioni linguistiche innaturali o etichette sbagliate che ne permettevano una facile individuazione sia con strumenti automatici sia attraverso l'ispezione umana.

I clean-label backdoor attack sono stati concepiti proprio per eliminare questa debolezza e costruire un attacco backdoor efficace usando campioni avvelenati con etichette corrette, cioè campioni che a un'ispezione superficiale sembrerebbero del tutto legittimi. Questo risultato è arrivato dopo una serie di migliorie: la variante clean-label nei modelli linguistici aveva dimostrato buone capacità di elusione, ma fino a poco tempo fa si portava dietro il limite di richiedere trigger esterni, che potevano comunque risultare anomali per strumenti di difesa sufficientemente sofisticati. Il gruppo di ricerca che include persone del College of Computing and Data Science di Singapore, della School of Computer Science and Technology di Shanghai e del College of Information Science and Technology di Guangzhou ha dimostrato in un articolo pubblicato su ScienceDirect che ProAttack elimina anche questo residuo punto di debolezza, rendendo l'attacco invisibile su tutti i fronti su cui i sistemi di rilevamento tradizionali si concentrano.

L'approccio proposto dai ricercatori elimina la necessità di trigger esterni e garantisce la corretta etichettatura dei campioni avvelenati, aumentando la natura furtiva dell'attacco proprio perché il trigger è il prompt stesso. Il meccanismo attuato dagli accademici sfrutta il paradigma del prompt-based learning, cioè quella modalità di addestramento che crea un ponte tra la fase di pre-training del modello e quella di fine-tuning su task specifici. In questa fase, il modello impara a rispondere in modo coerente a determinate strutture di prompt; ProAttack sfrutta tale capacità per codificare il trigger direttamente nella struttura del prompt di training, senza aggiungere nulla di esterno e senza modificare le etichette. Il campione avvelenato risulta correttamente classificato, linguisticamente naturale e strutturalmente identico a qualsiasi altro campione di training.

Non c'è nulla che lo distingua a occhio nudo, né per un analista umano né per i sistemi di difesa tradizionali basati sul rilevamento di anomalie nelle etichette o nelle espressioni testuali. Una peculiarità che si rivela particolarmente critica in scenari di distribuzione di modelli attraverso piattaforme pubbliche come HuggingFace o attraverso API di terze parti, dove chi utilizza il modello non ha accesso al processo di training e non può verificarne la pulizia.

I ricercatori hanno testato ProAttack su due fronti: contesti rich-resource, con grandi quantità di dati di training disponibili, e scenari few-shot, dove i dati sono scarsi. In entrambi i casi i risultati sono stati solidi, con i picchi di performance nei task di classificazione in ambiente rich-resource, dove ProAttack ha superato gli altri metodi e ha totalizzato tassi di successo allo stato dell'arte senza bisogno di trigger esterni.

Un aspetto che vale la pena sottolineare riguarda la superficie di attacco reale. ProAttack presuppone che l'attaccante abbia accesso al processo di fine-tuning del modello, che è la fase più comune in cui le organizzazioni personalizzano un LLM di base per adattarlo ai propri casi d'uso. Questo accesso può avvenire in diversi modi: un fornitore di dati di training compromesso, un dataset pubblico avvelenato usato come base per il fine-tuning, un operatore interno corrotto, oppure ancora un modello pre-addestrato scaricato da repository pubblici, che contiene già la backdoor. Quest'ultimo scenario è particolarmente insidioso perché trasforma ogni adozione di modelli di terze parti in un potenziale vettore di attacco, e l'ecosistema attuale dell'AI è fondato proprio sulla condivisione e il riutilizzo di modelli pre-addestrati.

Le difese: LoRA come strumento di mitigazione

La stessa ricerca esplora le strategie di difesa, usando un approccio pragmatico: anziché proporre soluzioni che richiedono l'accesso completo ai dati di training o la rielaborazione del modello, i ricercatori si sono concentrati sull’algoritmo di fine-tuning LoRA (Low-Rank Adaptation), che è efficiente dal punto di vista computazionale e opera su un numero ridotto di parametri. La difesa basata su LoRA mitiga efficacemente gli attacchi clean-label backdoor mantenendo le prestazioni del modello. Il vantaggio di questo approccio è la sua praticabilità: LoRA è già ampiamente usato per il fine-tuning di LLM in contesti con risorse limitate, il che significa che le imprese che lo adottano per personalizzare i propri modelli possono potenzialmente beneficiare di una protezione integrata senza dover implementare pipeline di sicurezza dedicate.

Va detto, tuttavia, che LoRA come strumento difensivo richiede a sua volta una configurazione attenta e non è una soluzione universale. Bisogna avere dati di training puliti su cui basare il processo di adattamento, il che introduce una dipendenza circolare: per difendersi dall'avvelenamento dei dati di training occorre avere dati di training affidabili. In assenza di questa garanzia, le difese si spostano su altri livelli, come il monitoraggio comportamentale del modello in produzione (rilevare pattern di output anomali in risposta a determinati input) o l'adozione di framework di validazione dei dataset prima del fine-tuning.

Come per le tecniche di jailbreak analizzate in precedenza, il valore di questo tipo di ricerca non è solo presentare un nuovo vettore di attacco, ma contribuire a costruire una comprensione più profonda delle vulnerabilità dei modelli linguistici, in ogni fase del loro ciclo di vita. Infatti, un LLM non è un prodotto statico, è il risultato di scelte fatte durante il training, il fine-tuning e il deployment, e ciascuna di queste fasi porta con sé una superficie di attacco specifica.

Tag correlati

Esplora altri articoli su questi argomenti

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato

Fonti di ricerca preferite

Aggiungici alle tue fonti su Google

Google News

Rimani sempre aggiornato, seguici

Notizie correlate

5 - Attacchi agli LLM: la backdoor inserita in fase di training

1 - Identità macchina surclassano quelle umane, in Italia il rapporto è 123:1

1 - ABCDoor, la nuova backdoor che spia senza lasciare tracce

1 - Anthropic e Claude Mythos: tanto rumore per (quasi) nulla

1 - GopherWhisper, nuova APT cinese nascosta nei servizi SaaS

1 - Quando l'AI diventa vettore di supply chain attack, l’analisi dell’esperto

1 - LLM e dati sensibili: chi è davvero responsabile?

1 - APT cinese aggiorna una backdoor e la usa in India e Corea

1 - CPU-Z e HWMonitor compromessi: 19 ore di download infetti

1 - Jailbreak LLM: una riga di codice mette in ginocchio undici modelli AI

1 - APT cinese torna a colpire i governi europei con backdoor e catene di infezione evolute

1 - Cybercrime e GenAI: massimo risultato con il minimo sforzo

Speciali Tutti gli speciali

Speciale

Backup e resilienza

Speciale

Compliance e NIS2

Reportage

Cybersecurity 2026: come cambia la sicurezza in azienda

Speciale

Speciale Previsioni di cybersecurity per il 2026

Speciale

Speciale Gestione degli accessi

Calendario Tutto

Mag 19

CrowdTour 2026 - Milano

Mag 21

Cloud AI Live Milano

Mag 28

AWS Summit 2026 - Milano

Giu 03

Webinar Red Hat - The GenAI Optimization Triangle: Balancing Cost, Latency, and Accuracy on Kubernetes

Giu 04

WATCHGUARD OPEN MDR: sicurezza gestita, concreta e continua

Giu 11

MSP DAY 2026

Giu 17

Nutanix .NEXT On Tour Roma

Ott 07

Fortinet Security Day - Roma

Ott 28

Fortinet Security Day - Milano

Ultime notizie Tutto

Nuovo report SOC: gli attaccanti restano 108 giorni in rete

15-05-2026

Le email restano il vettore d’infezione primario

15-05-2026

Spionaggio cinese: Exchange senza patch apre le porte agli attacchi

15-05-2026

L’essere umano come simbolo. Una storia di amore.

15-05-2026

G11 Media Networks

SecurityOpenLab e' un canale di BitCity, testata giornalistica registrata presso il tribunale di Como ,
n. 21/2007 del 11/10/2007- Iscrizione ROC n. 15698

G11 MEDIA S.R.L. Sede Legale Via NUOVA VALASSINA, 4 22046 MERONE (CO) - P.IVA/C.F.03062910132 Registro imprese di Como n. 03062910132 - REA n. 293834 CAPITALE SOCIALE Euro 30.000 i.v.

Attacchi agli LLM: la backdoor inserita in fase di training

Le difese: LoRA come strumento di mitigazione

Tag correlati

Notizie correlate

5 - Attacchi agli LLM: la backdoor inserita in fase di training

1 - Identità macchina surclassano quelle umane, in Italia il rapporto è 123:1

1 - ABCDoor, la nuova backdoor che spia senza lasciare tracce

1 - Anthropic e Claude Mythos: tanto rumore per (quasi) nulla

1 - GopherWhisper, nuova APT cinese nascosta nei servizi SaaS

1 - Quando l'AI diventa vettore di supply chain attack, l’analisi dell’esperto

1 - LLM e dati sensibili: chi è davvero responsabile?

1 - APT cinese aggiorna una backdoor e la usa in India e Corea

1 - CPU-Z e HWMonitor compromessi: 19 ore di download infetti

1 - Jailbreak LLM: una riga di codice mette in ginocchio undici modelli AI

1 - APT cinese torna a colpire i governi europei con backdoor e catene di infezione evolute

1 - Cybercrime e GenAI: massimo risultato con il minimo sforzo

Speciali Tutti gli speciali

Backup e resilienza

Compliance e NIS2

Cybersecurity 2026: come cambia la sicurezza in azienda

Speciale Previsioni di cybersecurity per il 2026

Speciale Gestione degli accessi

Calendario Tutto

Ultime notizie Tutto

Nuovo report SOC: gli attaccanti restano 108 giorni in rete

Le email restano il vettore d’infezione primario

Spionaggio cinese: Exchange senza patch apre le porte agli attacchi

L’essere umano come simbolo. Una storia di amore.

Iscriviti alla nostra newsletter

G11 Media Networks