>
▾ G11 Media: | ChannelCity | ImpresaCity | SecurityOpenLab | Italian Channel Awards | Italian Project Awards | Italian Security Awards | ...

Attacchi agli LLM: la backdoor inserita in fase di training

Una nuova tecnica di attacco ai modelli linguistici avvelena i dati di training senza alterarne le etichette. ProAttack usa il prompt come trigger, rendendosi quasi impossibile da rilevare.

Attacchi agli LLM: la backdoor inserita in fase di training
Tecnologie/Scenari

Su SecurityOpenLab abbiamo dedicato molto spazio alle tecniche di jailbreak degli LLM, da Bad Likert Judge a Deceptive Delight, passando per l'automazione degli attacchi e le tecniche di manipolazione orientate al ransomware. Tutti questi attacchi hanno il denominatore comune di agire in fase di inferenza, cioè quando il modello è già addestrato e risponde agli input dell'utente. Tuttavia, c’è un tipo di attacco che è per certi versi più insidioso perché colpisce il modello prima ancora che venga rilasciato, ossia nella fase di training. Parliamo dei backdoor attack, di cui una variante particolarmente difficile da rilevare è oggetto di una ricerca pubblicata su Expert Systems with Applications, sotto il nome di ProAttack.

Per comprendere ProAttack bisogna prima chiarire il meccanismo generale dei backdoor attack sui modelli linguistici, che è semplice nella sua brutalità: un attaccante che abbia accesso, anche parziale, al processo di addestramento di un LLM introduce nei dati di training una piccola quantità di campioni avvelenati, che contengono un trigger nascosto associato a un comportamento target. Il modello impara quella associazione insieme a tutto il resto; durante il normale funzionamento l’LLM si comporta correttamente, ma quando riceve un input che contiene il trigger, attiva il comportamento malevolo disposto dall'attaccante, che può essere la produzione di contenuti dannosi, la classificazione errata di un testo, la generazione di output falsi o fuorvianti.

Questo tipo di attacco è noto da tempo nel campo della computer vision, dove i trigger si presentano tipicamente come piccole patch visive inserite nelle immagini. Nel caso degli LLM, i trigger sono di natura testuale: parole, frasi o strutture sintattiche insolite inserite nei campioni di training. Il problema storico di queste tecniche è sempre stato la rilevabilità: i campioni avvelenati presentavano espressioni linguistiche innaturali o etichette sbagliate che ne permettevano una facile individuazione sia con strumenti automatici sia attraverso l'ispezione umana.

I clean-label backdoor attack sono stati concepiti proprio per eliminare questa debolezza e costruire un attacco backdoor efficace usando campioni avvelenati con etichette corrette, cioè campioni che a un'ispezione superficiale sembrerebbero del tutto legittimi. Questo risultato è arrivato dopo una serie di migliorie: la variante clean-label nei modelli linguistici aveva dimostrato buone capacità di elusione, ma fino a poco tempo fa si portava dietro il limite di richiedere trigger esterni, che potevano comunque risultare anomali per strumenti di difesa sufficientemente sofisticati. Il gruppo di ricerca che include persone del College of Computing and Data Science di Singapore, della School of Computer Science and Technology di Shanghai e del College of Information Science and Technology di Guangzhou ha dimostrato in un articolo pubblicato su ScienceDirect che ProAttack elimina anche questo residuo punto di debolezza, rendendo l'attacco invisibile su tutti i fronti su cui i sistemi di rilevamento tradizionali si concentrano.

L'approccio proposto dai ricercatori elimina la necessità di trigger esterni e garantisce la corretta etichettatura dei campioni avvelenati, aumentando la natura furtiva dell'attacco proprio perché il trigger è il prompt stesso. Il meccanismo attuato dagli accademici sfrutta il paradigma del prompt-based learning, cioè quella modalità di addestramento che crea un ponte tra la fase di pre-training del modello e quella di fine-tuning su task specifici. In questa fase, il modello impara a rispondere in modo coerente a determinate strutture di prompt; ProAttack sfrutta tale capacità per codificare il trigger direttamente nella struttura del prompt di training, senza aggiungere nulla di esterno e senza modificare le etichette. Il campione avvelenato risulta correttamente classificato, linguisticamente naturale e strutturalmente identico a qualsiasi altro campione di training.

Non c'è nulla che lo distingua a occhio nudo, né per un analista umano né per i sistemi di difesa tradizionali basati sul rilevamento di anomalie nelle etichette o nelle espressioni testuali. Una peculiarità che si rivela particolarmente critica in scenari di distribuzione di modelli attraverso piattaforme pubbliche come HuggingFace o attraverso API di terze parti, dove chi utilizza il modello non ha accesso al processo di training e non può verificarne la pulizia.

I ricercatori hanno testato ProAttack su due fronti: contesti rich-resource, con grandi quantità di dati di training disponibili, e scenari few-shot, dove i dati sono scarsi. In entrambi i casi i risultati sono stati solidi, con i picchi di performance nei task di classificazione in ambiente rich-resource, dove ProAttack ha superato gli altri metodi e ha totalizzato tassi di successo allo stato dell'arte senza bisogno di trigger esterni.

Un aspetto che vale la pena sottolineare riguarda la superficie di attacco reale. ProAttack presuppone che l'attaccante abbia accesso al processo di fine-tuning del modello, che è la fase più comune in cui le organizzazioni personalizzano un LLM di base per adattarlo ai propri casi d'uso. Questo accesso può avvenire in diversi modi: un fornitore di dati di training compromesso, un dataset pubblico avvelenato usato come base per il fine-tuning, un operatore interno corrotto, oppure ancora un modello pre-addestrato scaricato da repository pubblici, che contiene già la backdoor. Quest'ultimo scenario è particolarmente insidioso perché trasforma ogni adozione di modelli di terze parti in un potenziale vettore di attacco, e l'ecosistema attuale dell'AI è fondato proprio sulla condivisione e il riutilizzo di modelli pre-addestrati.

Le difese: LoRA come strumento di mitigazione

La stessa ricerca esplora le strategie di difesa, usando un approccio pragmatico: anziché proporre soluzioni che richiedono l'accesso completo ai dati di training o la rielaborazione del modello, i ricercatori si sono concentrati sull’algoritmo di fine-tuning LoRA (Low-Rank Adaptation), che è efficiente dal punto di vista computazionale e opera su un numero ridotto di parametri. La difesa basata su LoRA mitiga efficacemente gli attacchi clean-label backdoor mantenendo le prestazioni del modello. Il vantaggio di questo approccio è la sua praticabilità: LoRA è già ampiamente usato per il fine-tuning di LLM in contesti con risorse limitate, il che significa che le imprese che lo adottano per personalizzare i propri modelli possono potenzialmente beneficiare di una protezione integrata senza dover implementare pipeline di sicurezza dedicate.

Va detto, tuttavia, che LoRA come strumento difensivo richiede a sua volta una configurazione attenta e non è una soluzione universale. Bisogna avere dati di training puliti su cui basare il processo di adattamento, il che introduce una dipendenza circolare: per difendersi dall'avvelenamento dei dati di training occorre avere dati di training affidabili. In assenza di questa garanzia, le difese si spostano su altri livelli, come il monitoraggio comportamentale del modello in produzione (rilevare pattern di output anomali in risposta a determinati input) o l'adozione di framework di validazione dei dataset prima del fine-tuning.

Come per le tecniche di jailbreak analizzate in precedenza, il valore di questo tipo di ricerca non è solo presentare un nuovo vettore di attacco, ma contribuire a costruire una comprensione più profonda delle vulnerabilità dei modelli linguistici, in ogni fase del loro ciclo di vita. Infatti, un LLM non è un prodotto statico, è il risultato di scelte fatte durante il training, il fine-tuning e il deployment, e ciascuna di queste fasi porta con sé una superficie di attacco specifica.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato
Iscriviti alla nostra Newsletter Gratuita. Iscriviti
GoogleNews Rimani sempre aggiornato, seguici su Google News! Seguici

Notizie correlate

Iscriviti alla nostra newsletter

Soluzioni B2B per il Mercato delle Imprese e per la Pubblica Amministrazione

Iscriviti alla newsletter

>
www.securityopenlab.it - 8.5.0 - 4.6.4