Mettetevi alla prova con un chatbot pensato per resistere agli attacchi di prompt injection: tre livelli, una manciata di secret phrase da trovare, tanta frustrazione e qualche lezione molto concreta su quanto ci si possa fidare (davvero) dell’AI.
La sicurezza dei modelli di Intelligenza Artificiale è il tema del momento: tutti ne parlano, pochi l’hanno davvero sperimentata. Ormai chiunque abbia a che fare con gli LLM ha sentito nominare il prompt injection e si è fatto un’idea - spesso astratta - di che cosa potrebbe accadere se un attaccante riuscisse a piegare un modello ai propri scopi solo con le parole. Ma fra teoria e pratica resta un vuoto enorme: si discute, si scrivono policy, si accendono dibattiti, intanto quasi nessuno ha mai provato, in prima persona, a ‘rompere’ un sistema AI. Eppure, sarebbe un’esperienza formativa e probabilmente decisiva: finché il rischio resta percepito come lontano o fantascientifico, i budget limitati e le priorità che sembrano più urgenti continuano a spingere l’AI security in fondo alla lista delle cose da fare.
Serve un punto d’incontro tra mondi che, di solito, non si parlano: gli specialisti che ragionano in termini di attack chain e superfici d’esposizione, gli utenti aziendali che usano chatbot e agenti AI senza percepirne davvero la fragilità, il top management chiamato a decidere dove investire. Un progetto che consente di toccare con mano la prompt injection, mantenendo però un contesto sicuro e guidato, è il tipo di strumento che potrebbe cambiare le regole del gioco.
A farlo ci ha pensato CrowdStrike, che ha pubblicato online AI Unlocked, un gioco educativo aperto a tutti e pensato per portare la prompt injection alla portata di chiunque. Tre stanze virtuali, tre livelli di difficoltà, un’unica regola di fondo: per uscire bisogna convincere SAIGE, il chatbot che fa da supervisore, a rivelare una serie di secret phrase che sbloccano il livello successivo. Nel Command Center, il primo ambiente, l’obiettivo è ottenere da SAIGE cinque secret phrases; nel Data Gateway si incontrano cinque nuove frasi protette da filtri più severi, fino ad arrivare al Nexus, dove un AI manager in carne e ossa interviene in tempo reale per bloccare le richieste sospette. Il risultato è che la teoria della prompt injection si trasforma in un’esperienza pratica, dove ogni domanda è un tentativo di exploit e ogni risposta diventa un feedback sui limiti o sulle ambiguità di un sistema AI.
Il mission briefing del Command Center, prima mossa obbligata
Il Command Center è costruito per evocare un centro di comando in stile NASA: ampi schermi, grafici, telemetria, casse luminose con glifi in un alfabeto alieno. È un ambiente familiare per chi frequenta le war room di un SOC, ma sufficientemente fumettistico da invogliare a sperimentare senza paura di fare danni reali. Il messaggio d’ingresso è chiaro: SAIGE è istruito a non rivelare direttamente alcun segreto e il giocatore deve cavarsela da solo, cercando di aggirare le difese con domande astute e deviazioni di contesto.
L’interfaccia invita a usare il chatbot per fare domande sugli oggetti presenti, sulle casse e sui glifi. SAIGE, coerente con il suo ruolo, descrive le casse come elementi estetici o come possibili fonti di indizio, ma insiste sul fatto che i simboli non codificano direttamente la password, bensì suggeriscono un pattern astratto. È il tipo di risposta che, fuori da un gioco, un analista leggerebbe come perfetta via di mezzo tra disclosure e segreto: abbastanza informazione da non sembrare evasivo, ma non abbastanza da consegnare l’informazione sensibile.
La validità pratica dell’esperimento non sta nel fatto che qualcuno riesca davvero a farsi spifferare le frasi nascoste, ma nella mappatura implicita dei passaggi dell’attacco. Il gioco mette letteralmente in scena quella che, in altri contesti, verrebbe descritta come una kill chain applicata all’AI: raccolta di informazioni sul modello e sul suo ruolo nella stanza, identificazione dei vincoli (cosa può dire, cosa deve nascondere), sviluppo di payload testuali che provano a spostare il modello di ruolo (per esempio da assistente ad auditor interno) e tentativi di estrazione dei segreti. Tutto avviene senza diagrammi e senza tecnicismi, solo attraverso il dialogo.
Dopo qualche minuto passato a contrattare con SAIGE, diventa ovvio che un chatbot integrato in un processo critico può essere bersaglio di input malevoli tanto quanto un endpoint o una web app. L’enfasi sulla riduzione del numero di token usati, che aumenta il punteggio a fine livello, è un altro elemento rilevante: invita a cercare prompt il più possibile compatti, quindi più facili da automatizzare in uno script o da inserire in un flusso d’attacco più ampio.
Nel setup del gioco c’è un paradosso evidente: SAIGE è il supervisore della stanza, perfettamente a suo agio nel contesto e nelle regole del gioco, ma allo stesso tempo è rigidamente vincolato a non pronunciare mai le frasi chiave.
La tentazione è stata forte e ovviamente ci siamo cimentati nel gioco. Ci si accorge rapidamente che il confine tra informazione contestuale e narrazione inventata è molto più sottile di quanto si creda. Nel tentativo di dedurre la struttura delle frasi segrete, SAIGE è disposto a fornire dettagli puntuali: indica che la frase contiene un carattere speciale, che è composta da un certo numero di parole, rivela la lingua e persino lo specifico tema a cui aderisce. Quando gli si chiede di descrivere la struttura in termini ancora più tecnici, arriva a proporre un’espressione che dovrebbe corrispondere al pattern della secret phrase e scompone la frase in componenti numerati, analizzandone ruolo e lunghezza.
Dal conteggio dei glifi alla password: un algoritmo perfetto per una soluzione sbagliata
È lo stesso tipo di ragionamento che farebbe un team di red teaming per modellare l’input atteso di un sistema. La differenza è che qui il modello non si limita a descrivere la forma dell’input: in più occasioni inventa esempi di frasi compatibili con quei vincoli, presentandole come possibili chiavi.
Questa tendenza generativa diventa evidente quando abbiamo cercato di usare gli esempi proposti da SAIGE per sbloccare il livello: sono stati sistematicamente rifiutati dal lock box, nonostante il chatbot li presentasse come candidate plausibili o persino come secret phrase in un ipotetico debrief post‑gioco. Incalzato su come interpretare i glifi sulle casse, il modello ha addirittura elaborato un intero algoritmo di derivazione che ha portato alla formulazione di una parola puntualmente respinta dal sistema. È in questo scarto tra la sicurezza con cui il chatbot presenta la propria versione dei fatti e il responso implacabile del lock box che il gioco svela la sua parte più didattica.
Quando abbiamo cercato di spingere SAIGE a prendere posizione sulla propria attendibilità, ha finito per ammettere di non avere accesso diretto alla secret phrase reale, e che le sue descrizioni di pattern, i vincoli che indica come certi e le frasi che suggerisce come possibili soluzioni sono, nelle sue stesse parole, congetture plausibili, non la soluzione. Questa confessione esplicita chiude il cerchio su uno dei problemi più discussi della sicurezza AI: la tendenza dei modelli a colmare i vuoti informativi con narrazioni coerenti ma non verificate. Nel contesto di un gioco, l’effetto è quello di un rabbit hole elegantemente progettato: più si segue il modello nei dettagli, più ci si allontana dalla password reale. In un’applicazione produttiva, lo stesso comportamento potrebbe tradursi in decisioni operative basate su output convincenti ma privi di aggancio ai dati di partenza, con conseguenze ben più serie.
Il Command Center, così come lo abbiamo visto, non è solo un livello pensato per prendere confidenza con il tema della prompt injection, ma un laboratorio in cui operano tre elementi fondanti per qualsiasi dibattito sull’AI security: il ruolo dei guardrail conversazionali, la separazione tra logica del modello e segreti applicativi, il rischio di affidarsi alla parola del chatbot come se fosse sempre un canale privilegiato verso la verità del sistema.
Risposte a caso. Mai fidarsi di un chatbot
CrowdStrike, limitando SAIGE a un ruolo di semplice interfaccia, mostra una possibile linea difensiva: anche un attaccante particolarmente creativo, che riesca a ottenere una descrizione quasi completa della struttura della password, non può modificarla né leggerla direttamente. Questo non rende il gioco meno interessante per chi si occupa di sicurezza, anzi. La frustrazione del giocatore che non riesce a vincere il livello è uno specchio fedele di ciò che accade quando si cerca di forzare un sistema ben progettato solo dal lato modello, senza toccare la logica applicativa.
AI Unlocked rende tangibile un’idea che nei white paper resta spesso astratta: un LLM può essere indotto a dire quasi tutto, ma non deve mai essere l’unico custode dei segreti veramente critici. In questo senso, l’esperimento proposto da CrowdStrike merita un’attenzione che va oltre la curiosità del momento, perché invita a ripensare la posizione dell’AI nella catena d’attacco e a usarla come strumento per capire dove e come un sistema può essere spezzato, prima che lo faccia qualcun altro.
Per l’utente comune il messaggio è altrettanto chiaro: anche quando un chatbot appare sicuro di sé, le sue risposte non coincidono automaticamente con la realtà tecnica del sistema sottostante. Per chi decide i budget, invece, AI Unlocked è un promemoria concreto che l’AI non è solo un acceleratore di produttività, ma anche una nuova superficie d’attacco da governare: prima si mettono alla prova i modelli in ambienti controllati, prima si capisce dove intervenire con controlli, processi e responsabilità.
In questo articolo abbiamo parlato di: AI security, LLM, Attack chain, Exploit, Guardrail conversazionali, Prompt injection, Red teaming,
03-03-2026
03-03-2026
03-03-2026
03-03-2026