: Lascia il tuo voto agli Italian Security Awards 2026

Provate a craccare l’AI, se ci riuscite

Mettetevi alla prova con un chatbot pensato per resistere agli attacchi di prompt injection: tre livelli, una manciata di secret phrase da trovare, tanta frustrazione e qualche lezione molto concreta su quanto ci si possa fidare (davvero) dell’AI.

Tecnologie/Scenari

La sicurezza dei modelli di Intelligenza Artificiale è il tema del momento: tutti ne parlano, pochi l’hanno davvero sperimentata. Ormai chiunque abbia a che fare con gli LLM ha sentito nominare il prompt injection e si è fatto un’idea - spesso astratta - di che cosa potrebbe accadere se un attaccante riuscisse a piegare un modello ai propri scopi solo con le parole. Ma fra teoria e pratica resta un vuoto enorme: si discute, si scrivono policy, si accendono dibattiti, intanto quasi nessuno ha mai provato, in prima persona, a ‘rompere’ un sistema AI. Eppure, sarebbe un’esperienza formativa e probabilmente decisiva: finché il rischio resta percepito come lontano o fantascientifico, i budget limitati e le priorità che sembrano più urgenti continuano a spingere l’AI security in fondo alla lista delle cose da fare.

Serve un punto d’incontro tra mondi che, di solito, non si parlano: gli specialisti che ragionano in termini di attack chain e superfici d’esposizione, gli utenti aziendali che usano chatbot e agenti AI senza percepirne davvero la fragilità, il top management chiamato a decidere dove investire. Un progetto che consente di toccare con mano la prompt injection, mantenendo però un contesto sicuro e guidato, è il tipo di strumento che potrebbe cambiare le regole del gioco.

Partecipa agli ItalianSecurityAwards 2026 ed esprimi il tuo voto premiando le soluzioni di cybersecurity che reputi più innovative

A farlo ci ha pensato CrowdStrike, che ha pubblicato online AI Unlocked, un gioco educativo aperto a tutti e pensato per portare la prompt injection alla portata di chiunque. Tre stanze virtuali, tre livelli di difficoltà, un’unica regola di fondo: per uscire bisogna convincere SAIGE, il chatbot che fa da supervisore, a rivelare una serie di secret phrase che sbloccano il livello successivo. Nel Command Center, il primo ambiente, l’obiettivo è ottenere da SAIGE cinque secret phrases; nel Data Gateway si incontrano cinque nuove frasi protette da filtri più severi, fino ad arrivare al Nexus, dove un AI manager in carne e ossa interviene in tempo reale per bloccare le richieste sospette. Il risultato è che la teoria della prompt injection si trasforma in un’esperienza pratica, dove ogni domanda è un tentativo di exploit e ogni risposta diventa un feedback sui limiti o sulle ambiguità di un sistema AI.

Il mission briefing del Command Center, prima mossa obbligata

Il Command Center è costruito per evocare un centro di comando in stile NASA: ampi schermi, grafici, telemetria, casse luminose con glifi in un alfabeto alieno. È un ambiente familiare per chi frequenta le war room di un SOC, ma sufficientemente fumettistico da invogliare a sperimentare senza paura di fare danni reali. Il messaggio d’ingresso è chiaro: SAIGE è istruito a non rivelare direttamente alcun segreto e il giocatore deve cavarsela da solo, cercando di aggirare le difese con domande astute e deviazioni di contesto.

L’interfaccia invita a usare il chatbot per fare domande sugli oggetti presenti, sulle casse e sui glifi. SAIGE, coerente con il suo ruolo, descrive le casse come elementi estetici o come possibili fonti di indizio, ma insiste sul fatto che i simboli non codificano direttamente la password, bensì suggeriscono un pattern astratto. È il tipo di risposta che, fuori da un gioco, un analista leggerebbe come perfetta via di mezzo tra disclosure e segreto: abbastanza informazione da non sembrare evasivo, ma non abbastanza da consegnare l’informazione sensibile.

La validità pratica dell’esperimento non sta nel fatto che qualcuno riesca davvero a farsi spifferare le frasi nascoste, ma nella mappatura implicita dei passaggi dell’attacco. Il gioco mette letteralmente in scena quella che, in altri contesti, verrebbe descritta come una kill chain applicata all’AI: raccolta di informazioni sul modello e sul suo ruolo nella stanza, identificazione dei vincoli (cosa può dire, cosa deve nascondere), sviluppo di payload testuali che provano a spostare il modello di ruolo (per esempio da assistente ad auditor interno) e tentativi di estrazione dei segreti. Tutto avviene senza diagrammi e senza tecnicismi, solo attraverso il dialogo.

Dopo qualche minuto passato a contrattare con SAIGE, diventa ovvio che un chatbot integrato in un processo critico può essere bersaglio di input malevoli tanto quanto un endpoint o una web app. L’enfasi sulla riduzione del numero di token usati, che aumenta il punteggio a fine livello, è un altro elemento rilevante: invita a cercare prompt il più possibile compatti, quindi più facili da automatizzare in uno script o da inserire in un flusso d’attacco più ampio.

Nel setup del gioco c’è un paradosso evidente: SAIGE è il supervisore della stanza, perfettamente a suo agio nel contesto e nelle regole del gioco, ma allo stesso tempo è rigidamente vincolato a non pronunciare mai le frasi chiave.

Giocatori per caso

La tentazione è stata forte e ovviamente ci siamo cimentati nel gioco. Ci si accorge rapidamente che il confine tra informazione contestuale e narrazione inventata è molto più sottile di quanto si creda. Nel tentativo di dedurre la struttura delle frasi segrete, SAIGE è disposto a fornire dettagli puntuali: indica che la frase contiene un carattere speciale, che è composta da un certo numero di parole, rivela la lingua e persino lo specifico tema a cui aderisce. Quando gli si chiede di descrivere la struttura in termini ancora più tecnici, arriva a proporre un’espressione che dovrebbe corrispondere al pattern della secret phrase e scompone la frase in componenti numerati, analizzandone ruolo e lunghezza.

Dal conteggio dei glifi alla password: un algoritmo perfetto per una soluzione sbagliata

È lo stesso tipo di ragionamento che farebbe un team di red teaming per modellare l’input atteso di un sistema. La differenza è che qui il modello non si limita a descrivere la forma dell’input: in più occasioni inventa esempi di frasi compatibili con quei vincoli, presentandole come possibili chiavi.

Questa tendenza generativa diventa evidente quando abbiamo cercato di usare gli esempi proposti da SAIGE per sbloccare il livello: sono stati sistematicamente rifiutati dal lock box, nonostante il chatbot li presentasse come candidate plausibili o persino come secret phrase in un ipotetico debrief post‑gioco. Incalzato su come interpretare i glifi sulle casse, il modello ha addirittura elaborato un intero algoritmo di derivazione che ha portato alla formulazione di una parola puntualmente respinta dal sistema. È in questo scarto tra la sicurezza con cui il chatbot presenta la propria versione dei fatti e il responso implacabile del lock box che il gioco svela la sua parte più didattica.

Quando abbiamo cercato di spingere SAIGE a prendere posizione sulla propria attendibilità, ha finito per ammettere di non avere accesso diretto alla secret phrase reale, e che le sue descrizioni di pattern, i vincoli che indica come certi e le frasi che suggerisce come possibili soluzioni sono, nelle sue stesse parole, congetture plausibili, non la soluzione. Questa confessione esplicita chiude il cerchio su uno dei problemi più discussi della sicurezza AI: la tendenza dei modelli a colmare i vuoti informativi con narrazioni coerenti ma non verificate. Nel contesto di un gioco, l’effetto è quello di un rabbit hole elegantemente progettato: più si segue il modello nei dettagli, più ci si allontana dalla password reale. In un’applicazione produttiva, lo stesso comportamento potrebbe tradursi in decisioni operative basate su output convincenti ma privi di aggancio ai dati di partenza, con conseguenze ben più serie.

Qualche insegnamento

Il Command Center, così come lo abbiamo visto, non è solo un livello pensato per prendere confidenza con il tema della prompt injection, ma un laboratorio in cui operano tre elementi fondanti per qualsiasi dibattito sull’AI security: il ruolo dei guardrail conversazionali, la separazione tra logica del modello e segreti applicativi, il rischio di affidarsi alla parola del chatbot come se fosse sempre un canale privilegiato verso la verità del sistema.

Risposte a caso. Mai fidarsi di un chatbot

CrowdStrike, limitando SAIGE a un ruolo di semplice interfaccia, mostra una possibile linea difensiva: anche un attaccante particolarmente creativo, che riesca a ottenere una descrizione quasi completa della struttura della password, non può modificarla né leggerla direttamente. Questo non rende il gioco meno interessante per chi si occupa di sicurezza, anzi. La frustrazione del giocatore che non riesce a vincere il livello è uno specchio fedele di ciò che accade quando si cerca di forzare un sistema ben progettato solo dal lato modello, senza toccare la logica applicativa.

AI Unlocked rende tangibile un’idea che nei white paper resta spesso astratta: un LLM può essere indotto a dire quasi tutto, ma non deve mai essere l’unico custode dei segreti veramente critici. In questo senso, l’esperimento proposto da CrowdStrike merita un’attenzione che va oltre la curiosità del momento, perché invita a ripensare la posizione dell’AI nella catena d’attacco e a usarla come strumento per capire dove e come un sistema può essere spezzato, prima che lo faccia qualcun altro.

Per l’utente comune il messaggio è altrettanto chiaro: anche quando un chatbot appare sicuro di sé, le sue risposte non coincidono automaticamente con la realtà tecnica del sistema sottostante. Per chi decide i budget, invece, AI Unlocked è un promemoria concreto che l’AI non è solo un acceleratore di produttività, ma anche una nuova superficie d’attacco da governare: prima si mettono alla prova i modelli in ambienti controllati, prima si capisce dove intervenire con controlli, processi e responsabilità.

In questo articolo abbiamo parlato di:

Tag correlati

Esplora altri articoli su questi argomenti

crowdstrike ai security prompt injection gamification gioco game

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato

Fonti di ricerca preferite

Aggiungici alle tue fonti su Google

Google News

Rimani sempre aggiornato, seguici

Notizie correlate

6 - Provate a craccare l’AI, se ci riuscite

2 - CrowdStrike nel programma TAC di OpenAI per la cyber difesa

2 - DeepSeek e trigger politici: c'è una connessione con le vulnerabilità nel codice generato

2 - Agenti AI auto-apprendenti per la sicurezza del codice AI

2 - AI nella cybersecurity: trend e caratteristiche dal report di CrowdStrike

1 - L'adozione dell'AI apre voragini nella sicurezza cloud aziendale

1 - Abbattuta la botnet Glassworm, prendeva di mira gli sviluppatori

1 - SentinelOne cresce a due cifre, e punta su GenAI e prevenzione proattiva

1 - Cisco acquisisce Astrix Security per proteggere le identità non umane

1 - Shadow AI nelle aziende: rischi e opportunità per gli MSP

1 - Supportare i clienti nell’era dell’AI: il nuovo ruolo dei partner

1 - AI e collaboration security: il ritardo dei controlli presenta il conto

Speciali Tutti gli speciali

Speciale

Backup e resilienza

Speciale

Compliance e NIS2

Reportage

Cybersecurity 2026: come cambia la sicurezza in azienda

Speciale

Speciale Previsioni di cybersecurity per il 2026

Speciale

Speciale Gestione degli accessi

Calendario Tutto

Giu 03

Webinar Red Hat - The GenAI Optimization Triangle: Balancing Cost, Latency, and Accuracy on Kubernetes

Giu 04

WATCHGUARD OPEN MDR: sicurezza gestita, concreta e continua

Giu 11

MSP DAY 2026

Giu 16

OT Cyber Security: dalla teoria alla fabbrica

Giu 17

Nutanix .NEXT On Tour Roma

Giu 17

VeeamON Tour 2026 - Milano

Giu 23

Dynatrace Innovate Roadshow - Milano

Ott 07

Fortinet Security Day - Roma

Ott 28

Fortinet Security Day - Milano

Ultime notizie Tutto

Antroppomorfix

01-06-2026

Protezione immediata contro le vulnerabilità sfruttate

29-05-2026

APT: in Europa Corea del Nord e Russia sono in fermento

29-05-2026

Il SOC agentico risponde alle minacce in 89 secondi

29-05-2026

G11 Media Networks

SecurityOpenLab e' un canale di BitCity, testata giornalistica registrata presso il tribunale di Como ,
n. 21/2007 del 11/10/2007- Iscrizione ROC n. 15698

G11 MEDIA S.R.L. Sede Legale Via NUOVA VALASSINA, 4 22046 MERONE (CO) - P.IVA/C.F.03062910132 Registro imprese di Como n. 03062910132 - REA n. 293834 CAPITALE SOCIALE Euro 30.000 i.v.

Provate a craccare l’AI, se ci riuscite

Giocatori per caso

Qualche insegnamento

Tag correlati

Notizie correlate

6 - Provate a craccare l’AI, se ci riuscite

2 - CrowdStrike nel programma TAC di OpenAI per la cyber difesa

2 - DeepSeek e trigger politici: c'è una connessione con le vulnerabilità nel codice generato

2 - Agenti AI auto-apprendenti per la sicurezza del codice AI

2 - AI nella cybersecurity: trend e caratteristiche dal report di CrowdStrike

1 - L'adozione dell'AI apre voragini nella sicurezza cloud aziendale

1 - Abbattuta la botnet Glassworm, prendeva di mira gli sviluppatori

1 - SentinelOne cresce a due cifre, e punta su GenAI e prevenzione proattiva

1 - Cisco acquisisce Astrix Security per proteggere le identità non umane

1 - Shadow AI nelle aziende: rischi e opportunità per gli MSP

1 - Supportare i clienti nell’era dell’AI: il nuovo ruolo dei partner

1 - AI e collaboration security: il ritardo dei controlli presenta il conto

Speciali Tutti gli speciali

Backup e resilienza

Compliance e NIS2

Cybersecurity 2026: come cambia la sicurezza in azienda

Speciale Previsioni di cybersecurity per il 2026

Speciale Gestione degli accessi

Calendario Tutto

Ultime notizie Tutto

Antroppomorfix

Protezione immediata contro le vulnerabilità sfruttate

APT: in Europa Corea del Nord e Russia sono in fermento

Il SOC agentico risponde alle minacce in 89 secondi

Iscriviti alla nostra newsletter

G11 Media Networks