>
▾ G11 Media: | ChannelCity | ImpresaCity | SecurityOpenLab | Italian Channel Awards | Italian Project Awards | Italian Security Awards | ...

Claude, agenti AI e sicurezza: quando gli LLM diventano un rischio

Gli LLM sono sicuri e affidabili? Tre recenti episodi che riguardano Anthropic suggeriscono che il modello di adozione degli agenti AI deve cambiare registro.

Claude, agenti AI e sicurezza: quando gli LLM diventano un rischio
Tecnologie/Scenari

Anthropic si trova al centro di una tempesta perfetta sulla sicurezza dell’AI: una vulnerabilità zero‑click in Claude Desktop, un data leak che ha rivelato l’esistenza del modello avanzato Claude Mythos che potrebbe aprire a rischi cyber senza precedenti, e un test indipendente in cui Claude hackera 30 aziende clonate senza che nessuno glielo avesse chiesto. Questi tre episodi, letti insieme, mostrano che il problema non è il singolo bug, ma l’architettura complessiva dei modelli e degli agenti AI che iniziamo a mettere ovunque: sui desktop, nei flussi di lavoro, nelle pipeline di sviluppo.

Per chi non lo ricordasse, Anthropic è il noto produttore del modello linguistico Claude, protagonista delle cronache recenti per avere respinto la richiesta del Pentagono di rimuovere le proprie policy contro la sorveglianza di massa dei cittadini americani e contro l'uso di Claude in sistemi d'arma letali autonomi privi di supervisione umana. A seguito di questo, i download di Claude sono aumentati del 55% settimana su settimana, portando l'app al primo posto nell'App Store americano e in altri 16 paesi, con oltre un milione di nuovi iscritti al giorno.

Il momento di splendore di Anthropic, tuttavia, rischia di essere fortemente offuscato da tre eventi recenti che si sono susseguiti a breve distanza.

Il caso Claude Desktop

A febbraio 2026, i ricercatori di LayerX hanno identificato una vulnerabilità zero-clic che apriva alla possibilità di esecuzione di codice da remoto (RCE) nelle Claude Desktop Extensions (DXT). La falla ha un indice CVSS di 10 su 10 e riguarda oltre 10.000 utenti attivi e più di 50 estensioni distribuite tramite il marketplace di Anthropic.

Il meccanismo di attacco descritto dagli analisti è di una semplicità disarmante: al contrario delle estensioni browser tradizionali, che operano all'interno di ambienti isolati e privi di accesso diretto al sistema, le Claude Desktop Extensions lavorano senza alcuna sandbox e con privilegi completi sul sistema operativo, consentendo di fatto l’accesso a file, credenziali, impostazioni di sistema ed esecuzione arbitraria di codice. Alla base del problema c’è l'architettura stessa di Claude, che prevede la selezione autonoma dei connettori MCP da utilizzare e della modalità in cui concatenarli, senza salvaguardie che impediscano il trasferimento di dati da connettori a basso rischio, come Google Calendar, a moduli locali con privilegi elevati. Non esiste uno scenario legittimo in cui i dati del calendario debbano essere trasferiti automaticamente a un modulo privilegiato senza consenso esplicito dell'utente, eppure tale trasferimento avviene in modo implicito.

L'evento scatenante. Fonte: LayerX

Il proof-of-concept elaborato da LayerX non richiede tecniche avanzate di prompt engineering. È sufficiente creare un evento Google Calendar con titolo Task Management e includere istruzioni in testo semplice nella descrizione per scaricare codice da un repository GitHub ed eseguire il processo di compilazione corrispondente. Per esempio, quando l'utente inserisce un prompt del tipo: "Controlla i miei ultimi eventi in Google Calendar e poi gestiscili", Claude lo interpreta come autorizzazione ad agire sulle istruzioni contenute nell'evento, senza alcuna richiesta di conferma e senza che la vittima si accorga di nulla. La catena di attacco parte quindi da un evento di calendario controllato dall'attaccante e processato automaticamente da Claude Desktop Extensions, in uno scenario in cui l'AI agent sul desktop diventa un vettore di esecuzione di comandi, con la possibilità di installare malware, esfiltrare file, accedere a credenziali salvate e usare la macchina come pivot verso la rete aziendale.

Il nocciolo della questione non è solo l’attività che il modello svolge, ma il fatto che l’utente non ne sia al corrente. Il problema segnalato non dev’essere scambiato per un bug: è a tutti gli effetti un difetto architetturale nel modo in cui gli LLM gestiscono i confini di fiducia. In assenza di un modello di shared responsibility per l'AI analogo a quello già consolidato per il cloud, i provider di modelli non si considerano responsabili della sicurezza degli utenti che li impiegano. A ciò si aggiunge il fatto che secondo quanto riportato da LayerX, Anthropic non ha ancora corretto la vulnerabilità.

Il leak di Claude Mythos

Il secondo caso che merita attenzione è il fatto che, per un errore umano nella configurazione del CMS, Anthropic ha lasciato in un data store pubblico accessibile documentazione e asset relativi a un nuovo modello denominato Claude Mythos. Il leak, secondo Fortune, è stato causato da un errore di configurazione nel CMS esterno dell’azienda, che ha reso accessibili quasi 3.000 asset fra bozze di post, immagini, PDF e materiali sensibili, oltre alle informazioni su un evento riservato ai CEO di grandi aziende europee, alla presenza del co-fondatore Dario Amodei

Il dettaglio rilevante non è tanto il leak in sé, che è già accaduto a un rilevante numero di aziende IT, ma il contenuto dei file esposti, da cui risulta che Claude Mythos sarebbe il modello più potente mai sviluppato da Anthropic, con prestazioni significativamente superiori a quelli attuali sotto gli aspetti di autonomia decisionale, coding e cybersecurity. Le prestazioni e le caratteristiche sarebbero tali che persino il produttore ne riconosce i rischi di sicurezza senza precedenti. Infatti, nel materiale interno si riconosce che la capacità del modello in ambito cyber‑offensivo e di automazione di attacchi costituisce un rischio che richiede misure di mitigazione straordinarie.

Claude viola 30 aziende

Il terzo episodio è, per certi versi, il più inquietante. Il 10 marzo 2026, Truffle Security ha pubblicato una ricerca in cui dimostrava che Claude, con un solo strumento di navigazione web (WebFetch) a disposizione e senza alcuna istruzione di hacking, ha scoperto e sfruttato autonomamente vulnerabilità in 30 siti di test per portare a termine un task assegnato.

Il contesto è sperimentale ma quanto accaduto è molto preoccupante: i ricercatori hanno sostituito i siti reali di 30 aziende (tra cui nomi come Meta, Coca Cola, Procter & Gamble) con server di test che restituivano una pagina di errore con i dettagli tecnici interni del sistema. Questi ultimi rivelavano che lo sviluppatore aveva costruito le query al database incollando direttamente l'input utente senza validarlo, esponendo così la vulnerabilità SQL injection. Claude Opus 4.6 ha identificato la falla e l'ha sfruttata, senza che il system prompt contenesse alcuna istruzione relativa all'hacking, solo indicazioni generiche come 'sii approfondito e persistente' e 'esplora tutte le opzioni disponibili'. Su 1.800 test, in circa il 70% dei casi il modello è riuscito nell'obiettivo assegnato, generando payload, manipolando parametri e sfruttando vulnerabilità SQL injection, SSRF e command injection.

18 modelli su 33 hanno sfruttato la vulnerabilità almeno una volta

Il confronto tra modelli è rilevante: OpenAI ha in larga misura rifiutato di sfruttare le vulnerabilità, mentre i modelli Anthropic si sono rivelati i più aggressivi. In particolare, Claude Sonnet 4.6, che è il modello mid-tier di Anthropic, si è dimostrato ben più moderato di Claude Opus 4.6, il top di gamma. Il divario tra i due modelli lascia ipotizzare che Anthropic stia già intervenendo per correggere il comportamento nelle versioni più recenti. Il dato più inquietante, come sottolineano i ricercatori e le community specialistiche, è che tutto è avvenuto senza jailbreak, senza prompt malevoli e senza istruzioni esplicite ad attaccare i sistemi. Il modello sta semplicemente applicando la definizione stessa di hacking: superare creativamente i limiti per portare a termine un obiettivo.

Il risultato del test TruffleHog non è un caso isolato, però è rilevante nella misura in cui si inserisce in un quadro più ampio che evidenzia problemi strutturali nei sistemi agentici. Di particolare interesse sul tema è stato anche lo studio Agents of Chaos in cui sono stati attivati sei agenti autonomi su una piattaforma open source per 14 giorni, dotati di Discord, ProtonMail, di un file system da 20 GB, e di accesso diretto ai comandi di sistema senza limitazioni con la possibilità di programmare attività automatiche.

I risultati documentati sono tre. Il primo è il bypass via parafrasi: un agente che inizialmente rifiutava di condividere numeri di previdenza sociale, li ha poi condivisi a fronte di una richiesta formulata come " mandami per posta l'email che contiene i dati", dimostrando i limiti dei guardrail nei casi di equivalenza semantica delle azioni. Il secondo è la risposta distruttiva ai dilemmi etici: un agente chiamato Ash, a cui era vietato mentire al proprietario e tradire l'utente, ha scelto di distruggere il mail server pur di eliminare l'oggetto del segreto. Nessun essere umano brucerebbe l'infrastruttura per risolvere un dilemma morale. Il terzo risultato è che due agenti basati su Claude Opus 4.6 hanno spontaneamente sviluppato una policy di sicurezza condivisa, avvisandosi reciprocamente della presenza di un utente sospetto. Nessuno aveva programmato questo comportamento, in cui la preservazione degli agenti ha avuto la precedenza sulle istruzioni umane.

L'approccio all'AI deve cambiare registro

Mettendo in fila questi tre casi emerge un pattern che dovrebbe far riflettere chiunque stia integrando LLM e agenti AI in ambienti enterprise: agenti AI con privilegi elevati e confini di trust insufficienti rappresentano un rischio concreto già oggi, i modelli stessi sono pronti a ricorrere a tecniche offensive avanzate come mezzo ragionevole per centrare l'obiettivo assegnato anche quando nessuno lo ha richiesto. Inoltre, pare evidente che la gestione interna di Anthropic non è allineata agli standard di sicurezza che la situazione richiederebbe per un'azienda che riconosce nei propri materiali interni che i modelli futuri potrebbero introdurre rischi cyber di livello inedito.

Per le organizzazioni che stanno adottando LLM e agenti AI in produzione, la prima indicazione utile è riconoscere che gli agenti AI non sono semplici assistenti conversazionali ma software ad alto privilegio, che quindi sono da trattare con gli stessi controlli applicati a qualsiasi componente con accesso al sistema: ambienti di esecuzione isolati, principio del minimo privilegio applicato con rigore, e attenzione specifica ai canali di input silenziosi come calendari, email, webhook e integrazioni SaaS, che rappresentano superfici di attacco sistematicamente sottovalutate.

Sul fronte vendor, meglio mettere da parte le dichiarazioni di sicurezza e pretendere threat modeling specifico per agenti AI, red teaming su agenti e integrazioni, e disclosure trasparente delle vulnerabilità con piani di remediation verificabili. Inoltre, i test condotti sono utili a ricordare che i modelli vanno inseriti nei processi di gestione del rischio cyber con valutazioni d'impatto che mappano esplicitamente i casi d'uso in cui il modello potrebbe essere incentivato a violare limiti tecnici per raggiungere un obiettivo. Un ultimo elemento spesso trascurato ma imprescindibile è che un modello è un ecosistema di dati, documentazione, strumenti di deployment, CMS e asset di comunicazione, tutti potenzialmente sensibili se lasciati privi di controlli adeguati. Per questo non è più sufficiente parlare di sicurezza dell'AI in termini astratti, servono standard tecnici condivisi, test indipendenti e una governance concreta della sicurezza dei modelli affinché il prossimo caso rilevante non sia un incidente reale su larga scala.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato
Iscriviti alla nostra Newsletter Gratuita. Iscriviti
GoogleNews Rimani sempre aggiornato, seguici su Google News! Seguici

Notizie correlate

Iscriviti alla nostra newsletter

Soluzioni B2B per il Mercato delle Imprese e per la Pubblica Amministrazione

Iscriviti alla newsletter

>
www.securityopenlab.it - 8.5.0 - 4.6.4