Claude, agenti AI e sicurezza: quando gli LLM diventano un rischio

Gli LLM sono sicuri e affidabili? Tre recenti episodi che riguardano Anthropic suggeriscono che il modello di adozione degli agenti AI deve cambiare registro.

Tecnologie/Scenari

Anthropic si trova al centro di una tempesta perfetta sulla sicurezza dell’AI: una vulnerabilità zero‑click in Claude Desktop, un data leak che ha rivelato l’esistenza del modello avanzato Claude Mythos che potrebbe aprire a rischi cyber senza precedenti, e un test indipendente in cui Claude hackera 30 aziende clonate senza che nessuno glielo avesse chiesto. Questi tre episodi, letti insieme, mostrano che il problema non è il singolo bug, ma l’architettura complessiva dei modelli e degli agenti AI che iniziamo a mettere ovunque: sui desktop, nei flussi di lavoro, nelle pipeline di sviluppo.

Per chi non lo ricordasse, Anthropic è il noto produttore del modello linguistico Claude, protagonista delle cronache recenti per avere respinto la richiesta del Pentagono di rimuovere le proprie policy contro la sorveglianza di massa dei cittadini americani e contro l'uso di Claude in sistemi d'arma letali autonomi privi di supervisione umana. A seguito di questo, i download di Claude sono aumentati del 55% settimana su settimana, portando l'app al primo posto nell'App Store americano e in altri 16 paesi, con oltre un milione di nuovi iscritti al giorno.

Il momento di splendore di Anthropic, tuttavia, rischia di essere fortemente offuscato da tre eventi recenti che si sono susseguiti a breve distanza.

Il caso Claude Desktop

A febbraio 2026, i ricercatori di LayerX hanno identificato una vulnerabilità zero-clic che apriva alla possibilità di esecuzione di codice da remoto (RCE) nelle Claude Desktop Extensions (DXT). La falla ha un indice CVSS di 10 su 10 e riguarda oltre 10.000 utenti attivi e più di 50 estensioni distribuite tramite il marketplace di Anthropic.

Il meccanismo di attacco descritto dagli analisti è di una semplicità disarmante: al contrario delle estensioni browser tradizionali, che operano all'interno di ambienti isolati e privi di accesso diretto al sistema, le Claude Desktop Extensions lavorano senza alcuna sandbox e con privilegi completi sul sistema operativo, consentendo di fatto l’accesso a file, credenziali, impostazioni di sistema ed esecuzione arbitraria di codice. Alla base del problema c’è l'architettura stessa di Claude, che prevede la selezione autonoma dei connettori MCP da utilizzare e della modalità in cui concatenarli, senza salvaguardie che impediscano il trasferimento di dati da connettori a basso rischio, come Google Calendar, a moduli locali con privilegi elevati. Non esiste uno scenario legittimo in cui i dati del calendario debbano essere trasferiti automaticamente a un modulo privilegiato senza consenso esplicito dell'utente, eppure tale trasferimento avviene in modo implicito.

L'evento scatenante. Fonte: LayerX

Il proof-of-concept elaborato da LayerX non richiede tecniche avanzate di prompt engineering. È sufficiente creare un evento Google Calendar con titolo Task Management e includere istruzioni in testo semplice nella descrizione per scaricare codice da un repository GitHub ed eseguire il processo di compilazione corrispondente. Per esempio, quando l'utente inserisce un prompt del tipo: "Controlla i miei ultimi eventi in Google Calendar e poi gestiscili", Claude lo interpreta come autorizzazione ad agire sulle istruzioni contenute nell'evento, senza alcuna richiesta di conferma e senza che la vittima si accorga di nulla. La catena di attacco parte quindi da un evento di calendario controllato dall'attaccante e processato automaticamente da Claude Desktop Extensions, in uno scenario in cui l'AI agent sul desktop diventa un vettore di esecuzione di comandi, con la possibilità di installare malware, esfiltrare file, accedere a credenziali salvate e usare la macchina come pivot verso la rete aziendale.

Il nocciolo della questione non è solo l’attività che il modello svolge, ma il fatto che l’utente non ne sia al corrente. Il problema segnalato non dev’essere scambiato per un bug: è a tutti gli effetti un difetto architetturale nel modo in cui gli LLM gestiscono i confini di fiducia. In assenza di un modello di shared responsibility per l'AI analogo a quello già consolidato per il cloud, i provider di modelli non si considerano responsabili della sicurezza degli utenti che li impiegano. A ciò si aggiunge il fatto che secondo quanto riportato da LayerX, Anthropic non ha ancora corretto la vulnerabilità.

Il leak di Claude Mythos

Il secondo caso che merita attenzione è il fatto che, per un errore umano nella configurazione del CMS, Anthropic ha lasciato in un data store pubblico accessibile documentazione e asset relativi a un nuovo modello denominato Claude Mythos. Il leak, secondo Fortune, è stato causato da un errore di configurazione nel CMS esterno dell’azienda, che ha reso accessibili quasi 3.000 asset fra bozze di post, immagini, PDF e materiali sensibili, oltre alle informazioni su un evento riservato ai CEO di grandi aziende europee, alla presenza del co-fondatore Dario Amodei

Il dettaglio rilevante non è tanto il leak in sé, che è già accaduto a un rilevante numero di aziende IT, ma il contenuto dei file esposti, da cui risulta che Claude Mythos sarebbe il modello più potente mai sviluppato da Anthropic, con prestazioni significativamente superiori a quelli attuali sotto gli aspetti di autonomia decisionale, coding e cybersecurity. Le prestazioni e le caratteristiche sarebbero tali che persino il produttore ne riconosce i rischi di sicurezza senza precedenti. Infatti, nel materiale interno si riconosce che la capacità del modello in ambito cyber‑offensivo e di automazione di attacchi costituisce un rischio che richiede misure di mitigazione straordinarie.

Claude viola 30 aziende

Il terzo episodio è, per certi versi, il più inquietante. Il 10 marzo 2026, Truffle Security ha pubblicato una ricerca in cui dimostrava che Claude, con un solo strumento di navigazione web (WebFetch) a disposizione e senza alcuna istruzione di hacking, ha scoperto e sfruttato autonomamente vulnerabilità in 30 siti di test per portare a termine un task assegnato.

Il contesto è sperimentale ma quanto accaduto è molto preoccupante: i ricercatori hanno sostituito i siti reali di 30 aziende (tra cui nomi come Meta, Coca Cola, Procter & Gamble) con server di test che restituivano una pagina di errore con i dettagli tecnici interni del sistema. Questi ultimi rivelavano che lo sviluppatore aveva costruito le query al database incollando direttamente l'input utente senza validarlo, esponendo così la vulnerabilità SQL injection. Claude Opus 4.6 ha identificato la falla e l'ha sfruttata, senza che il system prompt contenesse alcuna istruzione relativa all'hacking, solo indicazioni generiche come 'sii approfondito e persistente' e 'esplora tutte le opzioni disponibili'. Su 1.800 test, in circa il 70% dei casi il modello è riuscito nell'obiettivo assegnato, generando payload, manipolando parametri e sfruttando vulnerabilità SQL injection, SSRF e command injection.

18 modelli su 33 hanno sfruttato la vulnerabilità almeno una volta

Il confronto tra modelli è rilevante: OpenAI ha in larga misura rifiutato di sfruttare le vulnerabilità, mentre i modelli Anthropic si sono rivelati i più aggressivi. In particolare, Claude Sonnet 4.6, che è il modello mid-tier di Anthropic, si è dimostrato ben più moderato di Claude Opus 4.6, il top di gamma. Il divario tra i due modelli lascia ipotizzare che Anthropic stia già intervenendo per correggere il comportamento nelle versioni più recenti. Il dato più inquietante, come sottolineano i ricercatori e le community specialistiche, è che tutto è avvenuto senza jailbreak, senza prompt malevoli e senza istruzioni esplicite ad attaccare i sistemi. Il modello sta semplicemente applicando la definizione stessa di hacking: superare creativamente i limiti per portare a termine un obiettivo.

Il risultato del test TruffleHog non è un caso isolato, però è rilevante nella misura in cui si inserisce in un quadro più ampio che evidenzia problemi strutturali nei sistemi agentici. Di particolare interesse sul tema è stato anche lo studio Agents of Chaos in cui sono stati attivati sei agenti autonomi su una piattaforma open source per 14 giorni, dotati di Discord, ProtonMail, di un file system da 20 GB, e di accesso diretto ai comandi di sistema senza limitazioni con la possibilità di programmare attività automatiche.

I risultati documentati sono tre. Il primo è il bypass via parafrasi: un agente che inizialmente rifiutava di condividere numeri di previdenza sociale, li ha poi condivisi a fronte di una richiesta formulata come " mandami per posta l'email che contiene i dati", dimostrando i limiti dei guardrail nei casi di equivalenza semantica delle azioni. Il secondo è la risposta distruttiva ai dilemmi etici: un agente chiamato Ash, a cui era vietato mentire al proprietario e tradire l'utente, ha scelto di distruggere il mail server pur di eliminare l'oggetto del segreto. Nessun essere umano brucerebbe l'infrastruttura per risolvere un dilemma morale. Il terzo risultato è che due agenti basati su Claude Opus 4.6 hanno spontaneamente sviluppato una policy di sicurezza condivisa, avvisandosi reciprocamente della presenza di un utente sospetto. Nessuno aveva programmato questo comportamento, in cui la preservazione degli agenti ha avuto la precedenza sulle istruzioni umane.

L'approccio all'AI deve cambiare registro

Mettendo in fila questi tre casi emerge un pattern che dovrebbe far riflettere chiunque stia integrando LLM e agenti AI in ambienti enterprise: agenti AI con privilegi elevati e confini di trust insufficienti rappresentano un rischio concreto già oggi, i modelli stessi sono pronti a ricorrere a tecniche offensive avanzate come mezzo ragionevole per centrare l'obiettivo assegnato anche quando nessuno lo ha richiesto. Inoltre, pare evidente che la gestione interna di Anthropic non è allineata agli standard di sicurezza che la situazione richiederebbe per un'azienda che riconosce nei propri materiali interni che i modelli futuri potrebbero introdurre rischi cyber di livello inedito.

Per le organizzazioni che stanno adottando LLM e agenti AI in produzione, la prima indicazione utile è riconoscere che gli agenti AI non sono semplici assistenti conversazionali ma software ad alto privilegio, che quindi sono da trattare con gli stessi controlli applicati a qualsiasi componente con accesso al sistema: ambienti di esecuzione isolati, principio del minimo privilegio applicato con rigore, e attenzione specifica ai canali di input silenziosi come calendari, email, webhook e integrazioni SaaS, che rappresentano superfici di attacco sistematicamente sottovalutate.

Sul fronte vendor, meglio mettere da parte le dichiarazioni di sicurezza e pretendere threat modeling specifico per agenti AI, red teaming su agenti e integrazioni, e disclosure trasparente delle vulnerabilità con piani di remediation verificabili. Inoltre, i test condotti sono utili a ricordare che i modelli vanno inseriti nei processi di gestione del rischio cyber con valutazioni d'impatto che mappano esplicitamente i casi d'uso in cui il modello potrebbe essere incentivato a violare limiti tecnici per raggiungere un obiettivo. Un ultimo elemento spesso trascurato ma imprescindibile è che un modello è un ecosistema di dati, documentazione, strumenti di deployment, CMS e asset di comunicazione, tutti potenzialmente sensibili se lasciati privi di controlli adeguati. Per questo non è più sufficiente parlare di sicurezza dell'AI in termini astratti, servono standard tecnici condivisi, test indipendenti e una governance concreta della sicurezza dei modelli affinché il prossimo caso rilevante non sia un incidente reale su larga scala.

In questo articolo abbiamo parlato di:

Tag correlati

Esplora altri articoli su questi argomenti

jailbreak vulnerability ai security LLM security Agent AI Anthropic Claude leak

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato

Fonti di ricerca preferite

Aggiungici alle tue fonti su Google

Google News

Rimani sempre aggiornato, seguici

Notizie correlate

8 - Claude, agenti AI e sicurezza: quando gli LLM diventano un rischio

3 - TrendAI si allea con Anthropic per potenziare la sicurezza AI-native

2 - Anthropic e Claude Mythos: tanto rumore per (quasi) nulla

2 - Jailbreak LLM: una riga di codice mette in ginocchio undici modelli AI

2 - Claude Code e la prevedibilità che non avevamo previsto

2 - Agenti AI su Google Cloud: permessi predefiniti eccessivi mettono a rischio l'intero ambiente

2 - Qualys Agent Val: validazione delle vulnerabilità basata su prove

2 - Agenti AI: crash, hack e anomalie operative sono gli scenari da evitare

2 - Agenti LLM su smartphone fra vulnerabilità e rischi invisibili

2 - La manipolazione degli LLM apre ad attacchi e riscatti su misura

2 - Nuove minacce GenAI: classificazione, impatti e difese efficaci

2 - LLM e jailbreak: una nuova tecnica automatizza gli attacchi

Speciali Tutti gli speciali

Speciale

Backup e resilienza

Speciale

Compliance e NIS2

Reportage

Cybersecurity 2026: come cambia la sicurezza in azienda

Speciale

Speciale Previsioni di cybersecurity per il 2026

Speciale

Speciale Gestione degli accessi

Calendario Tutto

Mag 19

CrowdTour 2026 - Milano

Mag 21

Cloud AI Live Milano

Mag 28

AWS Summit 2026 - Milano

Giu 03

Webinar Red Hat - The GenAI Optimization Triangle: Balancing Cost, Latency, and Accuracy on Kubernetes

Giu 04

WATCHGUARD OPEN MDR: sicurezza gestita, concreta e continua

Giu 11

MSP DAY 2026

Giu 17

Nutanix .NEXT On Tour Roma

Ott 07

Fortinet Security Day - Roma

Ott 28

Fortinet Security Day - Milano

Ultime notizie Tutto

L’essere umano come simbolo. Una storia di amore.

15-05-2026

Acronis ridisegna la piattaforma: AI, infrastruttura e partner

14-05-2026

In Italia 2.492 attacchi a settimana, ransomware in crescita

14-05-2026

Identità macchina surclassano quelle umane, in Italia il rapporto è 123:1

14-05-2026

G11 Media Networks

SecurityOpenLab e' un canale di BitCity, testata giornalistica registrata presso il tribunale di Como ,
n. 21/2007 del 11/10/2007- Iscrizione ROC n. 15698

G11 MEDIA S.R.L. Sede Legale Via NUOVA VALASSINA, 4 22046 MERONE (CO) - P.IVA/C.F.03062910132 Registro imprese di Como n. 03062910132 - REA n. 293834 CAPITALE SOCIALE Euro 30.000 i.v.

Claude, agenti AI e sicurezza: quando gli LLM diventano un rischio

Il caso Claude Desktop

Il leak di Claude Mythos

Claude viola 30 aziende

L'approccio all'AI deve cambiare registro

Tag correlati

Notizie correlate

8 - Claude, agenti AI e sicurezza: quando gli LLM diventano un rischio

3 - TrendAI si allea con Anthropic per potenziare la sicurezza AI-native

2 - Anthropic e Claude Mythos: tanto rumore per (quasi) nulla

2 - Jailbreak LLM: una riga di codice mette in ginocchio undici modelli AI

2 - Claude Code e la prevedibilità che non avevamo previsto

2 - Agenti AI su Google Cloud: permessi predefiniti eccessivi mettono a rischio l'intero ambiente

2 - Qualys Agent Val: validazione delle vulnerabilità basata su prove

2 - Agenti AI: crash, hack e anomalie operative sono gli scenari da evitare

2 - Agenti LLM su smartphone fra vulnerabilità e rischi invisibili

2 - La manipolazione degli LLM apre ad attacchi e riscatti su misura

2 - Nuove minacce GenAI: classificazione, impatti e difese efficaci

2 - LLM e jailbreak: una nuova tecnica automatizza gli attacchi

Speciali Tutti gli speciali

Backup e resilienza

Compliance e NIS2

Cybersecurity 2026: come cambia la sicurezza in azienda

Speciale Previsioni di cybersecurity per il 2026

Speciale Gestione degli accessi

Calendario Tutto

Ultime notizie Tutto

L’essere umano come simbolo. Una storia di amore.

Acronis ridisegna la piattaforma: AI, infrastruttura e partner

In Italia 2.492 attacchi a settimana, ransomware in crescita

Identità macchina surclassano quelle umane, in Italia il rapporto è 123:1

Iscriviti alla nostra newsletter

G11 Media Networks