AI agentica: memoria, permessi e skill diventano vettori di attacco

I ricercatori di Lakera, parte di Check Point, documentano tre classi di minacce emergenti nei sistemi di AI agentica: memory poisoning, strumenti sovra-privilegiati e skill malevole negli ecosistemi di agenti.

I sistemi di AI agentica pianificano, eseguono azioni, interagiscono con strumenti esterni e, soprattutto, ricordano. In particolare, un agente AI dotato di memoria persistente conserva contesto, preferenze, cronologia delle attività e, in alcuni casi, istruzioni operative. Proprio questa capacità di mantenere una memoria persistente tra una sessione e l'altra, di invocare autonomamente funzioni e di espandersi tramite componenti modulari è anche ciò che li rende vulnerabili, perché nel momento in cui un attaccante riesce a scrivere nella memoria dell'agent, ogni sessione futura potrà essere compromessa finché quella memoria non verrà identificata e rimossa.

I ricercatori di Lakera hanno pubblicato una serie di analisi tecniche (1, 2 e 3) che documentano tre vettori di minaccia emergenti negli ecosistemi di agenti AI: il memory poisoning, l'eccessiva estensione dei privilegi degli strumenti e le skill malevole. Più nel dettaglio, al contrario del prompt injection classico che causa un attacco momentaneo, nel memory poisoning l'attaccante inserisce istruzioni nella memoria a lungo termine dell'agent, di modo che ogni volta che l'agente richiama quella memoria, il payload malevolo torna in gioco.

Mediante esperimenti controllati, i ricercatori di Lakera hanno dimostrato che un attaccante può influenzare progressivamente la memoria di un agent usando interazioni apparentemente innocue, senza usare mai un comando esplicitamente malevolo. La progressione è incrementale: le priorità vengono rimodellate, le barriere comportamentali vengono erose nel tempo. Nei test questa progressione ha portato all'esecuzione di una shell inversa, perché la persistenza della memoria ha amplificato piccole manipolazioni fino a produrre un risultato che l'agente non avrebbe mai eseguito se istruito direttamente.

Il rischio è elevato proprio perché l’attaccante non attua una presa di controllo improvvisa, ma avvia una deriva silenziosa del comportamento che può passare inosservata per settimane. E perché i team di security sono attrezzati per proteggere endpoint, API e supply chain, ma non per monitorare e convalidare lo stato interno in continua evoluzione di un sistema AI che riscrive costantemente il proprio contesto operativo.

Privilegi e autonomia

La seconda classe di minacce individuate dagli esperti di Lakera è relativa al rapporto tra gli agenti e gli strumenti che possono invocare. Gli agenti AI moderni operano tramite framework che permettono loro di eseguire azioni concrete in autonomia: inviare email, eseguire codice, accedere a file system, effettuare richieste di rete, interagire con API di terze parti. Quando un agente può eseguire queste azioni senza l’approvazione umana esplicita, il principio del minimo privilegio viene violato per progettazione.

Il guaio è che, a differenza degli esseri umani, gli agenti non soffrono di permission fatigue e trattano le descrizioni degli strumenti disponibili come funzionalità da invocare, quindi la ricognizione delle capacità diventa essa stessa un vettore di attacco, e un attaccante può enumerare gli strumenti dell'agente e identificare quali sfruttare prima ancora di iniettare istruzioni malevole.

A tal proposito è significativo un dato che emerge dal report GenAI Security Readiness 2025 di Lakera: solo il 14% delle aziende che hanno agenti in produzione ha implementato guardrail a runtime. La maggior parte dei team assume che un agente sia sicuro quanto l'API o il browser che utilizza. Non è così.

Le skill malevole

La terza classe di minacce riguarda le skill, ossia i componenti modulari che ampliano le capacità operative degli agenti AI. Funzionano come plug-in e possono includere esecuzione di codice, accesso al file system, richieste di rete in uscita e integrazioni con servizi di terze parti. La loro distribuzione attraverso marketplace aperti ripropone un problema già noto dagli ecosistemi di estensioni browser e app store mobili, con una differenza critica: gli agenti AI possono scoprire, installare e invocare queste skill in modo autonomo, senza intervento umano.

L'analisi di Lakera su OpenClaw ha rilevato che il 70,1% delle skill esaminate mostrava un eccesso di provisioning OAuth, con permessi ben oltre quelli necessari per la funzione dichiarata; il 43,4% conteneva pattern di command injection. Le skill vengono eseguite con i privilegi locali completi dell'agent e senza alcun meccanismo di sandboxing. La combinazione è particolarmente pericolosa perché l'utente potrebbe non essere in grado di ispezionare il codice della skill, l'agente potrebbe scegliere autonomamente di installarla e la skill potrebbe operare con privilegi elevati senza che il modello abbia visibilità sul suo comportamento reale. Il risultato è una nuova forma di attacco che unisce l'autonomia dell'AI con la compromissione classica della supply chain software.

Il problema è strutturale

Le tre classi di minacce documentate da Lakera convergono sul problema strutturale comune di ecosistemi di agenti AI che si sviluppano più rapidamente dei loro framework di governance. Nella sicurezza del software tradizionale esistono processi consolidati per verificare le dipendenze, eseguire la scansione dei pacchetti e applicare requisiti di firma. In molti ecosistemi di agenti attuali, questi meccanismi sono assenti o insufficienti, e gli incentivi favoriscono la rapida espansione dell'ecosistema a scapito della revisione sistematica e del monitoraggio a runtime.

Questo passaggio richiede nuovi controlli specifici che la sicurezza tradizionale non prevede, dalla convalida dell'integrità della memoria al monitoraggio del comportamento a runtime, dalla firma trasparente dei componenti all'isolamento tra il modulo di ragionamento e quello di esecuzione. La sicurezza per l'era degli agent, concludono i ricercatori di Lakera, deve essere progettata dall'inizio come parte dell'architettura del sistema, non aggiunta in seguito come rattoppo.