LLM e dati sensibili: chi è davvero responsabile?

Quando si adottano modelli linguistici su dati aziendali, la responsabilità è condivisa tra vendor, system integrator e cliente. Parola a Sergio Ajani di Innovaway.

Tecnologie/Scenari

"Nessuno, neanche chi sviluppa i modelli, sa esattamente quando fa una release, quale sarà il risultato". È questa la premessa con cui Sergio Ajani, Service & Solutions Design Director di Innovaway, inquadra il problema della sicurezza dei Large Language Model. Una premessa che vale quanto una conclusione: nell'era degli LLM, la certezza è un lusso che nessuno può permettersi, e l'onestà intellettuale di chi lavora sul campo inizia dal riconoscerlo.

L'occasione per questa conversazione è arrivata a ridosso della pubblicazione di incidenti legati a Claude Code e a vulnerabilità di ChatGPT, che confermano una dinamica a cui avevamo già assistito in tempo di pandemia con l'adozione frenetica del cloud: “tutti i casi in cui c'è un utilizzo tumultuoso o poco ponderato delle nuove tecnologie portano con sé una serie di malfunzionamenti sistemici nel modello di adozione". La corsa, allora come ora, precede la riflessione. E i conti arrivano dopo.

Il dataset come superficie di attacco

Ajani ricorda che il punto di partenza è che l'efficacia di un LLM dipende dai dati usati in fase di addestramento: "banalizzando, il dataset stesso è una superficie di attacco estremamente critica perché contiene i dati usati per le elaborazioni, e come tale espone a rischi sistemici tutte le organizzazioni che vi inseriscono le proprie informazioni". In quest’ottica, data governance e data protection sono il prerequisito necessario per chi usa o costruisce sistemi AI.

Sergio Ajani, Service & Solutions Design Director di Innovaway

Più nello specifico, Ajani identifica tre grandi famiglie di vulnerabilità legate alla gestione dei dati di training. La prima è il data poisoning: "che nasce quando qualcuno, in modo scientifico, voluto, non casuale, inserisce campioni manipolati che alterano il comportamento del modello, creando vulnerabilità paragonabili a uno zero-day all'interno di un sistema LLM". È un rischio amplificato dal fatto che molti modelli ampiamente utilizzati sono open source: chiunque può studiarli, trovare le falle e costruire exploit per sfruttarle.

La seconda famiglia riguarda il privacy leakage: informazioni sensibili inserite nei dataset di training si possono estrarre anche semplicemente attraverso le chat. "Questa vulnerabilità è principalmente è legata a una mancanza di governance nella fase di caricamento dei dataset, ma potrebbe essere anche intenzionale quando il training viene affidato a una terza parte". La terza vulnerabilità è quella della supply chain: l'utilizzo di dataset provenienti dall'esterno, acquisiti via web scraping o da fonti terze senza controlli di integrità, può introdurre codice malevolo o informazioni non corrette all'interno del sistema.

Quest'ultimo punto porta Ajani a un parallelismo illuminante con il vibe coding: così come chi genera codice con l'AI tende ad accettarlo senza analizzarlo riga per riga, altrettanto accade con le fonti dei dataset. "Tuttora si tende a riporre un’eccessiva fiducia in ciò che genera e seleziona l’AI", e il rischio non è solo di sicurezza, è di accuratezza. In questo contesto c’è però un rovescio della medaglia che Ajani segnala con lucidità: "Se sono obbligato ad analizzare i dati per essere sicuro che non ci siano informazioni sensibili o altri elementi che possano rappresentare un rischio per la sicurezza, quello è anche l’occasione in cui posso chiedermi se quel dato è buono, se mi serve davvero, se posso migliorare la catena di gestione. Come sempre in ambito security, un problema diventa anche un'opportunità".

Tre livelli di responsabilità

La superficie di attacco è uno dei problemi. Un altro, enorme, problema è il tema della responsabilità, con un modello che dovrebbe essere chiaro e percepito da tutte le parti in causa, come quello di shared responsability del cloud. In realtà, del panorama LLM attuale è tra le questioni più complesse e meno chiarite.

Anche qui Ajani individua tre livelli distinti. Il primo riguarda chi fornisce il modello: "dovrebbe garantire – sottolinea Ajani- che il modello non sia facilmente inducibile ad azioni che mettono a rischio la sicurezza delle informazioni", il che non è un requisito banale, perché i modelli pre-addestrati possono contenere algoritmi e funzionalità che, in determinate condizioni, diventano vettori di rischio.

Il secondo livello è quello del system integrator: "questi sistemi non sono clic-and-buy. C'è una responsabilità precisa sulla progettazione della pipeline, sulla cifratura, sulla configurazione dei security model, sulla gestione degli ambienti di calcolo" spiega Ajani. Chi realizza la soluzione porta con sé responsabilità tecniche e attuative che non possono essere scaricate su altri tramite un contratto.

Il terzo livello, non meno importante, è il cliente, che nella visione di Ajani "ha due ruoli. Come data controller è responsabile dei propri dati e della classificazione che assegna loro: se dice che un dato è protetto, viene protetto; se non lo classifica come tale, non viene protetto. E poi è responsabile della governance complessiva, che deve tenere sotto controllo tutta la pipeline e tutta la catena". Questa governance non può essere delegata a strumenti AI, perché "il controllore non può operare all’interno dello stesso dominio in cui risiede la criticità”.

RAG, accessi e il problema della compiacenza

Definito il perimetro delle responsabilità, il passo successivo è capire dove le aziende italiane si trovano concretamente ad operare oggi e su quali scenari Innovaway viene chiamata a intervenire, dato che il suo portafoglio di servizi include Cyber Resilience, gestione della compliance NIS2 e DORA, e Threat & Vulnerability Assessment.

Sul fronte degli scenari più richiesti, Ajani è netto: per un utilizzo enterprise, il modello fine-tuned su dati aziendali è quello con il profilo di utilizzo più concreto. “Lo stiamo implementando su vari clienti, con use case diversi che non sempre trattano dati riservati o critici: talvolta sono solo dati informativi o knowledge base. Ma il principio di rischio è lo stesso". Questi sistemi si appoggiano quasi invariabilmente a un'architettura RAG (Retrieval-Augmented Generation), che introduce vulnerabilità proprie: c'è sempre un rischio legato a questo elemento che allarga e stira la superficie d'attacco.

I due temi su cui si concentra la maggior parte degli interventi sono la protezione dei dati e il controllo degli accessi. Sul primo, Ajani porta un esempio concreto: "un'azienda di moda che usa modelli cloud per progettare i bozzetti di una sfilata gioca il proprio vantaggio competitivo sulla riservatezza: se quei contenuti trapelano, la sfilata perde valore prima ancora di esistere. Il segreto industriale riguarda tutti i settori e, in Italia, significa inoltre e soprattutto proteggere il valore del Made in Italy". Siamo davanti a un'estensione del concetto di DLP (Data Loss Prevention), nel dominio dell'AI.

Sul controllo degli accessi, "si passa da un modello di controllo su database, ormai consolidato, a un paradigma in cui si implementano ruoli all'interno di un sistema che non ragiona per ruoli in modo analitico, ma solo in modo ipotetico" piega Ajani. Un modello linguistico, se interpellato da qualcuno che si dichiara direttore generale e chiede accesso illimitato, potrebbe compiacere per natura per il famoso "concetto di compiacenza del modello". Inoltre, l'architettura RAG pone un problema di data governance temporale, perché "non è banale mantenerla allineata, aggiornarla, essere sicuri che contenga tutte e solo le informazioni necessarie. Bisogna garantire sia l'accesso al dato sia che il dato obsoleto venga cancellato: è come una finestra che si sposta sulle mie informazioni, non può contenere tutto".

Il problema degli accessi diretti ai prompt è altrettanto critico: "se un dipendente può caricare un documento riservato in un prompt, dubito che esista in questo momento la possibilità di fare un fencing efficace. Si può farlo sui dati acquisiti in back office come system integration, ma se un agente AI è collegato a SharePoint o a un Google Drive aziendale, ha accesso a tutto" riflette Ajani. Per questo motivo, la soluzione adottata internamente da Innovaway per i propri operatori di help desk è paradigmatica: una RAG verificata, con prompt costruiti ad hoc che filtrano sia le richieste che gli output, e che non consentono il caricamento di file arbitrari. "Si va verso un'AI più di scopo, più filtrata. Meno spettacolare, ma più sicura" sintetizza Ajani.

Nonostante quanto detto finora, restano le criticità emerse con le ultime notizie relative ai modelli AI, e che fanno venire il dubbio che l'industria stia privilegiando la velocità a dispetto della sicurezza. Ajani ribatte con una riflessione pragmatica su base storica: "quando hanno messo in produzione le macchine a vapore, non erano molto sicure. In generale, quando si perseguono fini tangibili, si intraprende una corsa che non lascia inevitabilmente spazio per fermarsi a ragionare. La mia sensazione è che non si possa mettere un freno allo sviluppo tecnologico senza bloccare del tutto l’innovazione, almeno in questa fase”. Pensando a un paradigma esclusivamente di cybersecurity, non dovrebbe quindi essere consentito quanto meno l’uso di agenti che prendono possesso dello schermo del pc, ma c’è fior di servizi in abbonamento mensile che lo fanno.

Uno sguardo al futuro

Fermarsi ad analizzare la situazione attuale sarebbe limitante, perché è mandatorio avere un occhio sul futuro quando c’è un ballo la produttività aziendale. Per questo la parte finale della conversazione con Ajani sugli agenti AI ha aperto all’orizzonte di ricerca che Innovaway sta esplorando con alcune università italiane e che riguarda le architetture neurosimboliche. Ajani spiega che "si stanno fondendo due filoni che erano paralleli: quello basato su ragionamenti simbolici, deterministici, e quello delle reti neurali. Questa disciplina unisce l'aspetto simbolico con quello neuronale", con l'obiettivo pratico di costruire un agente supervisore che non ragioni con la stessa logica statistica del sistema che deve controllare, perché "chi deve essere determinista non può essere fatto della stessa materia di chi sbaglia".

L'applicazione può essere anche in ambito security, come spiega Ajani: "pensiamo che questa evoluzione possa essere importante per implementare un layer di supervisione che analizzi tutti i prompt e gli output e verifichi che siano compliant, non in modo statistico, ma alla base di un ragionamento. Un'architettura in cui agenti LLM eseguono i task e agenti neurosimbolici verificano ogni stato prima che l'output passi alla fase successiva”. Non sostituzione delle persone, ma utilizzo della augmented intelligence per la supervisione, consentendo di fare cose con più affidabilità rispetto all’intelligenza artificiale che conosciamo oggi. È uno dei tasselli del piano industriale 2026-2028 dell’azienda, un percorso di crescita basato su uno sviluppo organico e acquisizioni mirate, potenziato dall'integrazione tecnologica derivante dalla partnership con vendor leader di mercato come HCLSoftware.

L’ipotesi è intrigante e sicuramente richiederà formazione, che è un po’ il fil rouge di tutta la conversazione, perché a parte lo sguardo sul futuro, la realtà che già stiamo vivendo evidenzia che "tutto il tema degli LLM apre a possibilità che prima non esistevano, sia per i progettisti che per gli utenti, e per questo obbliga a un cambio di approccio nella valutazione del modello di rischio. Occorre un’attività di awareness a tappeto per diffondere il nuovo paradigma con tutte le sue stratificazioni" che deve coinvolgere non solo le competenze tecniche, ma anche e soprattutto il management, a cui oggi non è chiaro cosa sia l'AI, cosa possa fare e quali rischi comporta.

In questo articolo abbiamo parlato di: AI Security, Cyber Resilience, Data Governance, Data Poisoning, Large Language Model, Neuro-symbolic AI, Privacy Leakage,

Tags: intelligenza artificiale LLM rischio cyber ai security Innovaway modelli

Rimani sempre aggiornato, seguici su Google News! Seguici

Notizie correlate

6 - LLM e dati sensibili: chi è davvero responsabile?

2 - Check Point acquisisce Lakera per blindare la sicurezza dell’AI

2 - La manipolazione degli LLM apre ad attacchi e riscatti su misura

1 - TrendAI si allea con Anthropic per potenziare la sicurezza AI-native

1 - CrowdStrike nel programma TAC di OpenAI per la cyber difesa

1 - F5 e Forcepoint uniscono le forze per la sicurezza dell'AI enterprise

1 - Solo l'11% delle banche ha un'AI davvero affidabile. Il resto naviga a vista

1 - Commvault porta AI agentica e resilienza su Commvault Cloud

1 - Jailbreak LLM: una riga di codice mette in ginocchio undici modelli AI

1 - ESET porta la sicurezza AI negli endpoint aziendali

1 - Agenti AI su Google Cloud: permessi predefiniti eccessivi mettono a rischio l'intero ambiente

1 - Claude, agenti AI e sicurezza: quando gli LLM diventano un rischio

Speciali Tutti gli speciali

Speciale

Compliance e NIS2

Reportage

Cybersecurity 2026: come cambia la sicurezza in azienda

Speciale

Speciale Previsioni di cybersecurity per il 2026

Speciale

Speciale Gestione degli accessi

Reportage

Cybertech Europe 2025

Calendario Tutto

Apr 28

Arexdata DSPM: identificazione, classificazione e controllo dei dati

Mag 08

2026: l’anno della crescita degli MSP

Mag 12

SoftwareOne webinar - GitHub Copilot 2026: cosa è cambiato davvero?

Mag 26

CrowdTour 2026 - Milano

Giu 11

MSP DAY 2026

Giu 17

Nutanix .NEXT On Tour Roma

Ott 07

Fortinet Security Day - Roma

Ott 28

Fortinet Security Day - Milano

Ultime notizie Tutto

LLM e dati sensibili: chi è davvero responsabile?

22-04-2026

APT cinese aggiorna una backdoor e la usa in India e Corea

21-04-2026

TrendAI si allea con Anthropic per potenziare la sicurezza AI-native

21-04-2026

Un'identità italiana vale 90 dollari sul dark web

21-04-2026

G11 Media Networks

SecurityOpenLab e' un canale di BitCity, testata giornalistica registrata presso il tribunale di Como ,
n. 21/2007 del 11/10/2007- Iscrizione ROC n. 15698

G11 MEDIA S.R.L. Sede Legale Via NUOVA VALASSINA, 4 22046 MERONE (CO) - P.IVA/C.F.03062910132 Registro imprese di Como n. 03062910132 - REA n. 293834 CAPITALE SOCIALE Euro 30.000 i.v.

LLM e dati sensibili: chi è davvero responsabile?

Il dataset come superficie di attacco

Tre livelli di responsabilità

RAG, accessi e il problema della compiacenza

Uno sguardo al futuro

Notizie correlate

6 - LLM e dati sensibili: chi è davvero responsabile?

2 - Check Point acquisisce Lakera per blindare la sicurezza dell’AI

2 - La manipolazione degli LLM apre ad attacchi e riscatti su misura

1 - TrendAI si allea con Anthropic per potenziare la sicurezza AI-native

1 - CrowdStrike nel programma TAC di OpenAI per la cyber difesa

1 - F5 e Forcepoint uniscono le forze per la sicurezza dell'AI enterprise

1 - Solo l'11% delle banche ha un'AI davvero affidabile. Il resto naviga a vista

1 - Commvault porta AI agentica e resilienza su Commvault Cloud

1 - Jailbreak LLM: una riga di codice mette in ginocchio undici modelli AI

1 - ESET porta la sicurezza AI negli endpoint aziendali

1 - Agenti AI su Google Cloud: permessi predefiniti eccessivi mettono a rischio l'intero ambiente

1 - Claude, agenti AI e sicurezza: quando gli LLM diventano un rischio

Speciali Tutti gli speciali

Compliance e NIS2

Cybersecurity 2026: come cambia la sicurezza in azienda

Speciale Previsioni di cybersecurity per il 2026

Speciale Gestione degli accessi

Cybertech Europe 2025

Calendario Tutto

Ultime notizie Tutto

LLM e dati sensibili: chi è davvero responsabile?

APT cinese aggiorna una backdoor e la usa in India e Corea

TrendAI si allea con Anthropic per potenziare la sicurezza AI-native

Un'identità italiana vale 90 dollari sul dark web

Iscriviti alla nostra newsletter

G11 Media Networks