Il dopo-Mythos è ancora nel segno dello scetticismo

Daniel Stenberg, autore e maintainer principale di curl, frena molto gli entusiasmi di Anthropic. Che, peraltro, nessuno ha davvero sostenuto seriamente.

L’annuncio di Anthropic secondo cui il modello AI Mythos sarebbe straordinariamente efficace nell’individuare vulnerabilità software ha trovato un importante banco di prova pubblico: l’esperienza diretta di Daniel Stenberg, autore e maintainer principale di curl, che è stata raccontata in un post pubblico. Il caso è rilevante, per due motivi principali: curl è estremamente usato, quindi una vulnerabilità in questo progetto può avere impatti potenzialmente molto estesi, e Stenberg è una voce nota e rispettata nella comunità open source. Va anche notato che Stenberg non è a priori contro l'utilizzo dell'AI nello sviluppo e nella cybersecurity. Anzi, è abituato ad usare strumenti automatizzati e basati su AI per l'analisi del codice di curl: 176 mila linee di codice C che sono state già controllate da strumenti come quelli di AISLE, Zeropath e OpenAI, come anche da tool meno AI-based ma comunque consolidati e validi.

Stenberg non ha eseguito direttamente una analisi di sicurezza usando Mythos, dato che non vi ha ancora avuto accesso nell’ambito di Project Glasswing, attraverso la Linux Foundation. Qualcun altro ha eseguito l'analisi dopo aver chiesto a Stenberg l'autorizzazione, e gli ha passato il report derivato da questa analisi. Il report indicava cinque vulnerabilità considerate “confermate” da Mythos. Dopo un’analisi approfondita da parte del team di curl, però, il quadro è cambiato in modo significativo. Delle cinque vulnerabilità segnalate, tre si sono rivelate falsi positivi. Una quarta era effettivamente un bug, ma non una vulnerabilità di sicurezza. Solo una è stata classificata come reale vulnerabilità, con severità considerata bassa e destinata a essere corretta in una futura release di curl.

Stenberg sostiene che la narrazione pubblica intorno a Mythos abbia generato aspettative molto superiori alle evidenze emerse durante il test reale. In particolare critica il fatto che Anthropic abbia presentato Mythos come uno strumento “pericolosamente efficace” nell’identificazione automatica di falle di sicurezza, mentre l’esperienza pratica avrebbe mostrato limiti analoghi a quelli già noti in molti strumenti di analisi automatizzata del codice. Stenberg sottolinea comunque che il report di Mythos non era privo di valore. Al contrario, riconosce che le descrizioni tecniche erano generalmente accurate e che anche i bug non classificati come vulnerabilità meritavano attenzione. Tuttavia evidenzia che il lavoro realmente complesso rimane quello umano: verificare i risultati, distinguere i falsi positivi dai problemi reali, comprendere l’impatto effettivo delle anomalie e decidere come intervenire sul codice.

Fonte: Mastodon

Questa posizione si inserisce in un dibattito più ampio che negli ultimi mesi coinvolge molti progetti open source, e su cui Stenberg si è già espresso con decisione. L’utilizzo di modelli AI per l’analisi del codice sta infatti producendo una crescita molto rapida delle segnalazioni di bug e vulnerabilità, ma non tutte sono corrette o realmente sfruttabili. Stenberg aveva già sottolineato una sorta di “esplosione” delle segnalazioni di sicurezza ricevute dal progetto curl, molte delle quali generate o supportate da strumenti AI.

Il problema, secondo diversi maintainer open source, non è soltanto la presenza di falsi positivi, ma il carico operativo che questi producono: ogni segnalazione deve essere verificata manualmente e, in progetti mantenuti da piccoli team o da volontari, questo sovraccarico diventa significativo. Stenberg aveva parlato di “AI slop attacks”, cioè grandi quantità di report di qualità insufficiente che finiscono per consumare le risorse dei maintainer. A causa di questo carico, diversi piccoli ma importanti progetti si sono di fatto fermati, con conseguenze potenzialmente critiche per chi li ha adottati.

Tornando al caso specifico di Mythos, Stenberg afferma di non aver visto prove che il sistema sia in grado di trovare vulnerabilità “a un livello superiore” rispetto agli strumenti già esistenti. Mythos quindi è utile, ma l’idea che rappresenti una svolta radicale nella ricerca automatizzata di vulnerabilità non sembra avere fondamento. I sistemi di AI possono accelerare l’identificazione di pattern anomali nel codice, ma la valutazione finale continua a dipendere dall’esperienza degli sviluppatori e dei security researcher. Nel caso di curl, il fatto che quattro segnalazioni su cinque abbiano richiesto riclassificazione dimostra quanto il processo di validazione resti indispensabile.

Va anche considerato che l’analisi automatica delle vulnerabilità non è un settore nuovo: da anni esistono strumenti in grado di individuare anomalie nel codice sorgente. La novità introdotta dai modelli generativi consiste soprattutto nella capacità di interpretare il contesto del software e produrre spiegazioni più articolate. Tuttavia, almeno secondo quanto emerge dal caso curl, questa evoluzione non elimina il problema dell’affidabilità dei risultati.

Una esperienza importante

Il caso curl potrebbe diventare un riferimento importante per valutare in modo più concreto le capacità dei nuovi modelli AI dedicati alla cybersecurity. Finora molte dichiarazioni pubbliche sui sistemi di bug hunting basati su AI si sono concentrate su benchmark interni o dimostrazioni controllate, un limite che riguarda lo stesso racconto di Anthropic su Mythos. L’esperienza raccontata da curl introduce invece un esempio reale e dettagliato, su un progetto open source ampiamente utilizzato e sottoposto da anni a scrutinio continuo da parte della comunità di sicurezza.

Per il settore enterprise e per gli sviluppatori, il messaggio che emerge è che gli strumenti di AI non sostituiscono i processi tradizionali di verifica, revisione del codice e validazione umana. In altre parole, e come è stato sostenuto anche in altri ambiti, l’AI appare ancora come un acceleratore operativo non pienamente autonomo nella ricerca delle vulnerabilità software. In futuro potrebbe essere diverso, e di certo in questi mesi i tool di AI per la cybersecurity sono migliorati, ma non sembra esserci alle viste nessuna rivoluzione epocale.

Il racconto di Stenberg è importante anche perché dopo l'annuncio "hype" di Anthropic le varie aziende coinvolte in Project Glasswing non hanno dato particolare seguito alla cosa. Tra i commenti più citati in rete ci sono stati praticamente solo quelli del team di Firefox, che ha avuto un approccio decisamente più positivo di Stenberg ma che alla fine ha concluso sulla stessa falsariga: Mythos non ha trovato bug che non sarebbero stati comunque trovati da bravi ricercatori di sicurezza.