L'AI abbandona il laboratorio: inferenza come workload di produzione

Con sette modelli AI in produzione in media e il 93% delle organizzazioni in hybrid multicloud, l'inferenza diventa infrastruttura critica.

Il 78% delle organizzazioni gestisce oggi l'inferenza AI internamente; il 93% opera in ambienti hybrid multicloud. Sono i dati di apertura del report State of Application Strategy in 2026 di F5, da cui emerge che l'AI ha attraversato la soglia critica che separa la sperimentazione dalla produzione. Anziché “usare” l’AI, le organizzazioni ora la gestiscono come qualsiasi altro sistema mission-critical, con le stesse esigenze di architettura, sicurezza e scalabilità.

Il dato forse più significativo del report riguarda la proliferazione dei modelli: le organizzazioni ne gestiscono in media sette simultaneamente in produzione. Nel 90% dei casi la scelta multi-model è dovuta a ragioni tecniche come compatibilità API, availability e capability gap; il 79% indica motivazioni di business come per esempio l’ottimizzazione dei costi, l’accesso a modelli open-source e requisiti di compliance. Solo il 5% indica la preferenza degli utenti come driver. Questo significa che le aziende gestiscono un portfolio di modelli, invece di cercarne uno migliore.

Il 77% dei partecipanti al sondaggio indica l'inferenza come attività AI primaria, che supera nettamente training e fine-tuning dei modelli: significa che l'AI economy si è spostata dal building all'operating. Il 52% delle organizzazioni utilizza già multi-model chaining o orchestrazione per coordinare i modelli in produzione; quasi altrettanti ricorrono alla knowledge distillation. Il retrieval-augmented generation (RAG), spesso presentato come pattern di riferimento, si colloca significativamente più in basso.

L'AI in produzione si inserisce in infrastrutture già frammentate. Il 93% delle organizzazioni gestisce ambienti hybrid multicloud; l'86% distribuisce applicazioni su on-premise, cloud pubblico e colocation. Gli intervistati gestiscono in media cinque datacenter propri, cinque facility di colocation e quattro cloud provider. Solo il 28% ha centralizzato la gestione dei workflow su un unico punto di controllo per le API AI. La frammentazione degli strumenti di governance replica esattamente quanto già visto con la proliferazione applicativa: quando l'inferenza distribuita non viene orchestrata, i rischi di sicurezza e i costi operativi si moltiplicano in modo frattale su delivery, sicurezza, resilienza e governance.

Nel momento in cui l'AI si integra nei loop operativi, il perimetro di sicurezza si sposta verso strati che i modelli tradizionali non erano stati progettati per proteggere. L'88% delle organizzazioni ha già implementato almeno un servizio per la delivery e la sicurezza dell'inferenza; il 55% gestisce autenticazione e accesso alle API AI; il 54% monitora il flusso del traffico AI; il 51% ha attivato servizi per prevenire data leak in uscita.

Il punto di controllo più critico si trova al layer di input. Gli intervistati indicano nei servizi per il prompt handling il singolo elemento con il maggiore impatto operativo nelle architetture AI, anteposto anche alla moderazione degli output. Il motivo è semplice: controllare l'input significa influenzare il risultato senza cedere il controllo. Il 64% delle organizzazioni consente già all'AI di modificare autonomamente policy e configurazioni, sebbene con guardrail definiti; le decisioni su sicurezza delle applicazioni, compliance e business risk restano presidio umano.

Passiamo al tema dell’AI agentica. Il 98% delle organizzazioni sta modificando le proprie applicazioni per interagire con AI agent; il 47% sta implementando infrastrutture identity-aware per gestire il traffico in base all'identità di macchine o agenti. Il nodo critico è la gestione delle identità: il 43% degli intervistati indica la crescita esplosiva delle identità da gestire come principale sfida dell'AI agentica, seguita dal furto di credenziali (36%) e dall'auditing delle azioni degli agenti (34%). Il 77% si aspetta problemi specifici di identity e access control per gli AI agent.

Un ulteriore segnale di maturità emerge dai dati sull'observability: l'utilizzo dei dati operativi per guidare automazione, insight, alerting e reportistica è passato da percentuali tra il 33% e il 51% nel 2023 a valori tra il 95% e il 97% nel 2026, il che significa che l'observability è diventata parte del sistema stesso.