L'IA scalabile a un costo contenuto: perché le aziende scelgono l’approccio Models-as-a-Service

10 giugno 2025Ishu Verma, Ritesh Shah, Juliano Mohr7 minuti (tempo di lettura)

Con l'aumento delle soluzioni di IA nelle aziende, l'utilizzo dei modelli pubblici diventa sempre più costoso e cresce anche il rischio di esposizione dei dati aziendali a terze parti. L'approccio Models-as-a-Service (MaaS) consente alle aziende di offrire modelli open source (e lo stack tecnologico di IA necessario) che possono essere utilizzati come risorse condivise dall'intera azienda.

L'accelerazione dell'adozione dell'IA in azienda spesso incide sulla coerenza, poiché ogni unità organizzativa si impegna a creare soluzioni di IA personalizzate che coprono un'ampia gamma di scenari di utilizzo (chatbot, assistente per la scrittura di codice, generazione di testo/immagini, ecc.).

Introduzione a Models-as-a-Service

L'analisi di IDC sulle tendenze di adozione dell'IA descrive come le aziende passino dalla scelta di soluzioni una tantum alle soluzioni gestite che possono trasformare l'intera organizzazione.

Spesso ogni unità organizzativa richiede diversi tipi di modelli di IA per soddisfare scenari di utilizzo specifici. Di seguito alcuni esempi.

Modelli di generativa (IA gen): utilizzati per creare nuovi contenuti, come testo o immagini;
Modelli di IA predittiva: utilizzati per classificare o prevedere i modelli nei dati;
Modelli di IA ottimizzati: modelli personalizzati con dati specifici di un'azienda o di un dominio;
Retrieval augmented generation (RAG) migliora le informazioni generiche del modello con dati specifici di un'azienda o di un dominio.

I modelli di IA generativa a cui è possibile accedere tramite servizi in hosting di terze parti, come OpenAI, Claude e Gemini, sono facili da utilizzare ma diventano molto costosi se utilizzati in modo scalabile. Implicano anche problemi di privacy e sicurezza dei dati, poiché i dati aziendali possono essere esposti a terze parti. I modelli di IA generativa e altri possono essere accessibili tramite self hosting dell'azienda, ma questo approccio può causare la duplicazione delle attività tra le varie unità organizzative, con un conseguente aumento dei costi e dei tempi di rilascio.

Con l'alta frequenza di rilascio dei nuovi modelli di IA generativa e la velocità dei progressi dell'IA, per le aziende è quasi impossibile tenere il passo. Esistono decine di opzioni di modelli, da quelli di dimensioni molto grandi (450 miliardi di parametri) a quelli più piccoli (quantizzati o con meno parametri) fino alle combinazioni di modelli esperti. Molti sviluppatori non dispongono delle competenze necessarie per scegliere il modello giusto o per utilizzare in modo ottimale risorse costose, come le GPU.

Per ogni unità organizzativa che crea le proprie soluzioni di IA, le aziende devono affrontare diverse sfide.

Costi elevati: il deployment e la gestione dei modelli di IA richiedono cluster GPU costosi, competenze di machine learning (ML) e fine tuning continuo. L'addestramento e l'ottimizzazione dei modelli in azienda possono costare milioni di euro in risorse di elaborazione, storage e personale qualificato. Inoltre, i costi dei modelli possono diventare imprevedibili in assenza di una governance centralizzata.
Duplicazione: la duplicazione o un utilizzo non efficiente di risorse di IA già scarse può portare a sprechi di budget.
Complessità: gli sviluppatori vogliono solo accedere al modello, senza doversi occupare della complessità dell'infrastruttura o delle tecnologie di IA in continua evoluzione.
Carenza di competenze: le aziende non hanno a disposizione gli ingegneri ML, i data scientist e i ricercatori in ambito di IA necessari per creare modelli personalizzati.
Controllo operativo: se più gruppi lavorano in modo autonomo alle proprie iniziative di IA, le aziende devono gestire la scalabilità, il controllo delle versioni e i drift del modello.

È quindi indispensabile individuare l'approccio migliore per sfruttare lo slancio dell'IA senza spendere troppo.

MaaS come soluzione

L’approccio MaaS consente alle aziende di offrire modelli open source (e la necessaria tecnologia di IA) da utilizzare come risorse condivise. Di fatto, il team IT aziendale diventa il provider di servizi di IA che tutta l'azienda può utilizzare.

Gli utenti possono scegliere tra modelli all'avanguardia e modelli linguistici quantizzati o di piccole dimensioni (SLM), con un ordine di grandezza inferiore ma con prestazioni simili a un costo contenuto. I modelli possono essere ottimizzati e personalizzati con dati aziendali privati ed eseguiti su hardware meno potenti e con minor consumo energetico. La presenza di più istanze dei modelli permette di gestire diversi scenari di utilizzo e ambienti di deployment. Questi modelli possono essere erogati in modo efficiente, così da sfruttare al meglio le risorse hardware disponibili.

Sono inoltre facilmente accessibili agli sviluppatori, che possono quindi dedicarsi alla realizzazione delle app di IA senza occuparsi delle complessità dell'infrastruttura alla base, come le GPU.

Il team IT aziendale può monitorare l'utilizzo dei modelli da parte delle varie unità organizzative e addebitare il rispettivo consumo dei servizi di IA. Il team può anche applicare le procedure consigliate per la gestione dell'IA per semplificare il deployment e la manutenzione dei modelli (ad esempio il controllo delle versioni o i test di regressione).

Di seguito alcuni dei vantaggi ottenuti quando il team IT diventa il provider privato di IA di un'azienda.

Riduzione della complessità: il MaaS centralizzato aiuta a eliminare la complessità dell'infrastruttura di IA per gli utenti.
Riduzione dei costi: aiuta a ridurre i costi fornendo servizi di inferenza dei modelli in modo centralizzato.
Maggiore sicurezza: aderenza alle policy esistenti in materia di sicurezza, dati e privacy, evitando l'utilizzo di modelli in hosting di terzi.
Innovazione più rapida: il deployment più veloce dei modelli e l'innovazione che li caratterizza si traducono in tempi di rilascio più brevi per le applicazioni di IA.
Nessuna duplicazione: evita la duplicazione delle risorse di IA già scarse tra le varie unità; i data scientist possono fornire i modelli ottimizzati necessari per le attività aziendali comuni.
Libertà di scelta: elimina il vendor lock in e garantisce la portabilità dei carichi di lavoro di IA.

Come funziona l'approccio MaaS

Questo stack di soluzioni MaaS è composto da Red Hat OpenShift AI, il gateway API (incluso in Red Hat 3scale API Management) e Red Hat Single Sign-On (SSO). In un'unica piattaforma, fornisce governance dell'IA end to end, accesso zero trust (versione Red Hat di Keycloak), server di inferenza dell'IA (vLLM) e la flessibilità del cloud ibrido (OpenShift AI). Inoltre, utilizza strumenti coerenti per il deployment della soluzione on premise e nel cloud con Red Hat OpenShift.

Logical view of Model-as-a-Service solution

Osserviamo ogni componente in modo più dettagliato.

Gateway API

Il gateway API offre un controllo delle API del modello di livello enterprise. Questo stack di soluzioni si basa su 3Scale API Gateway, ma è possibile utilizzare qualsiasi gateway API di livello enterprise. Ecco alcuni vantaggi del gateway API:

Sicurezza e conformità
- Applicazione dell'autenticazione API tramite JWT/OAuth2 per l'accesso
- Crittografia di tutto il traffico API da e verso i servizi LLM
- Log di audit per la conformità (GDPR, HIPAA, SOC2)
Ottimizzazione dell'utilizzo
- Impostazione di limiti di frequenza e quote per evitare il superamento dei costi
- Monitoraggio dell'utilizzo delle API LLM per team o per progetto
- Identificazione degli endpoint inutilizzati o sovrautilizzati
Supporto per il deployment ibrido
- Gestione coerente delle API nel cloud e on premise (tramite l'integrazione di OpenShift)
- Deployment di gateway API dedicati per le istanze LLM private
Preparazione degli sviluppatori
- Portale degli sviluppatori self service per l'individuazione delle API LLM
- Documentazione e test automatizzati delle API
Integrazione di OpenShift AI
- Applicazione della governance per i modelli distribuiti su OpenShift AI
- Monitoraggio dell'utilizzo delle API AI/ML insieme ai servizi tradizionali

Autenticazione

Il componente di autenticazione permette la gestione unificata delle identità per i servizi LLM. Questo stack di soluzioni si basa su Red Hat SSO, ma è possibile utilizzare qualsiasi altra soluzione di autenticazione di livello enterprise. Ecco alcuni dei vantaggi dell'autenticazione:

Sicurezza zero trust
- Autenticazione centralizzata per tutti gli strumenti LLM (OIDC/SAML)
- Controllo degli accessi basato sui ruoli (RBAC) per autorizzazioni granulari
- Supporto dell'autenticazione a più fattori per carichi di lavoro di IA sensibili
Integrazione delle identità aziendali
- Connessione ad Active Directory, LDAP o altri provider di identità
- Automazione di provisioning e deprovisioning degli utenti
Gestione scalabile degli accessi
- Single sign-on per tutti i portali di IA interni
- Gestione delle sessioni per la conformità
Cloud ready per ambienti ibridi
- Accesso sicuro agli LLM ovunque siano eseguiti (cloud pubblico o on premise)
- Policy coerenti in tutti gli ambienti

Integrazione di OpenShift AI

Single sign-on per endpoint dei modelli e dashboard di OpenShift AI
Identità unificata per gli utenti della piattaforma e per gli utenti delle API

Server di inferenza

Questo stack di soluzioni utilizza vLLM come server di inferenza. Il framework vLLM supporta modelli multimodali, incorporamenti e modellazione delle ricompense ed è sempre più utilizzato nei flussi di lavoro con apprendimento per rinforzo da feedback umano (RLHF). Grazie a funzionalità come la pianificazione avanzata, la precompilazione dei blocchi, il batching Multi-LoRA e gli output strutturati, vLLM è ottimizzato sia per l'accelerazione dell'inferenza che per il deployment su larga scala.

Il framework fornisce anche strumenti di compressione per gli LLM che consentono ai clienti di perfezionare i propri modelli ottimizzati.

Piattaforma di IA

Questo stack di soluzioni utilizza OpenShift AI per fornire modelli e applicazioni innovative. OpenShift AI semplifica ogni aspetto dell'IA, permettendo l'acquisizione e la preparazione dei dati, l'addestramento, il fine tuning, la fornitura e il monitoraggio dei modelli, oltre all'accelerazione dell'hardware.

L'ultima versione di OpenShift AI è progettata per aumentare l'efficienza fornendo l'accesso a modelli più piccoli e pre-ottimizzati. Inoltre, aiuta a gestire i costi di inferenza distribuendo l'erogazione tramite un framework vLLM.

OpenShift AI è disponibile come software autogestito o come servizio cloud completamente gestito in aggiunta a OpenShift e offre una piattaforma sicura e flessibile che consente di scegliere dove sviluppare e distribuire i modelli: on premise, nel cloud pubblico o all'edge.

Developer and user workflows for Model-as-a-Service solution

Considerazioni finali

Mano a mano che le aziende realizzano e ridimensionano varie soluzioni di IA, l'utilizzo di modelli in hosting di terze parti diventa molto costoso e comporta rischi spesso inaccettabili per la privacy dei dati, poiché i dati aziendali sono esposti a queste terze parti. I modelli di IA con hosting autonomo possono contribuire a tutelare la privacy dei dati, ma anche comportare una duplicazione delle attività tra le varie unità organizzative, aumentando i costi e rallentando i tempi di rilascio.

Il nuovo approccio Models-as-a-Service (MaaS) consente alle aziende di fornire modelli open source che possono essere utilizzati come risorse condivise dall'intera azienda. Sono inoltre facilmente accessibili agli sviluppatori, che possono quindi dedicarsi alla realizzazione delle app di IA senza occuparsi delle complessità dell'infrastruttura alla base. Il team IT aziendale può monitorare l'utilizzo dei modelli da parte delle varie unità organizzative e addebitare a ogni team o progetto il rispettivo consumo dei servizi di IA.

L'approccio MaaS consente alle aziende di passare dalle opportunità di IA una tantum supportando le capacità di IA dell'intera organizzazione.

Scopri di più

Approfondisci l'Architettura della soluzione MaaS o leggi la breve panoramica della soluzione.
Visita il repository Model as a Service per configurare la tua soluzione MaaS.
Contatta Red Hat Consulting per conoscere i servizi aggiuntivi.
Scopri i vantaggi della quantizzazione.
Guarda InstructLab in azione.

¹ IDC Directions, Completing the Agentic Journey, aprile 2025

Sugli autori

Ishu Verma

Emerging Technology Evangelist

Ishu Verma is Technical Evangelist at Red Hat focused on emerging technologies like edge computing, IoT and AI/ML. He and fellow open source hackers work on building solutions with next-gen open source technologies. Before joining Red Hat in 2015, Verma worked at Intel on IoT Gateways and building end-to-end IoT solutions with partners. He has been a speaker and panelist at IoT World Congress, DevConf, Embedded Linux Forum, Red Hat Summit and other on-site and virtual forums. He lives in the valley of sun, Arizona.

Read full bio

Ritesh Shah

Principal Architect

Ritesh Shah is a Principal Architect with the Red Hat Portfolio Technology Platform team and focuses on creating and using next-generation platforms, including artificial intelligence/machine learning (AI/ML) workloads, application modernization and deployment, Disaster Recovery and Business Continuity as well as software-defined data storage.

Ritesh is an advocate for open source technologies and products, focusing on modern platform architecture and design for critical business needs. He is passionate about next-generation platforms and how application teams, including data scientists, can use open source technologies to their advantage. Ritesh has vast experience working with and helping enterprises succeed with open source technologies.

Read full bio

Juliano Mohr

Principal Architect

Juliano Mohr is a Principal Architect at Red Hat, where he builds demos, labs, and workshops for the Red Hat demo platform. He was previously a Consulting Architect at Red Hat, applying his expertise in application development to support digital transformation. During his global career, he has deepened his knowledge in agile, DevOps, and modern software practices.

Read full bio