Rendere operativi i modelli di IA su larga scala è una sfida fondamentale per i responsabili IT. Sebbene il costo iniziale dell'addestramento di un modello linguistico di grandi dimensioni (LLM) possa essere notevole, il costo reale e spesso sottovalutato è legato all'inferenza.

L'inferenza IA, ovvero il processo di utilizzo di un modello addestrato per generare un output, è la parte di un'applicazione di IA che richiede più risorse ed è più costosa, soprattutto perché avviene costantemente durante la produzione. Un'inferenza inefficiente può compromettere il potenziale ritorno sull'investimento (ROI) di un progetto di IA e avere un impatto negativo sull'esperienza del cliente a causa dell'elevata latenza.

L'approccio completo alle prestazioni dell'IA

Rendere disponibili gli LLM in modo scalabile ed efficiente richiede un approccio a 360° che tenga conto sia del modello stesso che del runtime. Un unico approccio non è sufficiente. Per ottenere prestazioni elevate ed efficienza dei costi è necessario concentrarsi su due aspetti: gestire il consumo delle risorse e massimizzare il throughput.

L'ottimizzazione del modello di IA

Un aspetto strategico di questo approccio è la compressione del modello, che ne riduce le dimensioni e i requisiti in termini di risorse senza compromettere l’accuratezza.

La quantizzazione è una tecnica fondamentale per l'ottimizzazione dei modelli. Riduce la precisione dei valori numerici di un modello, come i pesi e le attivazioni, dai formati standard a 16 bit a formati inferiori come 8 o 4 bit. In questo modo si diminuisce notevolmente l'impatto di memoria del modello, che può essere eseguito su meno componenti hardware.

La sparsità è un altro metodo efficace che rende i modelli più efficienti eliminando le connessioni non necessarie (pesi). In questo modo la rete diventa più piccola e veloce, con un impatto minimo sulla precisione.

L'ottimizzazione del runtime di inferenza

Altrettanto importante è l'ottimizzazione del runtime di distribuzione. Spesso i runtime di base hanno un utilizzo inefficiente della memoria della GPU e una generazione di token lenta, il che porta a un'inattività delle GPU e a una latenza elevata. Un runtime ad alte prestazioni ottimizza l'utilizzo del costoso hardware GPU e riduce la latenza. 

Il progetto vLLM open source è diventato uno standard di settore per l'inferenza ad alte prestazioni perché risolve questi limiti di runtime con tecniche ottimizzate per l'efficienza.

  • Il batching continuo riduce al minimo i tempi di inattività della GPU elaborando contemporaneamente i token provenienti da più richieste. Invece di gestire una richiesta alla volta, raggruppa i token di sequenze diverse in batch. Questo approccio migliora notevolmente l'utilizzo della GPU e il throughput dell'inferenza.
  • La PagedAttention è un altro esempio. Questa nuova strategia di gestione della memoria gestisce in modo efficiente le cache KV (Key Value) su larga scala, consentendo più richieste simultanee e sequenze più lunghe, il tutto riducendo l’eccesso di utilizzo della memoria.

L'adozione dell'IA distribuita su larga scala

Per le aziende con un elevato traffico di applicazioni, i deployment su server singolo sono spesso insufficienti. Il progetto llm-d open source sfrutta le funzionalità di vLLM per abilitare l'inferenza distribuita su più nodi. Ciò consente alle organizzazioni di rendere scalabili i carichi di lavoro di IA su più server per gestire la domanda in aumento e i modelli più grandi, mantenendo prestazioni prevedibili e costi contenuti.

llm-d è un piano di controllo open source che migliora Kubernetes con funzionalità specifiche necessarie per i carichi di lavoro di IA. Il progetto si concentra sulle funzionalità che influiscono sulle prestazioni e sull'efficienza dell'inferenza. Eccone alcune.

  • Routing semantico: llm-d utilizza i dati in tempo reale per indirizzare in modo intelligente le richieste di inferenza all'istanza ottimale. In questo modo si migliora l'uso efficiente delle risorse e si riduce il costoso over-provisioning.
  • Disaggregazione dei carichi di lavoro: separa le fasi di precompilazione e decodifica, in modo da utilizzare la risorsa più ottimale per l'attività giusta.
  • Supporto per architetture avanzate: llm-d è progettato per gestire le architetture di modelli emergenti, come Mix of Expert (MoE), che richiedono orchestrazione e parallelismo su più nodi.

Creando un piano di controllo flessibile che funziona su hardware e ambienti diversi, la community llm-d sta lavorando per stabilire uno standard per l'IA aziendale su larga scala.

Red Hat semplifica l'IA in modo scalabile

L'adozione dell'IA a livello aziendale non implica solo la selezione di un modello. Richiede una strategia per lo sviluppo, il deployment e la gestione in un'infrastruttura cloud ibrida. Red Hat offre un portafoglio di prodotti enterprise-ready progettati per semplificare e accelerare questo processo, dallo sviluppo iniziale del modello all'inferenza scalabile.

Red Hat AI

La gamma di soluzioni di Red Hat AI offre un approccio completo all'ottimizzazione dell'IA. Questa offerta integrata include Red Hat Enterprise Linux AI (RHEL AI), Red Hat OpenShift AI e Red Hat AI Inference Server.

  • RHEL AI fornisce una base per lo sviluppo dell'IA, poiché raggruppa RHEL con componenti open source chiave come i modelli Granite di IBM e le librerie come PyTorch. La piattaforma è portabile e può essere eseguita on premise, nel cloud pubblico o all'edge.
  • Red Hat OpenShift AI si basa su Red Hat OpenShift ed è una soluzione ideata per gestire l'intero ciclo di vita dell'IA. Offre un ambiente coerente in cui data scientist, sviluppatori e team IT possono collaborare. Rende scalabili i carichi di lavoro di IA negli ambienti cloud ibridi e semplifica la gestione degli acceleratori hardware.
  • Red Hat AI Inference Server ottimizza l'inferenza fornendo una distribuzione supportata di vLLM, sviluppata per prestazioni a bassa latenza e throughput elevato. Fornita come container, questa soluzione è impiegabile su infrastrutture diverse e include uno strumento di compressione dei modelli per ridurre l'utilizzo di risorse di elaborazione. Red Hat AI Inference Server è compatibile con il progetto llm-d open source.

Per i responsabili IT, il percorso verso una strategia di IA completa per il cloud ibrido è il modo più efficace ai fini di rendere l'IA operativa in modo scalabile. Red Hat AI offre una base coerente per aiutare le organizzazioni a passare dalla sperimentazione dell'IA a un'IA completa e pronta per la produzione, basata sulla nostra visione: qualsiasi modello, qualsiasi acceleratore, qualsiasi cloud.

Scopri di più

Per iniziare il percorso della tua organizzazione verso un'IA scalabile e semplificata, consulta le risorse disponibili sul sito web di Red Hat AI.


Sull'autore

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

UI_Icon-Red_Hat-Close-A-Black-RGB

Ricerca per canale

automation icon

Automazione

Novità sull'automazione IT di tecnologie, team e ambienti

AI icon

Intelligenza artificiale

Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque

open hybrid cloud icon

Hybrid cloud open source

Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido

security icon

Sicurezza

Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti

edge icon

Edge computing

Aggiornamenti sulle piattaforme che semplificano l'operatività edge

Infrastructure icon

Infrastruttura

Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale

application development icon

Applicazioni

Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili

Virtualization icon

Virtualizzazione

Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud