L'addestramento dei modelli linguistici di grandi dimensioni (LLM) è un'attività importante, ma l'inferenza IA è una sfida in termini di costi più diffusa e spesso trascurata. L'inferenza è la procedura con cui un modello di IA addestrato elabora i nuovi dati di input e genera un output. Man mano che le organizzazioni distribuiscono questi modelli negli ambienti di produzione, i costi possono rapidamente raggiungere cifre notevoli, soprattutto a causa dei volumi elevati di token, dei prompt lunghi e delle crescenti richieste di utilizzo. Per eseguire gli LLM in modo conveniente e ad alte prestazioni, è essenziale disporre di una strategia completa.

Questo approccio affronta due aree critiche: l'ottimizzazione del runtime di inferenza e l'ottimizzazione del modello stesso.

Ottimizzazione del runtime di inferenza

I metodi di distribuzione di base spesso si scontrano con un utilizzo inefficiente della memoria della GPU, un'elaborazione dei batch non ottimale e una generazione di token lenta. È qui che un runtime di inferenza ad alte prestazioni diventa fondamentale. vLLM è la libreria open source de facto che consente agli LLM di eseguire calcoli in modo più efficiente e scalabile.

vLLM risolve queste sfide di runtime con tecniche avanzate. Ne elenchiamo alcune.

  • Batch continuo: anziché elaborare le richieste una alla volta, vLLM raggruppa i token di più sequenze in batch. Ciò riduce al minimo i tempi di inattività della GPU e migliora notevolmente l'utilizzo della GPU e il throughput dell'inferenza.
  • PagedAttention: questa strategia di gestione della memoria gestisce in modo efficiente cache KV (Key Value) di grandi dimensioni. Grazie all'allocazione e alla gestione dinamiche delle pagine di memoria della GPU, PagedAttention aumenta notevolmente il numero di richieste simultanee e supporta sequenze più lunghe senza sovrautilizzi della memoria.

Ottimizzazione del modello di IA

Oltre a ottimizzare il runtime, le organizzazioni possono anche comprimere i modelli per ridurre il footprint di memoria e i requisiti di elaborazione. Le due tecniche principali sono la quantizzazione e la sparsità.

  • Quantizzazione: questa tecnica riduce i valori numerici di un modello, in particolare i pesi e le attivazioni, utilizzando meno bit per valore. Tale processo diminuisce notevolmente la memoria necessaria per archiviare i parametri del modello. Ad esempio, un modello Llama con 70 miliardi di parametri può essere ridotto da circa 140 GB a soli 40 GB. Ciò significa che i modelli possono essere eseguiti con meno risorse e possono raddoppiare il throughput di elaborazione senza compromettere in modo significativo la precisione.
  • Sparsità: la sparsità riduce le esigenze di elaborazione impostando a zero alcuni parametri del modello, consentendo ai sistemi di ignorare le operazioni non necessarie. In questo modo è possibile ridurre notevolmente la complessità del modello, diminuendo l'utilizzo della memoria e il carico di elaborazione, con un conseguente aumento dell'inferenza e costi operativi inferiori.

Red Hat AI: come mettere in pratica la strategia 

Per aiutare le organizzazioni a implementare questo approccio strategico, il portfolio di soluzioni di Red Hat AI offre un set unificato di soluzioni per ottenere inferenze ad alte prestazioni in modo scalabile.

Red Hat AI ottimizza sia il modello che il runtime grazie a un potente set di strumenti e risorse.

  • Red Hat AI Inference Server: Red Hat fornisce un motore vLLM enterprise ready e supportato, che utilizza il batching continuo e metodi a basso consumo di memoria. Aumentando il throughput e riducendo l'utilizzo della GPU, il runtime aiuta le organizzazioni a massimizzare il ritorno sul costoso hardware per l'IA.
  • Accesso a modelli convalidati e ottimizzati: Red Hat AI fornisce l'accesso a un repository di modelli, prevalutati e testati in base alle prestazioni, che sono pronti all'uso. Questi modelli sono rigorosamente confrontati con diverse attività di valutazione e sono disponibili nel repository Red Hat AI Hugging Face che consente alle organizzazioni di ottenere un time to value più rapido.
  • Compressor LLM incluso: il toolkit LLM di Red Hat fornisce un metodo standardizzato per applicare tecniche di compressione come la quantizzazione. Questo toolkit è ciò che Red Hat utilizza per offrire modelli ottimizzati che consentono ai clienti di ottimizzare i propri modelli perfezionati o personalizzati.

Sfruttando Red Hat AI, le organizzazioni possono distribuire modelli efficienti e convenienti su un'ampia varietà di configurazioni hardware, aiutando i team a soddisfare le crescenti esigenze dell’IA e controllando i costi e la complessità.

Per sapere di più sui concetti di base dell'ingegneria per le prestazioni dell'inferenza e dell'ottimizzazione dei modelli, scarica l'ebook gratuito Get started with AI Inference.

Risorsa

Definizione della strategia aziendale per l'IA: una guida introduttiva

Leggi questa guida introduttiva per scoprire come Red Hat OpenShift AI e Red Hat Enterprise Linux AI possono accelerare il percorso di adozione dell'IA.

Sull'autore

Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.

With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.

UI_Icon-Red_Hat-Close-A-Black-RGB

Ricerca per canale

automation icon

Automazione

Novità sull'automazione IT di tecnologie, team e ambienti

AI icon

Intelligenza artificiale

Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque

open hybrid cloud icon

Hybrid cloud open source

Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido

security icon

Sicurezza

Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti

edge icon

Edge computing

Aggiornamenti sulle piattaforme che semplificano l'operatività edge

Infrastructure icon

Infrastruttura

Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale

application development icon

Applicazioni

Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili

Virtualization icon

Virtualizzazione

Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud