L'addestramento dei modelli linguistici di grandi dimensioni (LLM) è un'attività importante, ma l'inferenza IA è una sfida in termini di costi più diffusa e spesso trascurata. L'inferenza è la procedura con cui un modello di IA addestrato elabora i nuovi dati di input e genera un output. Man mano che le organizzazioni distribuiscono questi modelli negli ambienti di produzione, i costi possono rapidamente raggiungere cifre notevoli, soprattutto a causa dei volumi elevati di token, dei prompt lunghi e delle crescenti richieste di utilizzo. Per eseguire gli LLM in modo conveniente e ad alte prestazioni, è essenziale disporre di una strategia completa.
Questo approccio affronta due aree critiche: l'ottimizzazione del runtime di inferenza e l'ottimizzazione del modello stesso.
Ottimizzazione del runtime di inferenza
I metodi di distribuzione di base spesso si scontrano con un utilizzo inefficiente della memoria della GPU, un'elaborazione dei batch non ottimale e una generazione di token lenta. È qui che un runtime di inferenza ad alte prestazioni diventa fondamentale. vLLM è la libreria open source de facto che consente agli LLM di eseguire calcoli in modo più efficiente e scalabile.
vLLM risolve queste sfide di runtime con tecniche avanzate. Ne elenchiamo alcune.
- Batch continuo: anziché elaborare le richieste una alla volta, vLLM raggruppa i token di più sequenze in batch. Ciò riduce al minimo i tempi di inattività della GPU e migliora notevolmente l'utilizzo della GPU e il throughput dell'inferenza.
- PagedAttention: questa strategia di gestione della memoria gestisce in modo efficiente cache KV (Key Value) di grandi dimensioni. Grazie all'allocazione e alla gestione dinamiche delle pagine di memoria della GPU, PagedAttention aumenta notevolmente il numero di richieste simultanee e supporta sequenze più lunghe senza sovrautilizzi della memoria.
Ottimizzazione del modello di IA
Oltre a ottimizzare il runtime, le organizzazioni possono anche comprimere i modelli per ridurre il footprint di memoria e i requisiti di elaborazione. Le due tecniche principali sono la quantizzazione e la sparsità.
- Quantizzazione: questa tecnica riduce i valori numerici di un modello, in particolare i pesi e le attivazioni, utilizzando meno bit per valore. Tale processo diminuisce notevolmente la memoria necessaria per archiviare i parametri del modello. Ad esempio, un modello Llama con 70 miliardi di parametri può essere ridotto da circa 140 GB a soli 40 GB. Ciò significa che i modelli possono essere eseguiti con meno risorse e possono raddoppiare il throughput di elaborazione senza compromettere in modo significativo la precisione.
- Sparsità: la sparsità riduce le esigenze di elaborazione impostando a zero alcuni parametri del modello, consentendo ai sistemi di ignorare le operazioni non necessarie. In questo modo è possibile ridurre notevolmente la complessità del modello, diminuendo l'utilizzo della memoria e il carico di elaborazione, con un conseguente aumento dell'inferenza e costi operativi inferiori.
Red Hat AI: come mettere in pratica la strategia
Per aiutare le organizzazioni a implementare questo approccio strategico, il portfolio di soluzioni di Red Hat AI offre un set unificato di soluzioni per ottenere inferenze ad alte prestazioni in modo scalabile.
Red Hat AI ottimizza sia il modello che il runtime grazie a un potente set di strumenti e risorse.
- Red Hat AI Inference Server: Red Hat fornisce un motore vLLM enterprise ready e supportato, che utilizza il batching continuo e metodi a basso consumo di memoria. Aumentando il throughput e riducendo l'utilizzo della GPU, il runtime aiuta le organizzazioni a massimizzare il ritorno sul costoso hardware per l'IA.
- Accesso a modelli convalidati e ottimizzati: Red Hat AI fornisce l'accesso a un repository di modelli, prevalutati e testati in base alle prestazioni, che sono pronti all'uso. Questi modelli sono rigorosamente confrontati con diverse attività di valutazione e sono disponibili nel repository Red Hat AI Hugging Face che consente alle organizzazioni di ottenere un time to value più rapido.
- Compressor LLM incluso: il toolkit LLM di Red Hat fornisce un metodo standardizzato per applicare tecniche di compressione come la quantizzazione. Questo toolkit è ciò che Red Hat utilizza per offrire modelli ottimizzati che consentono ai clienti di ottimizzare i propri modelli perfezionati o personalizzati.
Sfruttando Red Hat AI, le organizzazioni possono distribuire modelli efficienti e convenienti su un'ampia varietà di configurazioni hardware, aiutando i team a soddisfare le crescenti esigenze dell’IA e controllando i costi e la complessità.
Per sapere di più sui concetti di base dell'ingegneria per le prestazioni dell'inferenza e dell'ottimizzazione dei modelli, scarica l'ebook gratuito Get started with AI Inference.
Risorsa
Definizione della strategia aziendale per l'IA: una guida introduttiva
Sull'autore
Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.
With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.
Altri risultati simili a questo
AI quickstarts: An easy and practical way to get started with Red Hat AI
Resilient model training on Red Hat OpenShift AI with Kubeflow Trainer
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Ricerca per canale
Automazione
Novità sull'automazione IT di tecnologie, team e ambienti
Intelligenza artificiale
Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque
Hybrid cloud open source
Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido
Sicurezza
Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti
Edge computing
Aggiornamenti sulle piattaforme che semplificano l'operatività edge
Infrastruttura
Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale
Applicazioni
Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili
Virtualizzazione
Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud