Oggi, il potenziale di trasformazione di un modello di linguaggio di grandi dimensioni (LLM) è evidente, ma il deployment efficiente di questi potenti modelli in produzione può essere difficile.

Questa sfida non è nuova. In un recente episodio del podcast Technically Speaking, Chris Wright ha parlato con Nick Hill, Principal Software Engineer di Red Hat, che anni fa ha lavorato alla commercializzazione del sistema originale IBM Watson "Jeopardy!". Hill ha evidenziato che i primi sforzi si concentravano sull'ottimizzazione di Watson da una stanza piena di server a una singola macchina, affermando che l'ingegneria a livello di sistema è la chiave per sfruttare il potenziale dell'IA.

Wright e Hill hanno anche discusso di come questo stesso principio si applichi ai moderni LLM e al progetto open source vLLM, che sta rivoluzionando l'inferenza dell'IA, rendendo l'IA più pratica, efficiente e scalabile.

Cos'è vLLM?

vLLM è un server di inferenza che affronta direttamente i problemi di efficienza e scalabilità che si incontrano quando si lavora con l'IA generativa (gen AI). Ottimizzando l'uso delle costose risorse della GPU, vLLM mette l’efficienza dell'IA più accessibile e applicabile.

Red Hat partecipa attivamente al progetto vLLM in qualità di importante collaboratore commerciale. Abbiamo integrato in Red Hat AI Inference Server una versione di vLLM rafforzata, supportata e predisposta per le aziende. Questo prodotto è disponibile come offerta containerizzata standalone o come componente chiave del portafoglio più ampio Red Hat AI, che include Red Hat Enterprise Linux AI (RHEL AI) e Red Hat OpenShift AI. La collaborazione con la community vLLM è un elemento chiave della nostra strategia di IA open source più ampia.

Perché vLLM è importante per l'inferenza LLM

L'inferenza LLM è il processo in cui un modello di IA applica il proprio addestramento a nuovi dati o query e presenta alcune complessità intrinseche. I metodi di inferenza tradizionali possono risultare inefficienti a causa della generazione sequenziale di token e del basso utilizzo della GPU, con conseguente latenza elevata sotto carico, architetture poco flessibili e non scalabili, e vincoli sulla larghezza di banda della memoria.

vLLM offre un approccio semplificato. Il suo obiettivo principale è massimizzare l'utilizzo e la produttività della GPU, e raggiunge questo obiettivo attraverso una serie di ottimizzazioni essenziali.

  • PagedAttention: questa importante innovazione utilizza un concetto simile alla memoria virtuale di un computer per gestire in modo efficiente la cache chiave-valore (KV). La cache KV è il dato intermedio che un modello deve ricordare da un token all'altro.
  • Batch continuo: questa tecnica consente al server di inferenza di elaborare in modo efficiente le nuove richieste in arrivo mentre un batch è già in fase di elaborazione, riducendo i tempi di inattività e aumentando il throughput complessivo.
  • Altre ottimizzazioni critiche: vLLM sfrutta anche tecniche come la decodifica speculativa, che utilizza un modello più piccolo e più veloce per prevedere i token successivi, e i kernel CUDA ottimizzati per massimizzare le prestazioni su hardware specifico.

vLLM funge da livello di interfaccia che aiuta a gestire il flusso di dati complessivo, il batching e la pianificazione, consentendo agli LLM di integrarsi con un'ampia gamma di hardware e applicazioni.

Vantaggi strategici per l'IA aziendale

Il vLLM è tecnicamente interessante, ma offre anche importanti vantaggi strategici per i responsabili IT. Le ottimizzazioni di vLLM consentono di gestire i costi, aumentare la scalabilità e mantenere un controllo più rigoroso sullo stack tecnologico.

Democratizza l'IA e ottimizza i costi

vLLM aiuta la tua organizzazione a sfruttare al meglio l'hardware esistente. Aumentando notevolmente l'utilizzo della GPU, aiuta a ridurre l’hardware necessario per eseguire i carichi di lavoro; questo, a sua volta, contribuisce a ridurre i costi. In questo modo le capacità di IA avanzate sono più accessibili a un numero maggiore di team.

Ottieni un’IA scalabile senza rinunciare alla sicurezza

L'utilizzo ottimizzato della GPU e i tempi di risposta più rapidi si traducono direttamente nel supporto di deployment di modelli e applicazioni più grandi. La tua organizzazione può servire più utenti e gestire carichi di lavoro di IA più complessi senza compromettere le prestazioni. In questo modo è possibile ottenere una scalabilità di livello enterprise, essenziale per trasferire i progetti di IA da un ambiente di prova all'ambiente di produzione.

Adattabilità dell'hardware e scelta più ampia

La natura open source di vLLM e il suo ampio supporto per vari acceleratori hardware, da aziende come NVIDIA, AMD e Intel, insieme ai modelli più diffusi di provider come Meta, Mistral e IBM, sono un vantaggio strategico fondamentale. In questo modo la tua organizzazione può offrire una maggiore flessibilità nella scelta delle soluzioni hardware e aiutarti a mantenere la possibilità di scegliere gli acceleratori più adatti alle tue esigenze specifiche, anche se sono dinamiche.

Innovazione accelerata e impatto sulla community

Una community open source attiva come quella di vLLM offre vantaggi notevoli. La community è attiva e in crescita, e questo porta a una rapida integrazione di nuove scoperte e miglioramenti. La rapidità dello sviluppo e dell'innovazione ha contribuito a far diventare vLLM uno standard per l'inferenza LLM, consentendo alle aziende di beneficiare costantemente delle innovazioni più recenti.

IA di livello enterprise con vLLM

L'obiettivo di Red Hat è rendere l'IA pratica, trasparente e accessibile nel cloud ibrido. vLLM è una pietra miliare di questa strategia e un fattore chiave nella nostra visione guida, "qualsiasi modello, qualsiasi acceleratore, qualsiasi cloud".

Red Hat AI Inference Server

Abbiamo integrato vLLM in Red Hat AI Inference Server, una distribuzione di vLLM rafforzata, supportata e pronta per le aziende. Oltre al nostro repository di modelli di terze parti ottimizzati e convalidati, forniamo strumenti come LLM Compressor, che aiutano a distribuire deployment più rapidi ed economici negli ambienti hybrid cloud.

Proprio come Red Hat ha contribuito a unificare il frammentato panorama di Linux, Red Hat AI Inference Server, basato su vLLM, offre un livello di unificazione simile per l'inferenza dell'IA. Questo aiuta a semplificare i deployment complessi per le organizzazioni che necessitano di un modo coerente e affidabile per eseguire i carichi di lavoro di IA.

L'unificazione dell'infrastruttura di IA

Red Hat AI Inference Server è disponibile come offerta containerizzata standalone. Inoltre, svolge un ruolo fondamentale nel portafoglio Red Hat AI:

  • i componenti principali sono inclusi in Red Hat Enterprise Linux AI (RHEL AI), che fornisce una piattaforma di base per lo sviluppo, il test e il deployment di LLM;
  • è un componente chiave di Red Hat OpenShift AI, una piattaforma MLOps integrata per la gestione dell'intero ciclo di vita dei modelli di IA su larga scala;
  • inoltre, il nostro repository di modelli ottimizzati Hugging Face offre l'accesso a modelli di terze parti convalidati e pre-ottimizzati per l'esecuzione efficiente su vLLM, come Llama, Mistral, Qwen e Granite.

Il nostro impegno nei confronti della community open source continua. Oltre al nostro coinvolgimento con la community vLLM, abbiamo anche lanciato il progetto llm-d, un framework di inferenza LLM distribuito Kubernetes-native ad alte prestazioni, che incorpora vLLM. Questa nuova iniziativa include altri collaboratori come Google e NVIDIA, ed è pensata per aiutare nell’esecuzione dell'IA generativa su larga scala, offrendo prestazioni competitive per la maggior parte dei modelli su vari acceleratori hardware.

I vantaggi di Red Hat

Red Hat AI offre una piattaforma di IA aziendale completa per l'addestramento dei modelli e l'inferenza, che offre maggiore efficienza, un'esperienza semplificata e la flessibilità necessaria per il deployment ovunque nel cloud ibrido. Il nostro obiettivo è rendere l'IA pratica, trasparente e accessibile, e il nostro portafoglio è progettato per aiutarti a creare ed eseguire soluzioni di IA adatte alla tua azienda, dagli esperimenti iniziali alla messa in produzione.

Il nostro approccio al cloud ibrido ti offre la libertà di implementare l'IA nel modo che preferisci, che si tratti di modernizzare le applicazioni esistenti o di crearne di nuove. Inoltre, offriamo formazione e certificazione sull'IA, inclusi corsi AI Foundations gratuiti, per aiutare i tuoi team a sviluppare le competenze di IA di cui la tua azienda ha bisogno.


Sull'autore

The Technically Speaking team is answering one simple question: What’s next for enterprise IT? But they can’t answer that question alone. They speak to tech experts and industry leaders who are working on innovative tools. Tune in to their show for a front-row seat to the industry’s visions for the future of technology.

UI_Icon-Red_Hat-Close-A-Black-RGB

Ricerca per canale

automation icon

Automazione

Novità sull'automazione IT di tecnologie, team e ambienti

AI icon

Intelligenza artificiale

Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque

open hybrid cloud icon

Hybrid cloud open source

Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido

security icon

Sicurezza

Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti

edge icon

Edge computing

Aggiornamenti sulle piattaforme che semplificano l'operatività edge

Infrastructure icon

Infrastruttura

Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale

application development icon

Applicazioni

Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili

Virtualization icon

Virtualizzazione

Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud