Cos'è vLLM?
vLLM è un server di inferenza che accelera i processi di inferenza dell'IA gen nei modelli linguistici di grandi dimensioni (LLM) ottimizzando l'uso dello storage di memoria e delle unità di elaborazione grafica (GPU).
Un utilizzo più efficiente delle GPU si traduce in LLM capaci di eseguire calcoli in modo rapido e scalabile. Questo è un aspetto cruciale per le aziende che necessitano di applicazioni in tempo reale, come chatbot o flussi di lavoro multimodali.
In questo articolo illustreremo come tre note aziende utilizzano vLLM per erogare servizi all'avanguardia.
Il ruolo di vLLM per l'inferenza IA
Durante l'inferenza gli LLM utilizzano coppie chiave-valore per eseguire un numero elevato di calcoli matematici in poco tempo.
Per comprendere il linguaggio ed elaborare le risposte, gli LLM si servono di coppie chiave-valore, ovvero associano un valore numerico a ogni token (termini o frasi). Ciascun token (chiave) è quindi associato a un numero (valore) e questo permette al modello di calcolare le risposte.
L'inferenza IA si divide in due fasi principali e l'impiego di coppie chiave-valore è alla base di entrambe:
- Precompilazione, ovvero la fase in cui il modello elabora il prompt iniziale. Le coppie chiave-valore per ciascun token vanno a formare la cache chiave-valore (KV), che funge da memoria a breve termine del modello.
- Decodifica, ovvero la fase in cui il modello genera nuovi token. Il modello sfrutta la cache KV esistente per calcolare le coppie chiave-valore di una risposta.
Gli LLM memorizzano nella cache KV le coppie chiave-valore per ogni token elaborato. La cache cresce in base alla lunghezza dei prompt e agli output generati e può richiedere uno storage di memoria considerevole. I sistemi tradizionali di gestione della memoria degli LLM non prevedono di organizzare i calcoli e ottimizzare l'uso della memoria, e non sono quindi in grado di garantire modelli efficienti.
vLLM utilizza una tecnica di gestione della memoria che analizza l'utilizzo della cache KV durante l'inferenza. Recupera i dati della cache in modo da identificare le coppie chiave-valore che si ripetono per evitare la frammentazione della memoria e alleggerire il lavoro del modello. Questa tecnica permette di ottimizzare l'uso della memoria delle GPU e accelerare l'inferenza.
4 elementi chiave da considerare per l'implementazione dell'IA
Perché con vLLM le GPU richiedono minor storage?
vLLM sfrutta diverse tecnologie e tecniche per ridurre l'utilizzo di storage e accelerare l'inferenza:
- Batching continuo: si verifica quando il modello LLM avvia il processo di inferenza per il batch di token successivo anche se i calcoli per il token precedente non sono ancora terminati (vLLM può svolgere più attività contemporaneamente).
- PagedAttention: è una tecnologia innovativa che utilizza la cache KV per ricordare i token precedenti e sfruttarne la memoria per risparmiare spazio nella GPU.
- Decodifica speculativa: si utilizza un modello più piccolo e veloce per prevedere i token futuri. Questa tecnica permette di accelerare la fase di precompilazione.
- Quantizzazione: i parametri di modelli più grandi vengono compressi in formati più piccoli per ridurre le esigenze di storage senza sacrificare la precisione. Esistono diverse tecniche di quantizzazione per personalizzare i modelli.
Riuscire a ridurre di qualche unità il numero di token elaborati o impiegare qualche secondo in meno per generare una risposta potrebbero sembrare risultati trascurabili. Pensiamo però a un'azienda che applichi le stesse tecniche a migliaia di carichi di lavoro di IA, GPU e calcoli dei server di inferenza. In questo caso il risparmio di tempo, denaro e risorse sarebbe notevole.
Le tecniche di risparmio della memoria sono un elemento imprescindibile per le organizzazioni che desiderano estendere l'IA all'intera azienda.
Perché le aziende scelgono vLLM?
Le organizzazioni utilizzano l'inferenza IA per carichi di lavoro ad alto volume e ad alta variabilità. Tuttavia, per distribuire gli LLM in modo coerente e scalabile è necessario disporre di un’elevata potenza di elaborazione, risorse e competenze operative specializzate.
vLLM permette di superare queste difficoltà razionalizzando l'utilizzo degli hardware necessari a supportare i processi di inferenza IA in contesti enterprise. Questo è il motivo per cui vLLM è particolarmente interessante per i settori che hanno bisogno di flessibilità, controllo e velocità.
Essendo una soluzione open source, vLLM consente alle aziende di:
- Possedere e gestire le proprie GPU.
- Controllare i propri dati.
- Sperimentare con nuovi modelli appena vengono rilasciati.
La soluzione offre anche massima libertà, riduce il costo per token e limita i problemi di privacy.
vLLM è compatibile con un'ampia gamma di hardware, come GPU NVIDIA e AMD, TPU Google, Intel Gaudi e AWS Neuron, e si può distribuire in diversi ambienti, come cloud, datacenter ed edge della rete.
Scenari di utilizzo aziendali di vLLM
Dai processi di selezione del personale ai giochi online, l'inferenza su larga scala è un'attività che può diventare complessa molto rapidamente.
Illustriamo ora i risultati di tre aziende che utilizzano con successo il progetto open source vLLM. Non si tratta di clienti Red Hat, ma sono organizzazioni che hanno scelto di affidarsi alla community vLLM e adottare la tecnologia che sviluppa.
In che modo Roblox utilizza vLLM?
Roblox è una piattaforma di gaming online che ospita milioni di utenti in tutto il mondo. Questi possono sia creare le loro esperienze di gioco che provare quelle sviluppate da altri.
La sua ultima funzionalità, Assistant, un chatbot basato sull'IA e progettato per snellire la creazione di contenuti, ha portato il numero di token elaborati a oltre un miliardo la settimana. Inoltre, la piattaforma offre anche altre funzionalità che complicano ulteriormente l'inferenza, come la traduzione in tempo reale delle chat tramite IA e un modello di sicurezza vocale. In questo caso la multimodalità si applica a milioni di interazioni tra utenti, il che aumenta significativamente il numero di token da elaborare e le risorse necessarie per l'inferenza.
Per gestire i costanti incrementi di elaborazione Roblox ha adottato vLLM come motore di inferenza principale. Grazie alle funzionalità di decodifica speculativa di vLLM, l'azienda è oggi in grado di tenere il passo con le attività linguistiche e soddisfare la sua base di clienti globale. Dall'adozione di vLLM Roblox è riuscita a ridurre del 50% la latenza e gestisce quattro miliardi di token la settimana.
Nel rispetto del suo impegno a supporto delle tecnologie open source, Roblox ha scelto vLLM che oggi accompagna l'azienda nel suo percorso di crescita e la aiuta a rispondere alle esigenze di un audience globale.Guarda il vLLM Office Hours di Red Hat per saperne di più sull'esperienza di Roblox.
In che modo LinkedIn utilizza vLLM?
LinkedIn ha adottato vLLM per supportare un'ampia gamma di scenari di utilizzo dell'IA gen e rispondere così alle esigenze dei suoi destinatari attivi.
LinkedIn è uno dei principali social network professionali al mondo e conta oltre un miliardo di membri provenienti da oltre 200 Paesi. Grazie a vLLM l'azienda supporta oggi più di 50 scenari di utilizzo dell'IA gen, come ad esempio LinkedIn Hiring Assistant.
Tramite complessi calcoli di classificazione l'assistente è in grado di filtrare i candidati in base alle loro qualifiche, come gli anni di esperienza, le competenze e le occupazioni precedenti, contribuendo a snellire il processo di selezione dei recruiter.
Per elaborare classificazioni così diverse occorrono però molti token (in media 1000 per candidato) e consideriamo che per ciascuna offerta di lavoro possono presentarsi migliaia di candidati.
Le qualifiche presentano però delle somiglianze e oltre il 50% delle candidature condividono i medesimi prefissi. Questo fa di LinkedIn Hiring Assistant uno scenario di utilizzo ideale per l'applicazione della tecnologia PagedAttention e delle funzionalità di batching continuo di vLLM al fine di ridurre la latenza, massimizzare il throughput e limitare l'utilizzo di storage.
Il tempo per token di output (time per output token, TPOT) indica il tempo medio necessario per generare un token. Ad oggi LinkedIn è riuscita a migliorare il suo TPOT del 7% grazie a vLLM.
In che modo Amazon utilizza vLLM?
Rufus è l'assistente per lo shopping basato sull'IA gen di Amazon progettato per supportare i clienti in fase di acquisto e migliorare la loro esperienza sulla piattaforma. Ha servito 250 milioni di clienti nel 2025 e il numero è destinato a crescere.
Con così tanti clienti che interagivano con Rufus, la complessità dell'inferenza è aumentata e Amazon si è resa conto che nessun chip o istanza aveva memoria sufficiente per garantire il corretto funzionamento dell'assistente.
L'azienda ha dato priorità a funzionalità di inferenza multinodo scalabili al fine di migliorare la velocità e ridurre la latenza senza compromettere la precisione. Per ottenere processi di inferenza fluidi e veloci ha quindi adottato un'architettura multinodo e l'ha integrata con vLLM.
Grazie alla funzionalità di batching continuo di vLLM, l'architettura multinodo è in grado di pianificare in maniera puntuale l'elaborazione delle inferenze in modo che il volume dei token non causi latenza o cali nelle prestazioni.
Servendosi di vLLM per migliorare l'efficienza e il throughput dei suoi LLM, Amazon potrà continuare a far crescere i suoi progetti di IA gen, come Rufus, e rispondere alle future esigenze dei suoi clienti.
Quale sarà il ruolo di vLLM in futuro?
vLLM continuerà a essere uno strumento chiave per l'inferenza IA anche in futuro grazie alle sue capacità chiave:
- Velocità: le funzionalità di inferenza sono in continua evoluzione. I fornitori di modelli e hardware per vLLM contribuiscono direttamente al progetto per migliorare la velocità e l'efficienza dei modelli.
- Community: vLLM dispone di un'ampia community open source in costante crescita. I dieci principali produttori di modelli, tra cui Deepseek, NVIDIA, Meta e Google, stanno sviluppando modelli predefiniti per vLLM perché ne hanno riconosciuto l’efficacia.
- Flessibilità: vLLM è compatibile con la maggior parte degli hardware per l'IA, tra cui GPU NVIDIA e AMD, TPU Google, Intel Gaudi, AWS Neuron, MetaX, Rebellions e altri. Il fatto di supportare un'ampia gamma di soluzioni hardware offre alle organizzazioni tutta la flessibilità di cui hanno bisogno per ottenere risultati rapidi senza sprecare le risorse di cui già dispongono.
- Supporto immediato: vLLM conosce le architetture dei modelli progettati dai principali provider, come Meta e Google. Questo significa che quando queste aziende rilasciano nuovi modelli, vLLM è in grado di offrire il supporto immediato. vLLM è una soluzione accessibile e pronta all'uso che permette alle aziende di accelerare il deployment dei modelli e mitigare i costi.
vLLM include anche llm-d, un framework di inferenza distribuita per la gestione e la scalabilità degli LLM nel cloud ibrido.
Il ruolo di Red Hat
Red Hat® AI è una suite di piattaforme di IA open source che rispecchia a piano i valori e l'impegno di Red Hat. Essendo tra i maggiori contributori commerciali al progetto vLLM, Red Hat ha una conoscenza approfondita di tale tecnologia e di come questa supporta le sue piattaforme di IA.
Grazie a vLLM Red Hat AI è in grado di massimizzare l'utilizzo delle GPU e garantire tempi di risposta più rapidi. Le sue capacità di compressione dei modelli assicurano processi di inferenza efficienti e prestazioni elevate. Questo è particolarmente utile per gli scenari di utilizzo in ambienti cloud ibridi dove i dati necessitano di un ulteriore livello di sicurezza.
Red Hat AI include Red Hat OpenShift® AI, una piattaforma che grazie a VLLM è in grado di snellire la creazione, il deployment e la gestione dei modelli di IA open source. Red Hat OpenShift AI coniuga l'efficienza di vLLM con i vantaggi generati da altri progetti della community open source. Ad esempio llm-d che grazie alla sua architettura modulare aiuta a migliorare il controllo, la coerenza e la pianificazione delle risorse. Inoltre, Red Hat OpenShift AI integra tecnologie che rivoluzionano l'esecuzione nativa di LLM su Kubernetes e la scalabilità dei carichi di lavoro di IA.
L'intelligenza artificiale (IA) secondo Red Hat
Scopri come Red Hat sta affrontando il tema dell'IA, dagli eventi dal vivo alle demo pratiche dei prodotti e alle approfondite ricerche tecniche.