Cos'è vLLM?
vLLM è un server di inferenza che accelera i processi di inferenza dell'IA gen nei modelli linguistici di grandi dimensioni (LLM) ottimizzando l'uso dello storage di memoria e delle unità di elaborazione grafica (GPU).
Un utilizzo più efficiente delle GPU si traduce in LLM capaci di eseguire calcoli in modo rapido e scalabile. Questo è un aspetto cruciale per le aziende che necessitano di applicazioni in tempo reale, come chatbot o flussi di lavoro multimodali.
In questo articolo illustreremo come tre note aziende utilizzano vLLM per erogare servizi all'avanguardia.
Il ruolo di vLLM per l'inferenza IA
Durante l'inferenza gli LLM utilizzano coppie chiave-valore per eseguire un numero elevato di calcoli matematici in poco tempo.
Per comprendere il linguaggio ed elaborare le risposte, gli LLM si servono di coppie chiave-valore, ovvero associano un valore numerico a ogni token (termini o frasi). Ciascun token (chiave) è quindi associato a un numero (valore) e questo permette al modello di calcolare le risposte.
L'inferenza IA si divide in due fasi principali e l'impiego di coppie chiave-valore è alla base di entrambe:
- Precompilazione, ovvero la fase in cui il modello elabora il prompt iniziale. Le coppie chiave-valore per ciascun token vanno a formare la cache chiave-valore (KV), che funge da memoria a breve termine del modello.
- Decodifica, ovvero la fase in cui il modello genera nuovi token. Il modello sfrutta la cache KV esistente per calcolare le coppie chiave-valore di una risposta.
Gli LLM memorizzano nella cache KV le coppie chiave-valore per ogni token elaborato. La cache cresce in base alla lunghezza dei prompt e agli output generati e può richiedere uno storage di memoria considerevole. I sistemi tradizionali di gestione della memoria degli LLM non prevedono di organizzare i calcoli e ottimizzare l'uso della memoria, e non sono quindi in grado di garantire modelli efficienti.
vLLM utilizza una tecnica di gestione della memoria che analizza l'utilizzo della cache KV durante l'inferenza. Recupera i dati della cache in modo da identificare le coppie chiave-valore che si ripetono per evitare la frammentazione della memoria e alleggerire il lavoro del modello. Questa tecnica permette di ottimizzare l'uso della memoria delle GPU e accelerare l'inferenza.
4 elementi chiave da considerare per l'implementazione dell'IA
Perché con vLLM le GPU richiedono minor storage?
vLLM sfrutta diverse tecnologie e tecniche per ridurre l'utilizzo di storage e accelerare l'inferenza:
- Batching continuo: si verifica quando il modello LLM avvia il processo di inferenza per il batch di token successivo anche se i calcoli per il token precedente non sono ancora terminati (vLLM può svolgere più attività contemporaneamente).
- PagedAttention: è una tecnologia innovativa che utilizza la cache KV per ricordare i token precedenti e sfruttarne la memoria per risparmiare spazio nella GPU.
- Decodifica speculativa: si utilizza un modello più piccolo e veloce per prevedere i token futuri. Questa tecnica permette di accelerare la fase di precompilazione.
- Quantizzazione: i parametri di modelli più grandi vengono compressi in formati più piccoli per ridurre le esigenze di storage senza sacrificare la precisione. Esistono diverse tecniche di quantizzazione per personalizzare i modelli.
Riuscire a ridurre di qualche unità il numero di token elaborati o impiegare qualche secondo in meno per generare una risposta potrebbero sembrare risultati trascurabili. Pensiamo però a un'azienda che applichi le stesse tecniche a migliaia di carichi di lavoro di IA, GPU e calcoli dei server di inferenza. In questo caso il risparmio di tempo, denaro e risorse sarebbe notevole.
Le tecniche di risparmio della memoria sono un elemento imprescindibile per le organizzazioni che desiderano estendere l'IA all'intera azienda.
Perché le aziende scelgono vLLM?
Le organizzazioni utilizzano l'inferenza IA per carichi di lavoro ad alto volume e ad alta variabilità. Tuttavia, per distribuire gli LLM in modo coerente e scalabile è necessario disporre di un’elevata potenza di elaborazione, risorse e competenze operative specializzate.
vLLM permette di superare queste difficoltà razionalizzando l'utilizzo degli hardware necessari a supportare i processi di inferenza IA in contesti enterprise. Questo è il motivo per cui vLLM è particolarmente interessante per i settori che hanno bisogno di flessibilità e controllo, oltre alla velocità.
Essendo una soluzione open source, vLLM consente alle aziende di:
- Possedere e gestire le proprie GPU.
- Controllare i propri dati.
- Sperimentare con nuovi modelli appena vengono rilasciati.
La soluzione offre anche massima libertà, riduce il costo per token e limita i problemi di privacy.
vLLM è compatibile con un'ampia gamma di hardware, come GPU NVIDIA e AMD, TPU Google, Intel Gaudi e AWS Neuron, e si può distribuire in diversi ambienti, come cloud, datacenter ed edge della rete.
Scenari di utilizzo aziendali di vLLM
Dai processi di selezione del personale ai giochi online, l'inferenza su larga scala è un'attività che può diventare complessa molto rapidamente.
Illustriamo ora i risultati di tre aziende che utilizzano con successo il progetto open source vLLM. Non si tratta di clienti Red Hat, ma sono organizzazioni che hanno scelto di affidarsi alla community vLLM e adottare la tecnologia che sviluppa.
In che modo Roblox utilizza vLLM?
Roblox è una piattaforma di gaming online che ospita milioni di utenti in tutto il mondo. Questi possono sia creare le loro esperienze di gioco che provare quelle sviluppate da altri.
La sua ultima funzionalità, Assistant, un chatbot basato sull'IA e progettato per snellire la creazione di contenuti, ha portato il numero di token elaborati a oltre un miliardo la settimana. Inoltre, la piattaforma offre anche altre funzionalità che complicano ulteriormente l'inferenza, come la traduzione in tempo reale delle chat tramite IA e un modello di sicurezza vocale. In questo caso la multimodalità si applica a milioni di interazioni tra utenti, il che aumenta significativamente il numero di token da elaborare e le risorse necessarie per l'inferenza.
Per gestire i costanti incrementi di elaborazione Roblox ha adottato vLLM come motore di inferenza principale. Grazie alle funzionalità di decodifica speculativa di vLLM, l'azienda è oggi in grado di tenere il passo con le attività linguistiche e soddisfare la sua base di clienti globale. Dall'adozione di vLLM Roblox è riuscita a ridurre del 50% la latenza e gestisce quattro miliardi di token la settimana.
vLLM consente a Roblox di offrire scalabilità e soddisfare le esigenze degli utenti mentre la sua piattaforma continua a crescere. Roblox ha scelto vLLM perché è in linea con il suo impegno a supportare le tecnologie open source.
Guarda il vLLM Office Hours di Red Hat per saperne di più sull'esperienza di Roblox.
In che modo LinkedIn utilizza vLLM?
LinkedIn ha adottato vLLM per supportare un'ampia gamma di scenari di utilizzo dell'IA gen e rispondere così alle esigenze dei suoi destinatari attivi.
LinkedIn è uno dei principali social network professionali al mondo e conta oltre un miliardo di membri provenienti da oltre 200 Paesi. Grazie a vLLM l'azienda supporta oggi più di 50 scenari di utilizzo dell'IA gen, come ad esempio LinkedIn Hiring Assistant.
Utilizzando calcoli di classificazione complessi, LinkedIn Hiring Assistant filtra le qualifiche dei candidati come anni di esperienza, competenze e precedenti occupazioni. In questo modo, i recruiter possono individuare i candidati in base alla posizione più adatta.
Per elaborare classificazioni così diverse occorrono però molti token (in media 1000 per candidato) e consideriamo che per ciascuna offerta di lavoro possono presentarsi migliaia di candidati.
Le qualifiche presentano però delle somiglianze e oltre il 50% delle candidature condividono i medesimi prefissi. Questo fa di LinkedIn Hiring Assistant uno scenario di utilizzo ideale per l'applicazione della tecnologia PagedAttention e delle funzionalità di batching continuo di vLLM al fine di ridurre la latenza, massimizzare il throughput e limitare l'utilizzo di storage.
Il tempo per token di output (time per output token, TPOT) indica il tempo medio necessario per generare un token. Ad oggi LinkedIn è riuscita a migliorare il suo TPOT del 7% grazie a vLLM.
In che modo Amazon utilizza vLLM?
Rufus è l'assistente per lo shopping basato sull'IA gen di Amazon progettato per supportare i clienti in fase di acquisto e migliorare la loro esperienza sulla piattaforma. Rufus ha servito 250 milioni di clienti nel 2025 è il numero è destinato a crescere.
Con così tanti clienti che interagivano con l'assistente per lo shopping, la complessità dell'inferenza è aumentata. Amazon si è resa conto che nessun chip o istanza aveva memoria sufficiente per garantire il corretto funzionamento di Rufus.
Amazon ha quindi dato priorità a funzionalità di inferenza multinodo scalabili per ottenere massima precisione, elevata velocità e minore latenza. Per ottenere processi di inferenza fluidi e veloci ha quindi adottato un'architettura multinodo e l'ha integrata con vLLM.
Grazie alla funzionalità di batching continuo di vLLM, l'architettura multinodo è in grado di pianificare in maniera puntuale l'elaborazione delle inferenze in modo che il volume dei token non causi latenza o cali nelle prestazioni.
Servendosi di vLLM per migliorare l'efficienza e il throughput dei suoi LLM, Amazon potrà continuare a far crescere i suoi progetti di IA gen, come Rufus, e rispondere alle future esigenze dei suoi clienti.
Quale sarà il ruolo di vLLM in futuro?
vLLM continuerà a essere uno strumento chiave per l'inferenza IA anche in futuro grazie alle sue capacità chiave:
- Velocità: le funzionalità di inferenza sono in continua evoluzione. I fornitori di modelli e hardware per vLLM contribuiscono direttamente al progetto per migliorare la velocità e l'efficienza dei modelli.
- Community: vLLM dispone di un'ampia community open source in costante crescita. I dieci principali produttori di modelli, tra cui Deepseek, NVIDIA, Meta e Google, stanno sviluppando modelli predefiniti per vLLM perché ne hanno riconosciuto l’efficacia.
- Flessibilità: vLLM è compatibile con la maggior parte degli hardware per l'IA, tra cui GPU NVIDIA e AMD, TPU Google, Intel Gaudi, AWS Neuron, MetaX, Rebellions e altri. Il fatto di supportare un'ampia gamma di soluzioni hardware offre alle organizzazioni tutta la flessibilità di cui hanno bisogno per ottenere risultati rapidi senza sprecare le risorse di cui già dispongono.
- Supporto immediato: quando i creatori di modelli più diffusi, come Meta o Google, rilasciano un nuovo modello, vLLM conosce già le architetture esistenti. Ciò significa che vLLM è in grado di offrire un supporto immediato (day zero) per i nuovi modelli. vLLM è una soluzione accessibile e pronta all'uso che permette alle aziende di accelerare il deployment dei modelli e mitigare i costi.
vLLM include anche llm-d, un framework di inferenza distribuita per la gestione e la scalabilità degli LLM nel cloud ibrido.
Il ruolo di Red Hat
Red Hat® AI è una piattaforma di prodotti e servizi che facilitano ogni fase del percorso con l'IA, che tu sia alle fasi iniziali o già in ottica di scalabilità. Inoltre, è in grado di sostenere le iniziative di IA generativa e predittiva negli scenari di utilizzo esclusivi della tua azienda.
Con Red Hat AI, hai accesso a Red Hat AI Inference Server, in modo da ottimizzare l'inferenza dei modelli nel cloud ibrido per deployment più rapidi ed economici. Basato su vLLM, il server di inferenza massimizza l'utilizzo della GPU e accelera i tempi di risposta.
Red Hat AI Inference Server include il repository Red Hat AI, una raccolta di modelli di terze parti convalidati e ottimizzati che garantisce la flessibilità dei modelli e promuove la coerenza tra i team. Con l'accesso al repository dei modelli di terze parti, le aziende possono accelerare i tempi di rilascio e ridurre gli ostacoli finanziari al successo dell'IA.
A che punto è la tua strategia di sovranità digitale? Introduzione al Red Hat Sovereignty Readiness Assessment Tool
Il Red Hat Sovereignty Readiness Assessment Tool è uno strumento per l’autovalutazione accessibile dal web, che fornisce una base di riferimento chiara e obiettiva del controllo digitale della tua organizzazione in sette ambiti fondamentali.