I modelli linguistici di grandi dimensioni (LLM) stanno trasformando interi settori, dall'assistenza ai clienti alle applicazioni all’avanguardia, aprendo enormi opportunità di innovazione. Tuttavia, questa tecnologia ha costi di elaborazione elevati e presenta diverse complessità. L'adozione degli LLM richiede spesso hardware costosi e una gestione complessa, il che crea problemi per molte organizzazioni in cerca di soluzioni scalabili ed efficienti. Tuttavia, utilizzare LLM senza spendere troppo è possibile. La compressione dei modelli e l'inferenza efficiente convLLM offrono una risposta rivoluzionaria, che aiuta a ridurre i costi e accelerare il deployment nelle aziende di tutte le dimensioni.

L'importanza della velocità e dell'efficienza

L'esecuzione di LLM in modo scalabile può rivelarsi complessa. Questi modelli richiedono un hardware potente e costoso, che aumenta i costi dell'infrastruttura e i problemi operativi. La diffusione delle applicazioni in tempo reale, come i chatbot o i flussi di lavoro con più modelli, non fa che aumentare le difficoltà, perché rende necessario incrementare la velocità e diminuire le spese. L'ottimizzazione non si limita a tagliare i costi, ma consente di ridurre il tempo di progettazione, accelera i cicli di sviluppo e consente ai team di concentrarsi sulle priorità strategiche anziché sulla gestione dell'hardware.

Compressione degli LLM: il segreto per un'inferenza efficiente

La compressione dei modelli affronta queste sfide in modo diretto, perché consente di utilizzare meno risorse per gli LLM senza compromettere le prestazioni dell'inferenza. Due tecniche in particolare sono ormai comuni:

  • Quantizzazione: converte gli elementi "pesanti" ad alta precisione in formati a bit inferiore (ad esempio FP8, INT8, INT4, ecc.), riducendo la richiesta di memoria e di elaborazione. Le 500.000 valutazioni di Neural Magic sugli LLM quantizzati mostrano incrementi di inferenza in media da 2 a 4 volte, con cali di precisione dello 0,5-1% (recupero >99%).
  • Scarsità: riduce i parametri ridondanti, rendendo i modelli più piccoli e veloci. La riduzione delle connessioni riduce anche lo storage e l'elaborazione, semplificando il deployment e riducendo i costi.

Per portare avanti questa visione, Red Hat ha recentemente acquisito Neural Magic, leader nella compressione degli LLM, rafforzando l'impegno per un'inferenza rapida ed efficiente su qualsiasi hardware. Nell'ultimo anno, Neural Magic ha ottimizzato diversi modelli popolari, tra cui Granite, Llama, Mistral, Qwen, utilizzando tecniche di quantizzazione all'avanguardia. Questi modelli open source progettati per l'inferenza sono disponibili su Hugging Face.

Supporto per la quantizzazione dei modelli multimodali tramite LLM Compressor

Per l'ottimizzazione pratica, la libreria open source LLM Compressor offre:

  • Un set completo di algoritmi di quantizzazione per i pesi e le attivazioni
  • Integrazione con i modelli e i repository di Hugging Face
  • Supporto per safetensors, un formato semplice per l'archiviazione sicura dei tensori compatibile con vLLM
  • Gestione dei modelli di grandi dimensioni tramite Accelerate
  • Supporto per algoritmi comprovati come GPTQ, SmoothQuant, SparseGPT e altri

vLLM: ottimizzazione dell'inferenza su hardware diversi

La compressione è solo una parte del problema. L'altra sfida, infatti, è disporre di un motore di inferenza ad alte prestazioni. Scopri vLLM, una libreria open source creata da zero per una distribuzione degli LLM più rapida e flessibile. vLLM, è uno dei modelli più amati dal mondo accademico e professionale. Sviluppato all'Università di Berkeley, è stato salvato tra i preferiti da quasi 40.000 utenti su GitHub. L'obiettivo non è solo incrementare la velocità, ma anche rendere il deployment degli LLM pratico, scalabile e accessibile. Ecco cosa contraddistingue vLLM:

  • Prestazioni elevate: grazie a tecniche come PagedAttention (che ottimizza la memoria per i modelli di grandi dimensioni tramite la gestione dinamica delle cache essenziali), vLLM offre un throughput più elevato rispetto ai framework tradizionali come Hugging Face Transformers, con un sovraccarico di latenza prossimo allo zero. Ciò significa che le tue applicazioni, dai chatbot all'analisi in tempo reale, rispondono rapidamente e sono scalabili più facilmente. Consulta i recenti benchmark vLLM qui e qui.
  • Ampia compatibilità hardware: dalle GPU NVIDIA e AMD alle TPU di Google, passando per Intel Gaudi, AWS Neuron e persino le CPU, vLLM si adatta alla tua configurazione. È ottimizzato per diversi acceleratori, consentendoti di sfruttare l'infrastruttura esistente o di scegliere opzioni convenienti senza dover rinnovare gli strumenti. Controlla qui l'hardware supportato per i metodi di quantizzazione.
  • Batch dinamici e scalabilità: la gestione avanzata delle richieste di vLLM invia in batch le query in modo dinamico, massimizzando l'utilizzo delle risorse senza l'ottimizzazione manuale. Questo aspetto è importante in scenari ad alto traffico, come i bot dell'assistenza clienti o le piattaforme di IA multiutente, in cui la domanda è soggetta a fluttuazioni imprevedibili.
  • Deployment più semplice: vLLM semplifica la gestione degli LLM grazie agli endpoint integrati, compatibili con il formato API di OpenAI. Eseguire il deployment di un modello è semplice come un singolo comando: vllm serve [il tuo modello], riducendo i costi operativi e consentendo al tuo team di concentrarsi sull'innovazione piuttosto che sull'infrastruttura. È una scorciatoia per le soluzioni pronte per l'ambiente di produzione.
  • Personalizzazione per esperti: oltre alla facilità d'uso, vLLM offre hook per utenti esperti come tokenizzatori personalizzati, sharding dei modelli e flag di fine tuning per l’ottimizzazione. Pertanto, è uno strumento flessibile per gli ingegneri che vogliono ampliare l'utilizzo delle applicazioni LLM.
  • Open source e orientato alla community: supportato dalla Linux Foundation e da una fiorente community, vLLM offre trasparenza, aggiornamenti rapidi delle funzionalità e un'ampia gamma di servizi di supporto. I contributi dei leader del settore e dei ricercatori aiutano a mantenere vLLM all'avanguardia, mentre un'ampia documentazione riduce la curva di apprendimento.

Insieme ai modelli compressi, vLLM crea una pipeline end to end più rapida, conveniente e facile da gestire. vLLM è in grado di adattarsi ai tuoi scenari di utilizzo, dal singolo chatbot ai vasti ecosistemi di IA, offrendo prestazioni senza complessità.

In conclusione: con vLLM l'ottimizzazione è a portata di mano

Gli LLM offrono un vantaggio competitivo, soprattutto se riescono a contenere i costi e la complessità. L'ottimizzazione e vLLM, insieme, contribuiscono a rendere possibile tutto questo, trasformando il potenziale in profitti ed efficienza operativa. Otterrai costi operativi inferiori (si pensi al 40-50% di risparmio in GPU), tempi di rilascio più rapidi con deployment ottimizzato e clienti più soddisfatti grazie alla reattività in tempo reale. Questa combinazione consente di implementare l'IA in modo più intelligente ed economico sia nello sviluppo di una startup che nella gestione di un’azienda.

Basta guardare i risultati per averne la prova. Una nota azienda di videogiochi ha utilizzato INT8 Llama 70B quantizzato con vLLM per alimentare centinaia di migliaia di generazioni di codice quotidiane, raggiungendo 10 query al secondo a 50 ms per token. Dimezzando l'utilizzo delle GPU, l'azienda ha ridotto i costi dell'infrastruttura del 50% senza sacrificare le prestazioni. 

Inizia oggi stesso

Vuoi approfittare degli LLM ottimizzati e delle potenzialità di vLLM? Scopri come:

  1. Esplora i modelli ottimizzati: scopri gli LLM pre-ottimizzati su Hugging Face qui, pronti per il deployment istantaneo.
  2. Ottimizza i tuoi modelli: utilizza LLM Compressor per sperimentare le tecniche di compressione e personalizzare i modelli in base alle tue esigenze.
  3. Test drive di vLLM: esegui un'inferenza campione per verificarne la velocità e la semplicità in azione.

Per le soluzioni pronte per l'ambiente di produzione, gli esperti di Red Hat sono a tua disposizione. Contattaci per scoprire come possiamo aiutare la tua azienda a sfruttare gli LLM in modo efficiente ed efficace.

Risorsa

Definizione della strategia aziendale per l'IA: una guida introduttiva

Leggi questa guida introduttiva per scoprire come Red Hat OpenShift AI e Red Hat Enterprise Linux AI possono accelerare il percorso di adozione dell'IA.

Sull'autore

Saša Zelenović is a Principal Product Marketing Manager at Red Hat, joining in 2025 through the Neural Magic acquisition where he led as Head of Marketing. With a passion for developer-focused marketing, Sasa drives efforts to help developers compress models for inference and deploy them with vLLM. He co-hosts the bi-weekly vLLM Office Hours, a go-to spot for insights and community around all things vLLM.

UI_Icon-Red_Hat-Close-A-Black-RGB

Ricerca per canale

automation icon

Automazione

Novità sull'automazione IT di tecnologie, team e ambienti

AI icon

Intelligenza artificiale

Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque

open hybrid cloud icon

Hybrid cloud open source

Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido

security icon

Sicurezza

Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti

edge icon

Edge computing

Aggiornamenti sulle piattaforme che semplificano l'operatività edge

Infrastructure icon

Infrastruttura

Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale

application development icon

Applicazioni

Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili

Virtualization icon

Virtualizzazione

Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud