Questo blog è tratto da una recente conversazione che ho avuto con Ion Stoica dell'Università della California (Berkeley). La conversazione è stata riportata nell'articolo di Red Hat Research Quarterly intitolato “From silos to startups: Why universities must be a part of industry’s AI growth”. Leggilo qui.

Negli ultimi anni, le discussioni sull'intelligenza artificiale (IA) sono state dominate dai modelli linguistici di grandi dimensioni (LLM) e dall’enorme impegno nell’addestramento di tali modelli. Il settore tecnologico si è concentrato sulla fase di discovery, ma quell'era sta cambiando rapidamente.

La conversazione parte da "Come si costruisce il modello?" per arrivare a "Come eseguiamo effettivamente il modello in produzione, in modo scalabile?"

Questo cambiamento non è solo un dettaglio tecnico; è il nuovo baricentro dell'IA aziendale. Quando l'IA lascia il laboratorio di ricerca e diventa una funzionalità fondamentale per il business, l'attenzione si concentra sull'inferenza: l'attivazione delle sinapsi nel "cervello" di un modello addestrato prima che generi una risposta o agisca. Nell'azienda, l'inferenza deve essere rapida, conveniente e completamente controllata.

La risposta open source alla sfida dell'inferenza

Per i responsabili IT, trasformare l'IA da un proof of concept a un servizio affidabile di livello enterprise comporta notevoli sfide in termini di complessità, costi e controllo.

Innanzitutto, l'hardware necessario per eseguire questi modelli, soprattutto a seconda delle necessita dell'azienda in termini di scalabilità, è costoso e spesso insufficiente. In secondo luogo, la domanda è imprevedibile. Potrebbero verificarsi picchi di utilizzo elevato seguiti da lunghi periodi di scarsa attività, con l’ulteriore problema di gestire centinaia di varianti di modelli specifici a seconda del dominio. Questa variabilità rende estremamente difficile massimizzare l'utilizzo delle risorse e proteggere gli investimenti critici.

Abbiamo visto la community open source raccogliere questa sfida concentrandosi sull'ottimizzazione delle prestazioni e dell'efficienza per servire gli LLM. Uno dei progetti di maggior successo è vLLM, creato sotto la guida di Ion Stoica presso lo Sky Computing Lab della University of California (Berkeley). Come Ion ha affermato durante la nostra conversazione, questa base accademica è fondamentale. Dimostra come la ricerca universitaria stia risolvendo direttamente i problemi di inferenza più urgenti e reali. vLLM è diventato rapidamente lo standard per il serving di LLM ad alte prestazioni, un motore progettato per velocità ed efficienza al fine di massimizzare il throughput e minimizzare la latenza.

Rafforzare l'innovazione della community per le aziende

I progetti della community come vLLM sono il punto di partenza dell'innovazione, ma devono essere adattati per soddisfare le rigorose esigenze degli ambienti di produzione aziendali. È qui che entra in gioco il valore di Red Hat come esperta affidabile di Linux e Kubernetes.

Stiamo sfruttando l'innovativo lavoro di vLLM e lo stiamo unendo ad altri progetti promossi dalla community per creare una piattaforma consolidata, supportata e scalabile per l'IA negli ambienti di produzione. Un componente chiave di questa evoluzione è llm-d, un framework di inferenza distribuita per la gestione di LLM a livello di cluster e su scala più ampia.

Con l’integrazione di llm-d, stiamo cambiando radicalmente il modo in cui gli LLM vengono eseguiti in modo nativo su Kubernetes. Questo estende i comprovati vantaggi dell'orchestrazione dei container (controllo, coerenza e pianificazione efficiente delle risorse) alla fase dell'IA che finora è stata la più complessa: l'inferenza a domanda variabile con volumi elevati.

Questa combinazione consente alle organizzazioni di:

  • Massimizzare la spesa per l'infrastruttura. Sfruttando l'orchestrazione Kubernetes, consentiamo il serving distribuito di modelli di grandi dimensioni. Ciò permette ai team IT di utilizzare appieno i loro costosi e limitati acceleratori hardware su più carichi di lavoro e modelli, trattando l'infrastruttura non come un hardware isolato, ma come un insieme di capacità di elaborazione adattabili.
  • Ottenere tempi di risposta più rapidi. L'inferenza distribuita gestisce in modo intelligente le variazioni impreviste della domanda, garantendo alle applicazioni le risposte di cui hanno bisogno senza picchi di latenza.
  • Accelerare il deployment in tutta sicurezza. Offriamo un percorso affidabile che spazia dalla ricerca all'avanguardia e all'innovazione della community fino al software consolidato e supportato. Ciò accelera il time-to-value per gli ingegneri dell'IA e offre ai team della piattaforma i controlli di gestione e governance necessari.

Il modello open source fondamentale per l'IA

Ion e io siamo d'accordo: la pipeline di innovazione che ha dato origine a vLLM e llm-d è il modello che definirà il prossimo decennio in fatto di adozione dell'IA. La pipeline inizia con la ricerca accademica, si evolve attraverso le community open source per poi stabilizzarsi ed essere supportata per la scalabilità aziendale.

Affinché l'IA diventi davvero uno strumento aziendale indispensabile, non può rimanere isolata in laboratori proprietari o confinata allo stato di proof of concept. Deve essere accessibile, trasparente e costruita su una base che consenta un miglioramento continuo e collaborativo. Red Hat si impegna per garantire che il cloud ibrido open source rimanga il luogo ideale per rendere operativa questa innovazione, offrendo alle aziende le basi di cui hanno bisogno per essere proprietarie dei propri dati, controllare il proprio destino e navigare con sicurezza nel panorama dell'IA in continua evoluzione.


Sull'autore

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

UI_Icon-Red_Hat-Close-A-Black-RGB

Ricerca per canale

automation icon

Automazione

Novità sull'automazione IT di tecnologie, team e ambienti

AI icon

Intelligenza artificiale

Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque

open hybrid cloud icon

Hybrid cloud open source

Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido

security icon

Sicurezza

Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti

edge icon

Edge computing

Aggiornamenti sulle piattaforme che semplificano l'operatività edge

Infrastructure icon

Infrastruttura

Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale

application development icon

Applicazioni

Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili

Virtualization icon

Virtualizzazione

Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud