Il motivo del nostro contributo con llm-d alla CNCF: standardizzare il futuro dell'IA

24 marzo 20263 minuti (tempo di lettura)

SVP and CTO for AI

Oggi contribuiamo con llm-d alla Cloud Native Computing Foundation (CNCF) come progetto sandbox.

Non si tratta solo di trasferire codice. È un impegno per rendere il servizio di IA ad alte prestazioni una funzionalità portabile e centrale della tecnologia cloud native. Quando abbiamo lanciato llm-d a maggio del 2025, ci siamo proposti di colmare l'enorme divario di capacità tra la fase di sperimentazione dell'IA e l'inferenza di importanza critica scalabile in produzione. Portando llm-d nella CNCF, stiamo ampliando l'obiettivo di una coalizione multivendor (che include CoreWeave, IBM, Google ed NVIDIA) per creare uno standard aperto per l'inferenza distribuita.

L'inferenza sostiene l'era degli agenti

Mentre entriamo in un futuro basato sugli agenti, l'inferenza dell'IA a supporto di vasti domini di agenti aziendali è destinata a espandersi enormemente. Sarà fondamentale che il costo e la complessità dell'inferenza non superino il valore aziendale degli agenti stessi. Tuttavia, l'inferenza può essere incredibilmente costosa, poiché utilizza grandi quantità di acceleratori specializzati e, su larga scala, i costi possono aumentare ulteriormente. Le funzionalità avanzate di llm-d risolvono direttamente questo problema, rispettando gli obiettivi del livello di servizio (Service Level Objectives) aziendali e massimizzando l'efficienza dell'infrastruttura. Inoltre, le organizzazioni hanno bisogno della flessibilità necessaria per distribuire l'inferenza ovunque sia opportuno (data center, cloud o edge) sull'hardware di propria scelta. Questa flessibilità è possibile solo se l'ecosistema alla base è basato su open source e standard aperti.

Colmare le lacune nel panorama cloud native

Sebbene Kubernetes sia lo standard di settore per l'orchestrazione, non è stato originariamente progettato per le esigenze uniche e stateful dell'inferenza dei modelli linguistici di grandi dimensioni (LLM). In un microservizio tradizionale, una richiesta è una richiesta: ciascuna replica può elaborare ciascuna richiesta con la stessa efficacia. Nell'IA generativa, il costo di una richiesta varia notevolmente in base alla lunghezza dei token di prompt e output, alle dimensioni e all'architettura del modello, alla posizione della cache e al fatto che il modello si trovi nella fase di prefill (vincolata al calcolo) o di decodifica (vincolata alla memoria).

Il routing dei servizi standard ignora queste dinamiche, il che porta a un posizionamento inefficiente e a una latenza imprevedibile. È qui che llm-d colma il divario. Funziona come un livello di orchestrazione del piano dati specializzato tra i piani di controllo di alto livello come KServe e i motori di basso livello come vLLM. Utilizzando primitive Kubernetes native come Gateway API e LeaderWorkerSet (LWS), trasforma l'inferenza distribuita complessa in un carico di lavoro cloud native gestibile e osservabile.

Rafforzare l'ecosistema attraverso il contributo

Contribuendo con llm-d alla CNCF, definiamo percorsi chiari: modelli comprovati e replicabili che trasformano componenti di IA frammentati in microservizi modulari e interoperabili. Questo contributo riguarda più di un singolo progetto; si tratta di arricchire l'intero panorama cloud native in modo che l'inferenza diventi un elemento di prim'ordine dello stesso ambiente delle applicazioni tradizionali basate su container.

Una parte centrale di questo lavoro è l'endpoint picker (EPP). llm-d funge da implementazione principale per l'estensione di inferenza dell'API gateway (GAIE) di Kubernetes, e l'EPP consente il routing programmabile e sensibile all'inferenza. Ciò significa che il sistema prende decisioni di routing in base allo stato effettivo del motore, ottimizzando le percentuali di hit della cache KV e le caratteristiche dell'acceleratore hardware. Questo è un requisito fondamentale per mantenere un throughput costante nel rispetto di rigorosi obiettivi del livello di servizio.

llm-d completa ed estende il panorama esistente all'interno della CNCF.

Kubernetes: fornisce la piattaforma infrastrutturale principale per i carichi di lavoro di IA.
Gateway API: promuove l'allineamento upstream per il routing specifico dell'IA, garantendo che la gestione del traffico rimanga un componente open source di base.
KServe: funge da piano di controllo di alto livello che si integra con llm-d per supportare funzionalità avanzate come la distribuzione disaggregata e il caching dei prefissi.
LeaderWorkerSet: utilizza primitive Kubernetes native per orchestrare complesse repliche multinodo e il parallelismo esperto, trasformando motori come vLLM in carichi di lavoro cloud native gestibili.
Prometheus e Grafana: esportano metriche specializzate come il time to first token (TTFT) per portare l'osservabilità a livello aziendale all'IA generativa.

Collaborare per ottenere un'inferenza scalabile

La collaborazione è stata al centro di llm-d sin dall’inizio. Quando abbiamo annunciato llm-d l'anno scorso al Red Hat Summit, l’impegno congiunto dei collaboratori fondatori del progetto, dei leader del settore e dei sostenitori accademici è stato un motivo di orgoglio per Red Hat: non solo per il lancio di llm-d, ma anche per aver creato una base collaborativa pronta per il futuro. Nei 10 mesi successivi, llm-d è stato adottato sia per MaaS private di IA enterprise, sia per iniziative di IA su larga scala. L’aspetto ancor più notevole è che le radici open source del progetto continuano a consolidarsi grazie a un ecosistema sempre più ampio di collaboratori e partner. Sviluppatori e aziende si affidano a llm-d e il contributo del progetto alla CNCF sosterrà e garantirà un futuro aperto. La strada verso un'innovazione dell'IA open source di successo è lunga, ma insieme stiamo costruendo l'infrastruttura per raggiungerla.

Sull'autore

Brian Stevens

SVP and CTO for AI

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.