llm-d ottimizza le risorse di importanza critica con l'agente di orchestrazione AI-RAN di SoftBank

18 febbraio 2026Tushar Katarki3 minuti (tempo di lettura)

Mentre la realtà tecnica dell'AI-RAN si delinea, molti provider di servizi di telecomunicazione si rendono conto che non si tratta più solo di capire se sia possibile eseguire l'IA e la rete di accesso radio (RAN) sullo stesso hardware, ma di come gestire l'IA in modo scalabile.

Nell'ultima collaborazione di Red Hat con SoftBank Corp., abbiamo integrato llm-d nell'agente di orchestrazione AI-RAN di SoftBank, AITRAS. Fondato da Red Hat insieme ad altri leader del settore, llm-d è un framework open source progettato per distribuire l'inferenza dei modelli linguistici di grandi dimensioni (LLM) all'interno di una RAN in modo dinamico, intelligente, più efficiente e con prestazioni superiori.

Ti serve un riepilogo su llm-d? Ottieni una panoramica di base

Il problema: unificare i carichi di lavoro di IA e RAN all'edge del provider di servizi

I provider di servizi distribuiscono ampiamente le applicazioni RAN tradizionali all'edge su CPU e GPU, spesso utilizzando piattaforme Kubernetes come Red Hat OpenShift. Tuttavia, la recente espansione dell'IA generativa e dei modelli linguistici basati su trasformatori abilita nuove forme di elaborazione e informazioni all'edge. Oggi, oltre alle RAN tradizionali, esistono applicazioni e agenti RAN basati sull'IA che richiedono endpoint di runtime e di inferenza all'edge.

Pertanto, la domanda di importanza critica per i provider di servizi è: come consentire alla RAN tradizionale, ai nuovi modelli linguistici e agenti di coesistere in modo efficace nelle posizioni RAN per sbloccare nuovi scenari di utilizzo, generare valore e creare monetizzazione? Questa unificazione è essenziale per ridurre le spese operative (OpEx) e accelerare la distribuzione sul mercato dei nuovi servizi edge che generano profitti.

Per rendere l'AI-RAN commercialmente valida, i provider di servizi devono gestire i carichi di lavoro IA con la stessa flessibilità delle applicazioni e delle funzioni di rete cloud native (CNF). Scopri la collaborazione tra SoftBank ed Red Hat, che sfrutta llm-d e vLLM per AI-RAN.

llm-d: il ponte tra inferenza e agenti di orchestrazione

vLLM si è affermato come leader open source per l'inferenza IA, fornendo la distribuzione di modelli ad alte prestazioni su un singolo nodo GPU. Tuttavia, non è progettato per gestire la distribuzione dei modelli in ambienti complessi con più nodi. Questo è il problema specifico per cui abbiamo creato llm-d. Sfruttando Kubernetes, llm-d orchestra vLLM su più nodi per ottenere un'inferenza IA su scala di produzione, estendendo l'efficienza di vLLM a un ambiente distribuito.

Integrando llm-d nell'agente di orchestrazione AITRAS di SoftBank, i provider di servizi possono ottenere i seguenti importanti progressi.

Carichi di lavoro IA e RAN unificati: AITRAS orchestra e ottimizza i carichi di lavoro RAN e le richieste LLM su più cluster GPU, mentre llm-d e vLLM instradano in modo intelligente (con riconoscimento di prefisso, kvcache e carico) le richieste di inferenza alle GPU per gestire le risorse GPU con maggiore fluidità e abilitare la scalabilità automatica.
Ottimizzazione basata sull'hardware: l'inferenza LLM prevede due fasi distinte: prefill (elaborazione dei prompt ad alta intensità di calcolo) e decode (generazione di token limitata dalla larghezza di banda della memoria). Per massimizzare l'utilizzo dell'hardware nelle configurazioni eterogenee, llm-d consente ad AITRAS di sfruttare la disaggregazione di prefill e decode assegnando dinamicamente risorse GPU specializzate a ogni fase. Questo, insieme ad altre funzionalità di Kubernetes per la gestione delle risorse, aiuta a mitigare il rischio che le elevate richieste dell'IA ad alte prestazioni sottraggano risorse alle funzioni RAN di importanza critica che condividono lo stesso hardware; questo è essenziale per proteggere la resilienza della rete e garantire una qualità del servizio (QoS) superiore per tutti i clienti.
Scalabilità autonoma per una domanda variabile: le richieste degli utenti per i servizi LLM sono molto variabili. Utilizzando llm-d, AITRAS può assegnare, automaticamente e in modo scalabile, i ruoli dei worker di prefill e decode in base al profilo del carico di lavoro. Questa allocazione ottimizzata riduce la latenza per l'utente e migliora significativamente il consumo energetico, riducendo il costo totale di proprietà (TCO) e supportando gli obiettivi di sostenibilità del provider di servizi.

Perché questo è importante per il futuro del 5G e del 6G

L'integrazione di llm-d in AITRAS fornisce il sistema operativo per l'IA all'edge. Consente a SoftBank di eseguire carichi di lavoro di inferenza e RAN ad alte prestazioni su architetture a basso consumo energetico, inclusi i sistemi basati su Arm. Questo dimostra che AI-RAN può raggiungere la scalabilità e la flessibilità necessarie per le reti mobili di nuova generazione. Abbandonando le configurazioni manuali per un modello di distribuzione automatizzato basato su llm-d, i provider di servizi possono eliminare la complessità operativa che ha storicamente ostacolato l'IA all'edge.

I provider di servizi stanno entrando in un'era in cui la rete non trasporta solo i dati, ma li elabora in modo intelligente ed efficiente. Scopri di più sui risultati di questa integrazione allo stand di Red Hat al MWC Barcelona 2026, dove gli esperti spiegheranno come llm-d e AITRAS stiano realizzando la promessa di AI-RAN.

Nel frattempo, esplora i vantaggi di Red Hat AI e scopri di più sulla collaborazione di Red Hat con SoftBank per sviluppare tecnologie AI-RAN e ottimizzare le prestazioni della rete.

Approfondimento: come funziona llm-d