Mentre la realtà tecnica dell'AI-RAN si delinea, molti provider di servizi di telecomunicazione si rendono conto che non si tratta più solo di capire se sia possibile eseguire l'IA e la rete di accesso radio (RAN) sullo stesso hardware, ma di come gestire l'IA in modo scalabile.
Nell'ultima collaborazione di Red Hat con SoftBank Corp., abbiamo integrato llm-d nell'agente di orchestrazione AI-RAN di SoftBank, AITRAS. Fondato da Red Hat insieme ad altri leader del settore, llm-d è un framework open source progettato per distribuire l'inferenza dei modelli linguistici di grandi dimensioni (LLM) all'interno di una RAN in modo dinamico, intelligente, più efficiente e con prestazioni superiori.
Il problema: unificare i carichi di lavoro di IA e RAN all'edge del provider di servizi
I provider di servizi distribuiscono ampiamente le applicazioni RAN tradizionali all'edge su CPU e GPU, spesso utilizzando piattaforme Kubernetes come Red Hat OpenShift. Tuttavia, la recente espansione dell'IA generativa e dei modelli linguistici basati su trasformatori abilita nuove forme di elaborazione e informazioni all'edge. Oggi, oltre alle RAN tradizionali, esistono applicazioni e agenti RAN basati sull'IA che richiedono endpoint di runtime e di inferenza all'edge.
Pertanto, la domanda di importanza critica per i provider di servizi è: come consentire alla RAN tradizionale, ai nuovi modelli linguistici e agenti di coesistere in modo efficace nelle posizioni RAN per sbloccare nuovi scenari di utilizzo, generare valore e creare monetizzazione? Questa unificazione è essenziale per ridurre le spese operative (OpEx) e accelerare la distribuzione sul mercato dei nuovi servizi edge che generano profitti.
Per rendere l'AI-RAN commercialmente valida, i provider di servizi devono gestire i carichi di lavoro IA con la stessa flessibilità delle applicazioni e delle funzioni di rete cloud native (CNF). Scopri la collaborazione tra SoftBank ed Red Hat, che sfrutta llm-d e vLLM per AI-RAN.
llm-d: il ponte tra inferenza e agenti di orchestrazione
vLLM si è affermato come leader open source per l'inferenza IA, fornendo la distribuzione di modelli ad alte prestazioni su un singolo nodo GPU. Tuttavia, non è progettato per gestire la distribuzione dei modelli in ambienti complessi con più nodi. Questo è il problema specifico per cui abbiamo creato llm-d. Sfruttando Kubernetes, llm-d orchestra vLLM su più nodi per ottenere un'inferenza IA su scala di produzione, estendendo l'efficienza di vLLM a un ambiente distribuito.
Integrando llm-d nell'agente di orchestrazione AITRAS di SoftBank, i provider di servizi possono ottenere i seguenti importanti progressi.
- Carichi di lavoro IA e RAN unificati: AITRAS orchestra e ottimizza i carichi di lavoro RAN e le richieste LLM su più cluster GPU, mentre llm-d e vLLM instradano in modo intelligente (con riconoscimento di prefisso, kvcache e carico) le richieste di inferenza alle GPU per gestire le risorse GPU con maggiore fluidità e abilitare la scalabilità automatica.
- Ottimizzazione basata sull'hardware: l'inferenza LLM prevede due fasi distinte: prefill (elaborazione dei prompt ad alta intensità di calcolo) e decode (generazione di token limitata dalla larghezza di banda della memoria). Per massimizzare l'utilizzo dell'hardware nelle configurazioni eterogenee, llm-d consente ad AITRAS di sfruttare la disaggregazione di prefill e decode assegnando dinamicamente risorse GPU specializzate a ogni fase. Questo, insieme ad altre funzionalità di Kubernetes per la gestione delle risorse, aiuta a mitigare il rischio che le elevate richieste dell'IA ad alte prestazioni sottraggano risorse alle funzioni RAN di importanza critica che condividono lo stesso hardware; questo è essenziale per proteggere la resilienza della rete e garantire una qualità del servizio (QoS) superiore per tutti i clienti.
- Scalabilità autonoma per una domanda variabile: le richieste degli utenti per i servizi LLM sono molto variabili. Utilizzando llm-d, AITRAS può assegnare, automaticamente e in modo scalabile, i ruoli dei worker di prefill e decode in base al profilo del carico di lavoro. Questa allocazione ottimizzata riduce la latenza per l'utente e migliora significativamente il consumo energetico, riducendo il costo totale di proprietà (TCO) e supportando gli obiettivi di sostenibilità del provider di servizi.
Perché questo è importante per il futuro del 5G e del 6G
L'integrazione di llm-d in AITRAS fornisce il sistema operativo per l'IA all'edge. Consente a SoftBank di eseguire carichi di lavoro di inferenza e RAN ad alte prestazioni su architetture a basso consumo energetico, inclusi i sistemi basati su Arm. Questo dimostra che AI-RAN può raggiungere la scalabilità e la flessibilità necessarie per le reti mobili di nuova generazione. Abbandonando le configurazioni manuali per un modello di distribuzione automatizzato basato su llm-d, i provider di servizi possono eliminare la complessità operativa che ha storicamente ostacolato l'IA all'edge.
I provider di servizi stanno entrando in un'era in cui la rete non trasporta solo i dati, ma li elabora in modo intelligente ed efficiente. Scopri di più sui risultati di questa integrazione allo stand di Red Hat al MWC Barcelona 2026, dove gli esperti spiegheranno come llm-d e AITRAS stiano realizzando la promessa di AI-RAN.
Nel frattempo, esplora i vantaggi di Red Hat AI e scopri di più sulla collaborazione di Red Hat con SoftBank per sviluppare tecnologie AI-RAN e ottimizzare le prestazioni della rete.
Sull'autore
Altri risultati simili a questo
Unlocking sovereign AI and protected collaboration with confidential computing
Building a hardened, image-based foundation for AI agents
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Ricerca per canale
Automazione
Novità sull'automazione IT di tecnologie, team e ambienti
Intelligenza artificiale
Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque
Hybrid cloud open source
Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido
Sicurezza
Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti
Edge computing
Aggiornamenti sulle piattaforme che semplificano l'operatività edge
Infrastruttura
Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale
Applicazioni
Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili
Virtualizzazione
Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud