Mentre la realtà tecnica dell'AI-RAN si delinea, molti provider di servizi di telecomunicazione si rendono conto che non si tratta più solo di capire se sia possibile eseguire l'IA e la rete di accesso radio (RAN) sullo stesso hardware, ma di come gestire l'IA in modo scalabile.

Nell'ultima collaborazione di Red Hat con SoftBank Corp., abbiamo integrato llm-d nell'agente di orchestrazione AI-RAN di SoftBank, AITRAS. Fondato da Red Hat insieme ad altri leader del settore, llm-d è un framework open source progettato per distribuire l'inferenza dei modelli linguistici di grandi dimensioni (LLM) all'interno di una RAN in modo dinamico, intelligente, più efficiente e con prestazioni superiori.

Ti serve un riepilogo su llm-d? Ottieni una panoramica di base 

Il problema: unificare i carichi di lavoro di IA e RAN all'edge del provider di servizi

I provider di servizi distribuiscono ampiamente le applicazioni RAN tradizionali all'edge su CPU e GPU, spesso utilizzando piattaforme Kubernetes come Red Hat OpenShift. Tuttavia, la recente espansione dell'IA generativa e dei modelli linguistici basati su trasformatori abilita nuove forme di elaborazione e informazioni all'edge. Oggi, oltre alle RAN tradizionali, esistono applicazioni e agenti RAN basati sull'IA che richiedono endpoint di runtime e di inferenza all'edge.  

Pertanto, la domanda di importanza critica per i provider di servizi è: come consentire alla RAN tradizionale, ai nuovi modelli linguistici e agenti di coesistere in modo efficace nelle posizioni RAN per sbloccare nuovi scenari di utilizzo, generare valore e creare monetizzazione? Questa unificazione è essenziale per ridurre le spese operative (OpEx) e accelerare la distribuzione sul mercato dei nuovi servizi edge che generano profitti.

Per rendere l'AI-RAN commercialmente valida, i provider di servizi devono gestire i carichi di lavoro IA con la stessa flessibilità delle applicazioni e delle funzioni di rete cloud native (CNF). Scopri la collaborazione tra SoftBank ed Red Hat, che sfrutta llm-d e vLLM per AI-RAN. 

llm-d: il ponte tra inferenza e agenti di orchestrazione

vLLM si è affermato come leader open source per l'inferenza IA, fornendo la distribuzione di modelli ad alte prestazioni su un singolo nodo GPU. Tuttavia, non è progettato per gestire la distribuzione dei modelli in ambienti complessi con più nodi. Questo è il problema specifico per cui abbiamo creato llm-d. Sfruttando Kubernetes, llm-d orchestra vLLM su più nodi per ottenere un'inferenza IA su scala di produzione, estendendo l'efficienza di vLLM a un ambiente distribuito. 

Integrando llm-d nell'agente di orchestrazione AITRAS di SoftBank, i provider di servizi possono ottenere i seguenti importanti progressi.

  • Carichi di lavoro IA e RAN unificati:  AITRAS orchestra e ottimizza i carichi di lavoro RAN e le richieste LLM su più cluster GPU, mentre llm-d e vLLM instradano in modo intelligente (con riconoscimento di prefisso, kvcache e carico) le richieste di inferenza alle GPU per gestire le risorse GPU con maggiore fluidità e abilitare la scalabilità automatica.
  • Ottimizzazione basata sull'hardware: l'inferenza LLM prevede due fasi distinte: prefill (elaborazione dei prompt ad alta intensità di calcolo) e decode (generazione di token limitata dalla larghezza di banda della memoria). Per massimizzare l'utilizzo dell'hardware nelle configurazioni eterogenee, llm-d consente ad AITRAS di sfruttare la disaggregazione di prefill e decode assegnando dinamicamente risorse GPU specializzate a ogni fase. Questo, insieme ad altre funzionalità di Kubernetes per la gestione delle risorse, aiuta a mitigare il rischio che le elevate richieste dell'IA ad alte prestazioni sottraggano risorse alle funzioni RAN di importanza critica che condividono lo stesso hardware; questo è essenziale per proteggere la resilienza della rete e garantire una qualità del servizio (QoS) superiore per tutti i clienti.
  • Scalabilità autonoma per una domanda variabile: le richieste degli utenti per i servizi LLM sono molto variabili. Utilizzando llm-d, AITRAS può assegnare, automaticamente e in modo scalabile, i ruoli dei worker di prefill e decode in base al profilo del carico di lavoro. Questa allocazione ottimizzata riduce la latenza per l'utente e migliora significativamente il consumo energetico, riducendo il costo totale di proprietà (TCO) e supportando gli obiettivi di sostenibilità del provider di servizi.

Perché questo è importante per il futuro del 5G e del 6G

L'integrazione di llm-d in AITRAS fornisce il sistema operativo per l'IA all'edge. Consente a SoftBank di eseguire carichi di lavoro di inferenza e RAN ad alte prestazioni su architetture a basso consumo energetico, inclusi i sistemi basati su Arm. Questo dimostra che AI-RAN può raggiungere la scalabilità e la flessibilità necessarie per le reti mobili di nuova generazione. Abbandonando le configurazioni manuali per un modello di distribuzione automatizzato basato su llm-d, i provider di servizi possono eliminare la complessità operativa che ha storicamente ostacolato l'IA all'edge.

I provider di servizi stanno entrando in un'era in cui la rete non trasporta solo i dati, ma li elabora in modo intelligente ed efficiente. Scopri di più sui risultati di questa integrazione allo stand di Red Hat al MWC Barcelona 2026, dove gli esperti spiegheranno come llm-d e AITRAS stiano realizzando la promessa di AI-RAN.

Nel frattempo, esplora i vantaggi di Red Hat AI e scopri di più sulla collaborazione di Red Hat con SoftBank per sviluppare tecnologie AI-RAN e ottimizzare le prestazioni della rete

Approfondimento: come funziona llm-d


Sull'autore

UI_Icon-Red_Hat-Close-A-Black-RGB

Ricerca per canale

automation icon

Automazione

Novità sull'automazione IT di tecnologie, team e ambienti

AI icon

Intelligenza artificiale

Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque

open hybrid cloud icon

Hybrid cloud open source

Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido

security icon

Sicurezza

Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti

edge icon

Edge computing

Aggiornamenti sulle piattaforme che semplificano l'operatività edge

Infrastructure icon

Infrastruttura

Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale

application development icon

Applicazioni

Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili

Virtualization icon

Virtualizzazione

Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud