À medida que a realidade técnica do AI-RAN ganha forma, muitos provedores de serviços de telecomunicações percebem que a questão já não é apenas se conseguem executar IA e rede de acesso por rádio (RAN) no mesmo hardware — mas como gerenciar IA em escala.

Na mais recente colaboração da Red Hat com a SoftBank Corp., integramos o llm-d ao orquestrador AI-RAN da empresa, o AITRAS. Fundado pela Red Hat em conjunto com outros líderes do setor, o llm-d é um framework open source projetado para distribuir de forma dinâmica e inteligente a inferência de grandes modelos de linguagem (LLMs) dentro de uma RAN, com mais eficiência e desempenho.

O desafio: unificar workloads de IA e RAN na edge do provedor de serviços

Aplicações tradicionais de RAN são amplamente implantadas por provedores de serviços na edge em CPUs e GPUs, muitas vezes sobre plataformas Kubernetes como o Red Hat OpenShift. No entanto, o avanço recente de GenAI e modelos de linguagem baseados em transformadores está possibilitando novas formas de processamento e geração de insights na edge. Agora, além das RANs tradicionais, há aplicações e agentes de RAN impulsionados por IA que exigem ambientes de execução e endpoints de inferência na edge.

A questão crítica para os provedores, portanto, é como permitir que RANs tradicionais, novos modelos de linguagem e agentes coexistam de forma eficiente nos mesmos locais de RAN, a fim de habilitar novos casos de uso, gerar valor e monetização. Essa unificação é essencial para reduzir despesas operacionais (OpEx) e acelerar o time-to-market de novos serviços de edge geradores de receita.

Para tornar o AI-RAN comercialmente viável, os provedores precisam tratar workloads de IA com a mesma flexibilidade das funções de rede nativas de nuvem (CNFs) e aplicações. É nesse contexto que entra a colaboração entre SoftBank e Red Hat, utilizando llm-d e vLLM para AI-RAN.

llm-d: a ponte entre inferência e orquestradores

vLLM se consolidou como referência open source para inferência de IA, oferecendo implantação de modelos de alto desempenho em um único nó de GPU. Contudo, ele não foi projetado para gerenciar implantações em ambientes complexos e distribuídos com múltiplos nós. É exatamente esse o problema que o llm-d resolve. Aproveitando o Kubernetes, o llm-d orquestra o vLLM em múltiplos nós para viabilizar inferência de IA em escala de produção, estendendo sua eficiência a ambientes distribuídos.

Com a integração do llm-d ao orquestrador AITRAS da SoftBank, os provedores podem alcançar avanços significativos:

  • Unificação de workloads de IA e RAN: o AITRAS orquestra e otimiza workloads de RAN e requisições de LLMs em múltiplos clusters de GPU, enquanto llm-d e vLLM direcionam de forma inteligente (considerando prefixo, cache KV e carga) as requisições de inferência às GPUs. Isso possibilita melhor gestão de recursos e habilita a escalabilidade automática.
  • Otimização orientada ao hardware: a inferência de LLM envolve duas fases distintas – prefill (processamento intensivo do prompt, com alta demanda computacional) e decode (geração de tokens, limitada por largura de banda de memória). Para maximizar a utilização do hardware em ambientes heterogêneos, o llm-d permite ao AITRAS desagregar dinamicamente as fases de prefill e decode, alocando GPUs especializadas para cada etapa. Em conjunto com recursos de gerenciamento do Kubernetes, isso reduz o risco de que workloads intensivos de IA comprometam funções críticas de RAN que compartilham o mesmo hardware, protegendo a resiliência da rede e garantindo qualidade de serviço (QoS) para todos os clientes.
  • Escalabilidade autônoma para demandas variáveis: as solicitações de usuários para serviços baseados em LLM variam significativamente. Com o llm-d, o AITRAS pode atribuir e escalar automaticamente workers de prefill e decode de acordo com o perfil da carga. Essa alocação otimizada reduz a latência, melhora significativamente o consumo energético e diminui o custo total de propriedade (TCO), além de apoiar metas de sustentabilidade para o operador de serviços.

Por que isso é importante para o futuro do 5G e 6G

A integração do llm-d ao AITRAS funciona, na prática, como um sistema operacional para IA na edge. Ela permite que o SoftBank execute inferência de alto desempenho e workloads de RAN em arquiteturas energeticamente eficientes, incluindo sistemas baseados em Arm, demonstrando que o AI-RAN pode alcançar a escalabilidade e flexibilidade exigidas pelas redes móveis de próxima geração, como 5G e 6G. Ao substituir configurações manuais por um modelo automatizado orientado por llm-d, os provedores eliminam a complexidade operacional que historicamente limitou a IA na edge.

Os provedores de serviços estão entrando em uma era em que a rede não apenas transporta dados — ela os processa de forma inteligente e eficiente. Saiba mais sobre os resultados dessa integração no estande da Red Hat no MWC Barcelona 2026, onde especialistas estarão disponíveis para explicar como llm-d e AITRAS estão tornando a promessa do AI-RAN uma realidade.

Enquanto isso, explore os benefícios do Red Hat AI e conheça mais sobre a colaboração da Red Hat com a SoftBank para desenvolver tecnologias AI-RANotimizar o desempenho de rede.


Sobre o autor

UI_Icon-Red_Hat-Close-A-Black-RGB

Navegue por canal

automation icon

Automação

Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes

AI icon

Inteligência artificial

Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente

open hybrid cloud icon

Nuvem híbrida aberta

Veja como construímos um futuro mais flexível com a nuvem híbrida

security icon

Segurança

Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias

edge icon

Edge computing

Saiba quais são as atualizações nas plataformas que simplificam as operações na borda

Infrastructure icon

Infraestrutura

Saiba o que há de mais recente na plataforma Linux empresarial líder mundial

application development icon

Aplicações

Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações

Virtualization icon

Virtualização

O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem