随着 AI-RAN 技术逐渐落地,许多电信服务提供商开始意识到,关键问题不再仅仅是能否在同一硬件上运行 AI 和无线接入网络(RAN),而是如何大规模地管理 AI。
在红帽与软银公司的最新合作中,我们已将 llm-d 集成到软银的 AI-RAN Orchestrator——AITRAS 中。llm-d 是由红帽与其他行业领导者共同创建的一个开源框架,旨在 RAN 内动态、智能地分发大语言模型(LLM)的推理任务,以实现更高效率和更强性能。
问题:在服务提供商边缘实现 AI 与 RAN 工作负载的统一
传统的 RAN 应用由服务提供商广泛部署在边缘的 CPU 和 GPU 上,并且通常利用红帽 OpenShift 等 Kubernetes 平台。然而,近期生成式 AI 和基于 Transformer 的语言模型爆发式增长,这促使边缘出现新的计算形式和洞察分析能力。如今,除了传统的 RAN 之外,还出现了一些由 AI 驱动的 RAN 应用和代理,它们需要在边缘具备运行时环境和推理端点。
因此,对于服务提供商而言,关键问题在于如何使传统的 RAN 与这些新的语言模型和代理在 RAN 上实现有效共存,从而解锁新的用例、创造价值并实现盈利。这种统一对于降低运营支出(OpEx)和加快新的创收型边缘服务的上市时间至关重要。
为了使 AI-RAN 具备商业可行性,服务提供商需要像对待云原生网络功能(CNF)和应用一样灵活地对待 AI 工作负载。于是,软银与红帽通过 llm-d 和 vLLM 在 AI-RAN 领域展开合作。
llm-d:推理和 Orchestrator 之间的桥梁
vLLM 已成为 AI 推理领域的开源领导者,可在单个 GPU 节点上实现高性能模型部署。但是,它无法在复杂的多节点环境中管理模型部署。这正是 llm-d 所要解决的具体问题。llm-d 利用 Kubernetes,跨多个节点编排 vLLM,以实现生产级规模的 AI 推理,并将 vLLM 的高效性扩展到分布式环境中。
通过将 llm-d 集成到 SoftBank AITRAS Orchestrator 中,服务提供商能够实现以下重大突破:
- 统一 AI 和 RAN 工作负载: AITRAS 跨多个 GPU 集群编排和优化 RAN 工作负载和 LLM 请求,而 llm-d 和 vLLM 则智能地(基于前缀、kvcache 和负载感知)将推理请求路由到 GPU,从而更无缝地管理 GPU 资源并实现自动扩展。
- 硬件感知优化:LLM 推理涉及两个不同的阶段:预填充(计算密集型提示词处理)和解码(受内存带宽限制的词元生成)。为了最大限度地提高异构配置下的硬件利用率,llm-d 使 AITRAS 能够通过为每个阶段动态分配专用 GPU 资源,从而实现预填充与解码的解耦。这种能力与其他 Kubernetes 资源管理功能相结合,有助于缓解高性能 AI 需求可能导致共享同一硬件的关键 RAN 功能资源不足的风险,而这对于保障网络弹性以及确保为所有客户提供卓越的服务质量(QoS)至关重要。
- 针对动态需求的自主扩展:用户对 LLM 服务的请求波动性极高。通过使用 llm-d,AITRAS 能够根据工作负载配置文件自动分配和扩展预填充和解码工作角色。这种优化分配方式不仅降低了用户侧的延迟,还显著减少了功耗,进而降低了总拥有成本(TCO),并支持服务提供商实现可持续发展目标。
为什么这对 5G 和 6G 的未来至关重要
通过将 llm-d 集成到 AITRAS 中,有效地为边缘的 AI 提供了操作系统。这使得软银能够在节能架构(包括基于 Arm 的系统)上运行高性能推理和 RAN 工作负载,从而证明 AI-RAN 能够实现下一代移动网络所需的可扩展性和灵活性。通过从手动配置转向由 llm-d 驱动的自动化部署模型,服务提供商可以消除一直以来阻碍边缘 AI 发展的运维复杂性。
服务提供商正在进入一个新时代,在这个时代,网络不仅能传输数据,还可智能、高效地处理数据。若想进一步了解此次集成带来的成果,欢迎莅临红帽在 2026 年巴塞罗那世界移动通信大会上的展位,届时将有专家现场解读 llm-d 与 AITRAS 如何将 AI-RAN 愿景变为现实。
与此同时,您也可以探索红帽 AI 的优势,并深入了解红帽与软银在开发 AI-RAN 技术及优化网络性能方面的协作。