llm-d 如何通过软银的 AI-RAN Orchestrator 实现关键资源优化

2026 年 2 月 18 日Tushar Katarki5 分钟阅读

随着 AI-RAN 技术逐渐落地，许多电信服务提供商开始意识到，关键问题不再仅仅是能否在同一硬件上运行 AI 和无线接入网络（RAN），而是如何大规模地管理 AI。

在红帽与软银公司的最新合作中，我们已将 llm-d 集成到软银的 AI-RAN Orchestrator——AITRAS 中。llm-d 是由红帽与其他行业领导者共同创建的一个开源框架，旨在 RAN 内动态、智能地分发大语言模型（LLM）的推理任务，以实现更高效率和更强性能。

需要回顾一下 llm-d 相关知识吗？获取入门级概述

问题：在服务提供商边缘实现 AI 与 RAN 工作负载的统一

传统的 RAN 应用由服务提供商广泛部署在边缘的 CPU 和 GPU 上，并且通常利用红帽 OpenShift 等 Kubernetes 平台。然而，近期生成式 AI 和基于 Transformer 的语言模型爆发式增长，这促使边缘出现新的计算形式和洞察分析能力。如今，除了传统的 RAN 之外，还出现了一些由 AI 驱动的 RAN 应用和代理，它们需要在边缘具备运行时环境和推理端点。

因此，对于服务提供商而言，关键问题在于如何使传统的 RAN 与这些新的语言模型和代理在 RAN 上实现有效共存，从而解锁新的用例、创造价值并实现盈利。这种统一对于降低运营支出（OpEx）和加快新的创收型边缘服务的上市时间至关重要。

为了使 AI-RAN 具备商业可行性，服务提供商需要像对待云原生网络功能（CNF）和应用一样灵活地对待 AI 工作负载。于是，软银与红帽通过 llm-d 和 vLLM 在 AI-RAN 领域展开合作。

llm-d：推理和 Orchestrator 之间的桥梁

vLLM 已成为 AI 推理领域的开源领导者，可在单个 GPU 节点上实现高性能模型部署。但是，它无法在复杂的多节点环境中管理模型部署。这正是 llm-d 所要解决的具体问题。llm-d 利用 Kubernetes，跨多个节点编排 vLLM，以实现生产级规模的 AI 推理，并将 vLLM 的高效性扩展到分布式环境中。

通过将 llm-d 集成到 SoftBank AITRAS Orchestrator 中，服务提供商能够实现以下重大突破：

统一 AI 和 RAN 工作负载： AITRAS 跨多个 GPU 集群编排和优化 RAN 工作负载和 LLM 请求，而 llm-d 和 vLLM 则智能地（基于前缀、kvcache 和负载感知）将推理请求路由到 GPU，从而更无缝地管理 GPU 资源并实现自动扩展。
硬件感知优化：LLM 推理涉及两个不同的阶段：预填充（计算密集型提示词处理）和解码（受内存带宽限制的词元生成）。为了最大限度地提高异构配置下的硬件利用率，llm-d 使 AITRAS 能够通过为每个阶段动态分配专用 GPU 资源，从而实现预填充与解码的解耦。这种能力与其他 Kubernetes 资源管理功能相结合，有助于缓解高性能 AI 需求可能导致共享同一硬件的关键 RAN 功能资源不足的风险，而这对于保障网络弹性以及确保为所有客户提供卓越的服务质量（QoS）至关重要。
针对动态需求的自主扩展：用户对 LLM 服务的请求波动性极高。通过使用 llm-d，AITRAS 能够根据工作负载配置文件自动分配和扩展预填充和解码工作角色。这种优化分配方式不仅降低了用户侧的延迟，还显著减少了功耗，进而降低了总拥有成本（TCO），并支持服务提供商实现可持续发展目标。

为什么这对 5G 和 6G 的未来至关重要

通过将 llm-d 集成到 AITRAS 中，有效地为边缘的 AI 提供了操作系统。这使得软银能够在节能架构（包括基于 Arm 的系统）上运行高性能推理和 RAN 工作负载，从而证明 AI-RAN 能够实现下一代移动网络所需的可扩展性和灵活性。通过从手动配置转向由 llm-d 驱动的自动化部署模型，服务提供商可以消除一直以来阻碍边缘 AI 发展的运维复杂性。

服务提供商正在进入一个新时代，在这个时代，网络不仅能传输数据，还可智能、高效地处理数据。若想进一步了解此次集成带来的成果，欢迎莅临红帽在 2026 年巴塞罗那世界移动通信大会上的展位，届时将有专家现场解读 llm-d 与 AITRAS 如何将 AI-RAN 愿景变为现实。

与此同时，您也可以探索红帽 AI 的优势，并深入了解红帽与软银在开发 AI-RAN 技术及优化网络性能方面的协作。

深入探讨：llm-d 详解

关于作者

Tushar Katarki

了解更多

按频道浏览

探索所有频道

llm-d 如何通过软银的 AI-RAN Orchestrator 实现关键资源优化

问题：在服务提供商边缘实现 AI 与 RAN 工作负载的统一

llm-d：推理和 Orchestrator 之间的桥梁

为什么这对 5G 和 6G 的未来至关重要

关于作者

Tushar Katarki

更多此类内容

了解更多

按频道浏览

平台

工具

试用购买与出售

联系我们

关于红帽

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links