您的大语言模型(LLM)概念验证(PoC)取得了成功。接下来怎么办?如何从单个服务器跃升到生产级分布式 AI 推理,是大多数企业都会遭遇的瓶颈。支撑您走到目前阶段的基础架构已无法满足后续需求。
正如最近一期《技术探讨》播客所探讨的,大多数企业组织的 AI 之旅和 PoC 始于在单个服务器上部署模型,这是一项易于管理的任务。但下一步往往需要跳跃式地升级到分布式生产级 AI 推理。这种跳跃并非简单地叠加计算机就能实现。我们认为,需要让基础架构本身具备一种新型智能,即一种 AI 感知型控制平面,可以帮助管理这些独特且动态的工作负载的复杂性。
新挑战:分布式 AI 推理
大规模部署 LLM 会带来一系列传统基础架构无法应对的挑战。例如,标准 Web 服务器处理的是统一形式的请求。相比之下,AI 推理请求不仅难以预测,还会占用大量资源,并且对计算、内存和网络的需求各不相同。
可以把它想象成现代物流。将小包裹从一个城市运送到另一个城市非常简单。但是,协调全球供应链需要智能物流管理系统,该系统应能够跟踪成千上万的货物运输,动态规划不同类型货物的运输路线,并调整调度安排,确保所有货物都能准时送达。如果没有这种精心规划的智能协调机制,整个系统就会崩溃。同样,如果没有智能基础架构层,扩展 AI 就会变得低效、昂贵且不可靠。
这些工作负载的复杂性与 LLM 推理的预填充和解码阶段息息相关。预填充阶段需要一次性处理整个输入提示,属于计算密集型任务;解码阶段则一次生成一个输出令牌,更依赖于内存带宽。
大多数单服务器部署会将这两个阶段并置于同一硬件上,这可能会造成瓶颈并导致性能不佳,尤其是具有各种请求模式的高流量工作负载,常会出现此类问题。而真正的挑战在于优化首令牌生成时间(预填充阶段)和令牌间延迟(解码阶段),从而最大限度地提高吞吐量,尽可能增加可处理的并发请求数量,同时始终满足所设定的服务水平目标(SLO)——对于企业用例,满足 SLO 至关重要。
制定共同愿景,解决共同问题
在应对这个复杂的全行业挑战方面,开源的力量显而易见。当硬件供应商、云提供商和平台构建商共同面对一个难题时,协作往往能催生最有效的解决方案。与其让数十家企业组织各自为政地解决同一个问题,不如开展共享的开源项目,既能加速创新,又有助于建立通用标准。
llm-d 项目 就是落实这种协作的典型范例。该项目由红帽和 IBM Research 发起,很快就汇集了包括 Google 和 NVIDIA 在内的众多行业领军企业,各方共同致力于实现一个协作制定的愿景。
作为一项技术,llm-d 旨在提供一条“光明大道”,即为大规模管理 AI 推理提供清晰且经过验证的蓝图。该社区没有从头开始构建一切,而是专注于应对大规模运行 AI 工作负载的运维挑战,进行相应的优化和标准化。
llm-d:生产级 AI 的蓝图
llm-d 项目正在开发一个开源控制平面,以增强 Kubernetes 运行 AI 工作负载所需的特定功能。该平面不会取代 Kubernetes,而是添加一个专门的智能层,并将 vLLM 的运行时性能扩展到分布式层。
llm-d 社区专注于构建有助于直接提高 AI 推理性能和效率的功能,包括:
- 语义路由:llm-d 的调度程序能够感知每个推理请求的独特资源要求。它可以更明智地决定在何处运行工作负载,更高效地利用昂贵的资源,并防止发生代价高昂的过度置备。这超越了传统的负载均衡,通过使用实时数据(例如模型键值(KV)缓存的利用率),将请求路由到最优实例。
- 工作负载分解:llm-d 将复杂的推理任务分解为易于管理的较小部分,特别是预填充和解码阶段,常常会这么操作。这提供了精细控制,并支持使用异构硬件,因此可为每个任务分配适当的资源,以帮助降低总体运维成本。例如,预填充 Pod 可针对计算密集型任务进行优化,解码 Pod 则针对内存带宽效率进行定制。这可以实现单体式方法无法实现的精细优化。
- 支持高级架构:llm-d 旨在处理混合专家(MoE)等新兴模型架构,这类架构需要跨多个节点进行复杂的编排和并行处理。通过支持广泛的并行性,llm-d 能够高效利用这些稀疏模型。相较于密集模型,稀疏模型的性能和成本效益更高,但大规模部署的难度更大。
llm-d 社区正从高性能计算(HPC)和大型分布式系统等领域汲取最佳理念,同时努力避免可能导致这些技术难以使用的死板、专用化的设置。它通过战略性地整合开源技术(例如用于模型服务的 vLLM 和用于调度的推理网关),致力于创建一个统一的框架。
专注于可操作性和灵活性是该项目的核心设计原则,目前项目已支持来自 NVIDIA、AMD 和英特尔等供应商的多个硬件加速器。通过创建一个可跨不同硬件和环境运行的灵活控制平面,llm-d 正努力为企业 AI 的未来建立强健且持久的标准。
最后的想法
对于当前专注于实施 AI 的 IT 主管而言,llm-d 项目的价值不仅限于其社区。这个开源联盟正在开展的工作——特别是开发 AI 感知型智能控制平面——直接回应了许多企业组织如今面临的生产挑战。
llm-d 的优势显而易见:
- 超越单一服务器:扩展 LLM 并不是简单地添加更多计算机。它涉及实施一个战略性的基础架构层,该层可以智能地管理分布式工作负载、处理复杂的硬件,并优化成本和性能。
- 利用开放标准:最可靠的解决方案来自协作式开源工作,而非专有的封闭技术。采用符合这些开放标准的平台可以避免供应商锁定,并为 AI 计划提供更灵活的、面向未来的环境。
- 与值得信赖的合作伙伴一起实施:您无需成为分布式系统方面的专家,也不必直接为 llm-d 项目做出贡献,就能从其创新中获益。社区创造的价值已集成到红帽 AI 等受支持的企业平台中,为大规模部署和管理 AI 提供了一致且值得信赖的基础。
企业 AI 的未来取决于坚实的基础架构基础。llm-d 社区正在构筑这样的基础,而红帽 AI 等平台可以帮助您将其付诸实践。
关于作者
Chris Wright is senior vice president and chief technology officer (CTO) at Red Hat. Wright leads the Office of the CTO, which is responsible for incubating emerging technologies and developing forward-looking perspectives on innovations such as artificial intelligence, cloud computing, distributed storage, software defined networking and network functions virtualization, containers, automation and continuous delivery, and distributed ledger.
During his more than 20 years as a software engineer, Wright has worked in the telecommunications industry on high availability and distributed systems, and in the Linux industry on security, virtualization, and networking. He has been a Linux developer for more than 15 years, most of that time spent working deep in the Linux kernel. He is passionate about open source software serving as the foundation for next generation IT systems.