克服大规模 AI 推理的成本与复杂性挑战

2025 年 10 月 21 日Brian Stevens5 分钟阅读

大规模实施 AI 模型，这是 IT 领导者面临的一项重大挑战。虽然训练大语言模型（LLM）的初始成本可能很高，但真正的且经常被低估的费用其实与推理密切相关。

AI 推理（即利用经过训练的模型生成输出的过程）是 AI 应用中资源最密集且成本最高的环节，尤其因为它在生产过程中持续不断地发生。推理效率低下，这可能会影响 AI 项目的潜在投资回报率（ROI），更会因高延迟而对客户体验产生负面影响。

全栈式的 AI 性能优化方法

要大规模、高效地提供 LLM 服务，需要一种战略性的全栈方法，既能解决模型本身的问题，又能解决服务运行时的问题。单一方法远远不足以应对。要实现高性能与成本效益的双重目标，必须双管齐下，既要有效管理资源消耗，又要最大限度地提高吞吐量。

优化 AI 模型

这种方法的核心策略是模型压缩，该技术能在不损害准确性的前提下，缩小模型规模并降低资源需求。

量化是模型优化的一项关键技术。它将模型数值（例如权重和激活值）的精度从标准的 16 位降低至 8 位或 4 位等更低格式。这显著缩小了模型的内存占用空间，使模型能够在更少的硬件上运行。

稀疏性是另一种有效的方法，它通过删除不必要的连接（权重）来提高模型效率。这使得网络规模更小、速度更快，对准确性的影响也最低。

优化推理运行时

优化服务运行时同样至关重要。基本运行时常会遇到 GPU 内存使用效率低下和令牌生成缓慢的问题，导致 GPU 闲置和高延迟。高性能运行时可以最大限度利用昂贵的 GPU 硬件资源，同时降低延迟。

开源 vLLM 项目已成为高性能推理的行业标准，因为它通过针对效率进行优化的技术，克服了这些运行时限制问题。

连续批处理通过并行处理来自多个请求的令牌，最大限度地减少 GPU 空闲时间。它不再一次处理一个请求，而是将来自不同序列的令牌分组到多个批次中。这种方法可显著提高 GPU 利用率和推理吞吐量。
PagedAttention 是另一个示例。借助这种全新的内存管理策略，可高效处理大规模键值（KV）缓存，支持更多并发请求和更长的序列，同时减少内存瓶颈。

实现分布式大规模 AI

对于拥有高流量应用的企业而言，单服务器部署往往难以满足需求。开源 llm-d 项目基于 vLLM 的功能构建，可实现分布式多节点推理。这使企业组织能够将 AI 工作负载扩展至多个服务器，以应对日益增长的需求和更大的模型，同时保持可预测的性能表现和成本效益。

llm-d 是一个开源控制平面，可为 Kubernetes 增强 AI 工作负载所需的特定功能。该项目侧重于影响推理性能和效率的功能，包括：

语义路由：llm-d 利用实时数据智能地将推理请求路由至最佳实例。这提高了资源利用效率，并减少了成本高昂的过度置备。
工作负载分解：将预填充和解码阶段分离开来，确保为不同任务调配最优资源。
支持高级架构：llm-d 旨在处理需要跨多个节点编排和并行处理的新兴模型架构，例如混合专家模型（MoE）。

通过创建一个可跨不同硬件和环境运作的灵活控制平面，llm-d 社区正致力于为大规模企业 AI 部署建立标准。

红帽如何简化大规模 AI 部署

在企业层面采用 AI，这所涉及到的不仅仅是选择模型。这需要跨混合云基础架构的开发、部署和管理策略。红帽提供了一系列企业就绪型产品，旨在简化和加速从初始模型开发到大规模推理的整个过程。

红帽 AI

红帽 AI 产品组合提供全栈式的 AI 优化方法。这款集成式产品包含红帽企业 Linux AI（RHEL AI）、红帽 OpenShift AI 和红帽 AI 推理服务器。

RHEL AI 为 AI 开发奠定了基础，将 RHEL 与关键开源组件（例如 IBM 的 Granite 模型）和 PyTorch 等库打包在一起。该平台具有可移植性，能够在本地、公共云或边缘运行。
红帽 OpenShift AI 基于红帽 OpenShift 构建，专为管理整个 AI 生命周期而设计。它为数据科学家、开发人员和 IT 团队提供了一致的协作环境，能够跨混合云环境扩展 AI 工作负载，并简化硬件加速器的管理。
红帽 AI 推理服务器通过提供受支持的 vLLM 发行版来优化推理，该发行版专为实现高吞吐量、低延迟性能而设计。红帽 AI 推理服务器以容器形式交付，可在不同的基础架构之间移植，并包含模型压缩工具，以帮助减少计算资源消耗。要实现跨单服务器的扩展，红帽 AI 推理服务器可与开源 llm-d 项目搭配使用。

对于 IT 领导者而言，全栈混合云 AI 策略是大规模实施 AI 的最有效途径。红帽 AI 基于我们“任何模型、任何加速器、任何云”的愿景，提供了一致的基础，帮助企业组织从 AI 实验阶段迈向生产就绪型 AI 全面部署阶段。

了解更多

要开始让您的企业组织迈向简化、可扩展的 AI 之旅，请探索红帽 AI 网站上提供的资源。

关于作者

Brian Stevens

SVP and AI CTO

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

Read full bio

了解更多

按频道浏览

探索所有频道

克服大规模 AI 推理的成本与复杂性挑战

全栈式的 AI 性能优化方法

优化 AI 模型

优化推理运行时

实现分布式大规模 AI

红帽如何简化大规模 AI 部署

红帽 AI

了解更多

关于作者

Brian Stevens

更多此类内容

了解更多

按频道浏览

平台

工具

试用购买与出售

联系我们

关于红帽

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links