红帽 AI 推理

红帽® AI 推理是一个集成式堆栈,可大规模提供快速、一致且经济高效的推理。

AI 推理的成本是否过高?视频时长:2:16

什么是红帽 AI 推理?

红帽 AI 推理支持在混合云环境中、基于任意加速器运行任意模型,可帮助企业获得统一的运维控制能力。 

该端到端推理堆栈由 vLLM 和 llm-d 提供支持,能够优化令牌经济性和硬件容量,从而实现更快的响应速度。作为代理式 AI 和模型即服务模式的引擎,这项开源技术可在不牺牲性能的前提下提高效率。

vLLM:提供核心驱动力的开源技术

vLLM 是一种高效的推理引擎,能够解决 GPU 利用率问题,在规模化部署时实现更低的每词元成本和稳定的延迟。 

凭借可移植的开源方法和日益壮大的社区,vLLM 正逐渐成为生成式 AI 推理领域的 Linux®。

作为领先的商业贡献者,红帽提供独特的 vLLM 专业知识,助您达成 AI 目标。

如今的 vLLM 社区

超过 50 万个已部署 GPU 全天候不间断运行1

超过 200 种不同类型的加速器2

支持的模型架构超过 500 种2

吞吐量是竞争对手的 24 倍3

优势

硬件和模型灵活性

在任何硬件和云上运行任何模型时,都能保持运维一致性。

将 AI 与其底层基础架构分离,以构建统一的模型即服务架构,并高效地提供模型服务并为代理赋能。 

管理词元经济

使用 vLLM 和 llm-d 来提高吞吐量并降低每词元成本。 

优化现有资源,以经济高效的方式运行代理,并可持续地扩展 AI。 

可预测的扩展能力

智能地分发推理流量,以便在现有基础架构上为更多用户和代理提供服务。 

从多模式代理式工作流到基于 RAG 的聊天机器人和代码助手,可靠地管理各种用例和需求。 

llm-d 图标

抢先体验 llm-d

红帽 AI 推理现支持在第三方 Kubernetes 环境中抢先体验 llm-d,并在红帽 OpenShift® 上提供分布式推理功能。 

模型选择,由您决定

无需重建 AI 堆栈,即可构建统一的模型即服务架构。 

红帽 AI 推理可在开源模型和硬件加速器的任意组合中,提供运维一致性。借助我们经过成本优化的模型集合,自信地加速部署,这些模型均经过验证,可在红帽 AI 平台上高效运行。 

红帽 AI 带来 233% 的 ROI

红帽委托 Forrester Consulting 开展了一项总体经济影响™(TEI)研究,分析企业通过部署红帽 AI 可能实现的潜在投资回报率(ROI)。 

通过采访红帽 AI 客户,分析结果显示一家综合型企业组织在三年内实现了 233% 的 ROI,这意味着总价值达到初始投资的三倍以上。4

产品亮点

获得一个全面、完全集成的推理堆栈,专为大规模高效地提供模型服务而设计。

功能详细信息优势 
llm-d
在 OpenShift 上运行分布式推理功能,或在第三方 Kubernetes 环境中抢先体验 llm‑d。加快推理速度,并充分利用在您选择的 Kubernetes 发行版上运行的 AI 基础架构。 查看文档
特定于生成式 AI 的遥测
查看特定于模型的性能指标,例如首个词元生成时间、KV 缓存命中率和 GPU 利用率。 

获取洞见,以满足严格的服务级别目标(SLO),并了解您的模型在哪些方面可以进行改进。 

 
模型优化工具包
利用稀疏化或量化等技术来优化自定义或基础模型。最大限度地提高硬件容量,以尽可能降低成本并加快推理速度。查看文档
稀疏混合专家模型(MoE) 
运行具有低延迟代理和复杂推理模型的稀疏 MoE 架构。 借助高效的模型架构,在不牺牲性能的情况下降低推理成本。查看文档
经认证适用于所有红帽产品
红帽 AI 推理的各项功能是红帽 AI Enterprise 和红帽 OpenShift® AI 的组成部分。这些功能在红帽 OpenShift 和红帽企业 Linux 上也受到支持。使用红帽产品,或根据我们的第三方支持政策跨 Linux 和 Kubernetes 平台进行部署。查看文档

如何购买

红帽 AI 推理既可作为独立产品购买,也可作为红帽 AI 的一部分提供。 它基于 llm-d 和 vLLM 的功能已包含在红帽 AI Enterprise 和红帽 OpenShift AI 中。 

能够满足您需求并按您意愿运行的 AI。

生成式 AI

生成式 AI

制作文本和软件代码等新内容。 

借助红帽 AI,您可以更快地运行您选择的生成式 AI 模型,同时减少资源消耗并降低推理成本。 

预测性 AI

预测性 AI

应用模式并预测未来结果。 

借助红帽 AI,企业组织能够构建、训练、部署和监控预测模型,同时在混合云环境中始终保持一致性。

运营化 AI

运营化 AI

创建支持大规模维护和部署 AI 的系统。 

借助红帽 AI,在节省资源并确保遵守隐私法规的同时,管理与监控支持 AI 的应用的生命周期。 

代理式 AI

代理式 AI

构建在有限监督下执行复杂任务的工作流。 

红帽 AI 为在现有应用中构建、管理和部署代理式 AI 工作流提供了灵活的方法和稳定的基础。

与合作伙伴共同部署

红帽 AI 汇聚了众多专家和各种技术,让客户能够利用 AI 实现更多目标。了解与红帽携手同行的所有合作伙伴,以认证他们的产品能否与我们的解决方案无缝衔接。 

戴尔科技徽标
联想徽标
英特尔徽标
英伟达徽标
AMD 徽标

2025 年红帽全球峰会和 AnsibleFest 大会 AI 客户案例集锦

土耳其航空公司

土耳其航空公司通过实现企业范围内的数据访问,将部署速度提高了一倍。

JCCM 徽标

JCCM 利用 AI 技术,改进了该地区的环境影响评估(EIA)流程。

DenizBank

Denizbank 将上市时间从数天缩短到数分钟。

Hitachi 徽标

Hitachi 借助红帽 OpenShift AI 在整个业务范围内实施了 AI。

常见问题解答

是否需要购买红帽 AI Enterprise 或红帽 OpenShift AI 才能使用红帽 AI 推理?

不需要。红帽 AI 推理可作为独立的红帽产品单独购买。 

是否需要购买红帽 AI 推理和红帽 AI Enterprise?

不需要。红帽 AI Enterprise 和红帽 OpenShift AI 中已包含红帽 AI 推理基于 vLLM 和 llm-d 的功能。 

红帽 AI 推理能否在红帽企业 Linux 或红帽 OpenShift 上运行?

可以。根据我们的第三方协议,红帽 AI 推理基于 vLLM 的运行时也可以在第三方 Linux 和 Kubernetes 环境中运行。它还提供抢先体验,可在第三方 Kubernetes 环境中运行其基于 llm-d 的分布式推理功能。 

红帽 AI 推理如何定价?

按加速器数量计费。 

探索更多 AI 资源

如何开启企业 AI 之旅

如何开始采用 AI 推理

跨混合云扩展企业 AI 推理

网络培训课堂:如何提升性能并优化成本

联系销售代表

联系红帽,咨询红帽 AI 相关事宜

1Michael Goin。“[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - December 18, 2025”([vLLM Office Hours 第 38 期] vLLM 2025 年回顾与 2026 年路线图——2025 年 12 月 18 日),YouTube,2025 年 12 月 8 日。

2 Woosuk Kwon。“Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale”(如今,vLLM 支持超过 500 种模型架构,可在超过 200 种加速器上运行,并为全球范围内的大规模推理提供动力),X,2026 年 1 月 26 日。 

3Woosuk Kwon 等。“vLLM:Easy, Fast, and Cheap LLM Serving with PagedAttention”(vLLM:基于 PagedAttention 实现简单、快速且低成本的 LLM 服务),vLLM 博客,2023 年 6 月 20 日。

4红帽委托 Forrester Consulting 进行的研究。“Forrester 发布的《红帽 AI 的总体经济影响™》”,2026 年 2 月。