用例

依托红帽 AI 实现快速高效的推理

联系红帽

通过优化推理，让您的模型更快速、更智能、更可靠

推理是生成式 AI 的核心。但随着模型复杂度提升，推理速度会相应放缓，运维难度也随之增加。

要进行大规模推理，模型需要消耗大量存储、内存与算力资源，这往往占据企业大部分预算。而代理式 AI 的快速普及，则进一步加重了算力负荷。

红帽® AI 可优化推理过程，帮助保持成本效益、让团队能够轻松扩展并为代理式 AI 提供可靠支持。

可在任意云环境中、任意加速器上选择任意模型。

充分利用现有基础架构，降低单个词元成本并提升吞吐量。

借助智能分布式推理能力和突发需求预判，实现动态扩展。

核心能力

红帽 AI 支持快速、一致且经济高效的大规模推理。在 vLLM 和 llm-d 等开源技术的推动下，该服务可提供跨混合云扩展的灵活性，让企业能够自由选择模型和加速器。

为什么要关注推理

跨混合云部署与扩展

确保 GPU、TPU 等各类硬件加速器间的运维一致性，支持在本地、云端或边缘运行模型。

自主选择模型与加速器

可自由组合各类模型及硬件加速器，运维体验始终一致。无需重建整套技术栈，即可构建统一的模型即服务架构。

支持任意规格模型压缩与量化

在保持模型高响应准确率的同时，降低计算资源消耗及相关成本。

通过降低单个词元成本来提升吞吐量

借助 vLLM 与 llm-d 充分挖掘现有基础架构潜力。通过优化可用资源实现低延迟、高吞吐量，从而以更高的成本效益大规模运行推理服务和代理。

管理端到端模型生命周期

在以 Kubernetes 为核心的单一集中式平台上，使用熟悉的工具和框架进行构建。

保障大规模稳定运行

通过权限管控、策略执行与运行观测，统筹管理所有推理工作负载。

红帽 AI 模型即服务

深入了解这款兼具可扩展性、开放性和成本效益的模型即服务（MaaS）。

使用红帽 AI 实现 233% 的投资回报率

红帽委托 Forrester Consulting 进行的一项研究发现，某综合型企业组织（基于当前的红帽 AI 客户）通过部署红帽 AI 实现了 233% 的 ROI。¹

了解它如何发挥效用

红帽 AI 依托开源技术提供灵活部署方案，帮助在模型、代理和应用中实现高效、经济且可控的推理。

通过红帽 AI 进行 AI 模型推理 | 红帽技术详解。视频时长：4:19

特色功能

红帽 AI 可对模型、代理及硬件实现精细化管控，优化大规模推理性能。

vLLM

最大限度提升吞吐量与 GPU 利用率

vLLM 是一款推理引擎，旨在最大限度提升各类硬件加速器的吞吐能力并缩短响应时长。它采用 PagedAttention 算法优化 GPU 资源利用率，加快生成式 AI 应用的内容输出速度。

借助 vLLM，可在任意 AI 加速器上优化任意生成式 AI 模型的部署，同时确保生产环境中的推理行为可控且可预测。

进一步了解 vLLM

llm-d

加速大规模分布式推理

llm-d 是一种开源的 Kubernetes 原生框架，可加速大规模的分布式 LLM 推理。

这意味着当 AI 模型接收到数据量庞大的复杂查询时，llm-d 能够提供一套框架来加速这一处理过程。其易用的模块化架构，使 llm-d 成为实现大规模分布式 LLM 推理的理想平台。在支持推理能力弹性扩展的同时，保障分布式工作负载的运行一致性、管控能力与合规治理。

进一步了解 llm-d

面向生成式 AI 的遥测

获取数据洞察，达成严格的服务级别目标（SLO）

依托生产环境中的指标与洞察，找出模型可优化的方向与方式。查看特定于模型的性能指标，例如首个词元生成时间、KV 缓存命中率和 GPU 利用率。借助这些指标监控性能、识别异常问题，保障推理服务符合运维、安全及各项策略要求。

模型优化工具包

压缩与量化模型，突破资源限制

借助丰富的模型工具集，优化您对基础模型与定制化模型的选择。通过量化或稀疏化等技术，降低硬件要求并削减推理成本。

工具集内包含 LLM Compressor 等工具。它可利用最新模型压缩技术，使 LLM 更小巧、更节能、更快速。这可降低硬件要求并提升效率，且不影响模型准确性。

除核心功能外，LLM Compressor 可与各类工具和平台广泛集成。它支持在 Hugging Face Transformers 生态系统中完成推理，实现部署前精度校验；还可对接模型微调框架，让用户在有监督训练的过程中保留模型稀疏特性。

该工具在实现上述各项优化的同时，还可在部署前保障模型可验证、结果可复现，并实现对模型行为的管控。

进一步了解 LLM Compressor

模型即服务

采用开源、可移植策略管理内部模型访问

红帽 AI 集成了托管式 API 网关，让 AI 平台工程师可以构建内部模型即服务（MaaS）能力。它以开放、模块化且不受供应商限制的方式，支持在混合云环境中部署和运行模型。

依托集中式 MaaS 架构管控模型访问权限，可限定特定模型的访问主体，执行管理策略，并监测用户、应用与代理的使用情况，这有助于大规模、可靠、可审计且符合策略要求地使用模型。

开发人员可以更轻松地使用 AI 模型与 GPU 资源，快速接入 API 端点；而平台工程师则可以对高性能自托管模型的访问和使用进行控制、治理与监控。

搭配支持模型与代理的突发需求及大规模负载的推理架构，开放式模型访问管理策略可为代理式 AI、模型微调与规模化 AI 应用奠定坚实基础。

查看 MaaS 文档

红帽 AI 模型目录

从红帽经过验证的模型集中选择生成式 AI 模型

您可以使用任意生成式 AI 模型，也可以从我们经过优化的开源和第三方模型集合中进行选择。这些模型均经过验证，可在红帽 AI 平台上高效运行。

红帽 AI 借助 GuideLLM、Language Model Evaluation Harness 和 vLLM 等开源工具进行模型验证。此举可保障客户获得可复现的运行结果，确保模型经过验证且值得信赖，可跨环境统一部署。

访问模型目录

自由选择您的供应商

我们与软件和硬件供应商以及开源社区携手合作，提供全面的 AI 解决方案。

通过红帽技术认证的合作伙伴产品与服务，皆经过严格测试并提供企业级支持，确保与红帽技术体系无缝衔接。

了解红帽 AI 合作伙伴

下一步行动

试用

Lorem ipsum dolor sit amet consectetur.Tristique sapien gravida adipiscing.

购买

Lorem ipsum dolor sit amet consectetur.Tristique sapien gravida adipiscing.

快速开始

Lorem ipsum dolor sit amet consectetur.Tristique sapien gravida adipiscing.

联系红帽

¹红帽委托 Forrester Consulting 进行的研究。“Forrester 发布的《红帽 AI 的总体经济影响™》”，2026 年 2 月。

依托红帽 AI 实现快速高效的推理

通过优化推理，让您的模型更快速、更智能、更可靠

核心能力

跨混合云部署与扩展

自主选择模型与加速器

支持任意规格模型压缩与量化

通过降低单个词元成本来提升吞吐量

管理端到端模型生命周期

保障大规模稳定运行

红帽 AI 模型即服务

使用红帽 AI 实现 233% 的投资回报率

了解它如何发挥效用

特色功能

最大限度提升吞吐量与 GPU 利用率

加速大规模分布式推理

获取数据洞察，达成严格的服务级别目标（SLO）

压缩与量化模型，突破资源限制

采用开源、可移植策略管理内部模型访问

从红帽经过验证的模型集中选择生成式 AI 模型

自由选择您的供应商

下一步行动

试用

购买

快速开始

联系红帽

平台

工具

试用购买与出售

联系我们

关于红帽

切换页面语言

Red Hat legal and privacy links

Red Hat legal and privacy links