红帽自豪地宣布,通过与英伟达进行深入的工程协同设计,我们在最新的 MLPerf 推理 v6.0 基准测试中取得了业界领先的成果。这些结果表明,将红帽的开源领导力与英伟达领先的 AI 基础架构相结合,可打造出一个成熟可靠的多功能平台,足以应对从视觉和语音到复杂推理的任何企业级推理工作负载。
我们最新提交的评测结果侧重于充分释放 NVIDIA HGX H200 和 NVIDIA HGX B200 系统的潜能,这证明了要实现投资回报率最大化,软件优化与原始算力同等重要。
结果概览
在语言、视觉及语音模型领域,红帽堆栈在 NVIDIA AI 基础架构上均展现出一流的吞吐量与延迟表现。
模型类别 | 模型 | GPU 配置 | 场景 | 领先成果 |
视觉 | Qwen3-VL-235B | 8 个 NVIDIA B200 | 服务器 | 67.9 个样本/秒 |
推理 | GPT-OSS-120B | 8 个 NVIDIA B200 | 离线 | 93,071 个词元/秒 |
语音 | Whisper-Large-v3 | 8 个 NVIDIA H200 | 离线 | 36,396 个词元/秒 |
Qwen3-VL-235B(多模态视觉模型)
Qwen3-VL-235B 模型是一个包含 2,350 亿参数的大型多模态视觉语言模型,由于图像分辨率高度可变,这对推理引擎构成了严峻的挑战。通过在红帽企业 Linux(RHEL)上运行搭载 vLLM 与 NVIDIA Dynamo 的 NVIDIA Blackwell GPU,我们实现了同类产品中最高的离线吞吐量。值得注意的是,在服务器场景中,我们基于 Blackwell 架构提交的评测结果比第二名高出 50%。
关键工程成果:
- 基于 Triton 的改进:通过对视觉编码器进行优化,ViT 处理速度提升了 30-40%。
- FlashInfer 混合专家模型(MoE)内核:这些专用内核以极高的效率处理 MoE 架构。
- FP8 多模态注意力机制:利用 NVIDIA 的高级数据格式,在不牺牲准确性的情况下降低每个词元的成本。
GPT-OSS-120B
我们针对 GPT-OSS-120B 提交的评测结果,标志着首次有如此规模的模型在 Kubernetes 基础架构上进行 MLPerf 基准测试。通过使用红帽 OpenShift AI 和 llm-d 调度程序,我们证明了分布式推理可以在 NVIDIA AI 基础架构(H200 和 B200 GPU)上有效扩展,同时满足严格的延迟要求。
我们采用了双管齐下的策略来优化推理性能。首先,我们在 OpenShift 上运行的基于贝叶斯优化的超参数调优管道,为单个副本确定了最佳配置,将 P99 首词元生成时间(TTFT)从 3.4 秒降至 2.1 秒(提升约 38%),成功达成低于 3 秒的目标。
其次,我们通过完善负载均衡与评分策略,优化了多副本性能。通过分析请求在各个副本间的分布情况,我们提高了资源利用率并最大限度地减少了尾部延迟,从而确保在负载压力下实现更一致的扩展。
Whisper Large-V3(语音转文本)
我们提交了 Whisper-large-v3 在 NVIDIA H200 与 NVIDIA L40S GPU 上的评测结果,两者均运行于红帽企业 Linux(RHEL)和 vLLM 之上。
- 8 个 H200(离线): 每秒 36,396 个词元,在 H200 同类提交结果中处于领先地位,比第二名快 13%
- 2 个 L40S(离线): 每秒 3,647 个词元,这是 MLPerf 推理 v6.0 中首个(也是唯一一个)针对 Whisper 的 L40S 提交结果
这些结果源自我们针对各项配置参数进行的系统性消融研究,旨在确定对 Whisper 模型推理最为重要的优化项。通过调整批次大小以最大限度地提高 GPU 利用率,吞吐量提升了 40%;异步调度消除了 CPU 与 GPU 之间的同步停滞,使吞吐量进一步提升了 12.8%;而 CUDA Graphs 则额外带来了 6% 的提升。随着 L40S 广泛部署在对成本敏感的环境中,我们的评测结果表明,无论是在高端硬件还是高性价比硬件上,开源推理堆栈均能提供世界一流的语音识别性能。
提高效率和投资回报率
红帽的软件堆栈利用 NVIDIA 推理软件 Dynamo 以及红帽 AI 的 vLLM 和 llm-d,显著提高了 NVIDIA 加速计算基础架构的效率。通过优化堆栈的每一层(从 RHEL 内核到推理引擎),我们帮助企业降低每个词元的处理成本,并提高 NVIDIA 投资的总体投资回报率。无论您是在本地还是在云端部署,红帽都能为下一代代理式 AI 和多模态 AI 提供可靠的高性能基础。
想要复制我们的成果?方法在此……代码存储库
如需查看完整的 MLPerf 推理 v6.0 评测结果,请访问 mlcommons.org,并了解有关红帽 AI 的更多信息。
关于作者
Ashish Kamra is an accomplished engineering leader with over 15 years of experience managing high-performing teams in AI, machine learning, and cloud computing. He joined Red Hat in March 2017, where he currently serves as the Senior Manager of AI Performance at Red Hat. In this role, Ashish heads up initiatives to optimize performance and scale of Red Hat OpenShift AI - an end to end platform for MLOps, specifically focusing on large language model inference and training performance.
Prior to Red Hat, Ashish held leadership positions at Dell EMC, where he drove the development and integration of enterprise and cloud storage solutions and containerized data services. He also has a strong academic background, having earned a Ph.D. in Computer Engineering from Purdue University in 2010. His research focused on database intrusion detection and response, and he has published several papers in renowned journals and conferences.
Passionate about leveraging technology to drive business impact, Ashish is pursuing a Part-time Global Online MBA at Warwick Business School to complement his technical expertise. In his free time, he enjoys playing table tennis, exploring global cuisines, and traveling the world.