Red Hat は、NVIDIA との綿密な共同設計を通じて達成した、最新の MLPerf Inference v6.0 ベンチマークにおける業界トップクラスの結果を、ここに発表いたします。これらの結果は、Red Hat のオープンソース分野におけるリーダーシップと NVIDIA の主要な AI インフラストラクチャを組み合わせることで、画像や音声から複雑な推論まで、あらゆるエンタープライズ推論ワークロードに対応できる、多用途かつ実績あるプラットフォームが実現することを示しています。
Red Hat による最新の提出内容は、NVIDIA HGX H200 および NVIDIA HGX B200 システムの可能性を最大限に引き出すことに焦点を当てており、ソフトウェアの最適化が、ROI を最大化するために、単純な処理能力と同じくらい重要であることを証明している。
結果の概要
言語、画像、音声の各モデルにおいて、Red Hat のスタックは NVIDIA AI インフラストラクチャ上で最高レベルのスループットとレイテンシーの結果を実現しました。
モデルのカテゴリ | モデル | GPU 構成 | シナリオ | 主な結果 |
画像 | Qwen3-VL-235B | 8× NVIDIA B200 | サーバー | 67.9 サンプル/秒 |
推論 | GPT-OSS-120B | 8× NVIDIA B200 | オフライン | 93,071 トークン/秒 |
音声 | Whisper-Large-v3 | 8 × NVIDIA H200 | オフライン | 36,396 トークン/秒 |
Qwen3-VL-235B (マルチモーダルビジョンモデル)
Qwen3-VL-235B モデルは、2,350 億個のパラメータを持つ巨大なマルチモーダルビジョン言語モデルであり、画像の解像度が非常に多様であるため、推論エンジンにとって大きな課題となっています。vLLM および NVIDIA Dynamo を使用して Red Hat Enterprise Linux (RHEL) 上で稼働する NVIDIA Blackwell GPU により、クラス最高のオフラインスループットを達成しました。注目すべき点として、Red Hat による Blackwell の提出内容は、サーバーシナリオにおいて次点の結果を 50% 上回りました。
エンジニアリングにおける主な成果:
- Triton ベースの改善点:ビジョンエンコーダーの最適化により、ViT 処理が 30 - 40% 高速化しました。
- FlashInfer Mixture-of-Experts (MoE) カーネル:これらの特殊なカーネルは、MoE アーキテクチャを極めて効率的に処理しました。
- FP8 Multimodal Attention:NVIDIA の高度なデータ形式を活用して、精度を犠牲にすることなくトークンあたりのコストを削減します。
GPT-OSS-120B
GPT-OSS-120B に関する今回の提出は、この規模のモデルが MLPerf の Kubernetes インフラストラクチャでベンチマークされた初めての事例となります。Red Hat OpenShift AI と llm-d スケジューラーを使用することで、分散推論が厳格なレイテンシー要件を維持しながら NVIDIA AI インフラストラクチャ (H200 および B200 GPU) 上で効果的に拡張できることを実証しました。
推論パフォーマンスを最適化するために、2 つの側面からなる戦略を採用しました。まず、OpenShift 上のベイズ最適化ベースのハイパーパラメータ・チューニングパイプラインが、P99 の Time-to-First-Token (TTFT) を 3.4 秒から 2.1 秒に短縮 (約 38% の改善) し、3 秒未満という目標を達成する単一レプリカの最適な構成を特定しました。
次に、負荷分散とスコアリング戦略を改良することで、マルチレプリカのパフォーマンスを最適化しました。レプリカ間のリクエスト分散を分析することで、使用率を向上させ、テールレイテンシーを最小限に抑え、負荷のある状態でもより一貫したスケーリングを可能にしました。
Whisper large-V3 (音声文字変換)
Red Hat Enterprise Linux (RHEL) と vLLM を実行する NVIDIA H200 および NVIDIA L40S GPU での Whisper-large-v3 の結果を提出しました。
- 8 × H200 オフライン: 1 秒あたり 36,396 トークン。これは H200 の主要な結果であり、次に近い提出結果よりも 13% 高速です。
- 2 × L40S オフライン: 1 秒あたり 3,647 トークン。MLPerf Inference v6.0 における Whisper の最初で唯一の L40S による提出結果です。
これらの結果は、Whisper 推論に最も重要な最適化を特定するために、構成パラメータ全体にわたって行われた体系的なアブレーション研究によって導き出されました。バッチサイズの調整により GPU 使用率を最大化することでスループットが 40% 向上し、非同期スケジューリングにより CPU と GPU の同期ストールを排除することでさらに 12.8%、CUDA Graphs によりさらに 6% 向上しました。L40S はコスト重視の環境に広くデプロイされています。Red Hat の結果は、オープンソースの推論スタックが、ハイエンドとコスト効率の良いハードウェアの両方において世界クラスの音声認識パフォーマンスを提供することを示しています。
効率と ROI の向上を実現
Red Hat のソフトウェアスタックは、NVIDIA 推論ソフトウェア Dynamo と Red Hat AI の vLLM および llm-d を利用して、NVIDIA の高速化コンピューティング・インフラストラクチャ上で大幅な効率向上を実現します。RHEL カーネルから推論エンジンまで、スタックのあらゆるレイヤーを最適化することで、企業がトークンあたりのコストを削減し、NVIDIA への投資に対する全体的な ROI を向上できるよう支援します。オンプレミスでもクラウドでも、Red Hat は次世代のエージェント型 AI およびマルチモーダル AI に向けた、実績のある高性能な基盤を提供します。
結果の再現方法についての詳細は、Repo をご覧ください。
MLPerf Inference v6.0 のすべての結果は mlcommons.org でご確認いただけます。また、Red Hat AI についての詳細もご覧ください。
執筆者紹介
Ashish Kamra is an accomplished engineering leader with over 15 years of experience managing high-performing teams in AI, machine learning, and cloud computing. He joined Red Hat in March 2017, where he currently serves as the Senior Manager of AI Performance at Red Hat. In this role, Ashish heads up initiatives to optimize performance and scale of Red Hat OpenShift AI - an end to end platform for MLOps, specifically focusing on large language model inference and training performance.
Prior to Red Hat, Ashish held leadership positions at Dell EMC, where he drove the development and integration of enterprise and cloud storage solutions and containerized data services. He also has a strong academic background, having earned a Ph.D. in Computer Engineering from Purdue University in 2010. His research focused on database intrusion detection and response, and he has published several papers in renowned journals and conferences.
Passionate about leveraging technology to drive business impact, Ashish is pursuing a Part-time Global Online MBA at Warwick Business School to complement his technical expertise. In his free time, he enjoys playing table tennis, exploring global cuisines, and traveling the world.
類似検索
エージェント型のパラドックスとハイブリッド AI の事例
過去を管理するのをやめて、IT の未来を構築しましょう
Technically Speaking | Inside open source AI strategy
Technically Speaking | Build a production-ready AI toolbox
チャンネル別に見る
自動化
テクノロジー、チームおよび環境に関する IT 自動化の最新情報
AI (人工知能)
お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート
オープン・ハイブリッドクラウド
ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。
セキュリティ
環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報
エッジコンピューティング
エッジでの運用を単純化するプラットフォームのアップデート
インフラストラクチャ
世界有数のエンタープライズ向け Linux プラットフォームの最新情報
アプリケーション
アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細
仮想化
オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください