Red Hat と NVIDIA：高性能 AI 推論の基準を設定する

2026 年 4 月 2 日6 分 (読了時間の目安)

Senior Manager, Software Engineering

Red Hat は、NVIDIA との綿密な共同設計を通じて達成した、最新の MLPerf Inference v6.0 ベンチマークにおける業界トップクラスの結果を、ここに発表いたします。これらの結果は、Red Hat のオープンソース分野におけるリーダーシップと NVIDIA の主要な AI インフラストラクチャを組み合わせることで、画像や音声から複雑な推論まで、あらゆるエンタープライズ推論ワークロードに対応できる、多用途かつ実績あるプラットフォームが実現することを示しています。

Red Hat による最新の提出内容は、NVIDIA HGX H200 および NVIDIA HGX B200 システムの可能性を最大限に引き出すことに焦点を当てており、ソフトウェアの最適化が、ROI を最大化するために、単純な処理能力と同じくらい重要であることを証明している。

結果の概要

言語、画像、音声の各モデルにおいて、Red Hat のスタックは NVIDIA AI インフラストラクチャ上で最高レベルのスループットとレイテンシーの結果を実現しました。

モデルのカテゴリ	モデル	GPU 構成	シナリオ	主な結果
画像	Qwen3-VL-235B	8× NVIDIA B200	サーバー	67.9 サンプル/秒
推論	GPT-OSS-120B	8× NVIDIA B200	オフライン	93,071 トークン/秒
音声	Whisper-Large-v3	8 × NVIDIA H200	オフライン	36,396 トークン/秒

Qwen3-VL-235B (マルチモーダルビジョンモデル)

Qwen3-VL-235B モデルは、2,350 億個のパラメータを持つ巨大なマルチモーダルビジョン言語モデルであり、画像の解像度が非常に多様であるため、推論エンジンにとって大きな課題となっています。vLLM および NVIDIA Dynamo を使用して Red Hat Enterprise Linux (RHEL) 上で稼働する NVIDIA Blackwell GPU により、クラス最高のオフラインスループットを達成しました。注目すべき点として、Red Hat による Blackwell の提出内容は、サーバーシナリオにおいて次点の結果を 50% 上回りました。

エンジニアリングにおける主な成果：

Triton ベースの改善点：ビジョンエンコーダーの最適化により、ViT 処理が 30 - 40% 高速化しました。
FlashInfer Mixture-of-Experts (MoE) カーネル：これらの特殊なカーネルは、MoE アーキテクチャを極めて効率的に処理しました。
FP8 Multimodal Attention：NVIDIA の高度なデータ形式を活用して、精度を犠牲にすることなくトークンあたりのコストを削減します。

GPT-OSS-120B

GPT-OSS-120B に関する今回の提出は、この規模のモデルが MLPerf の Kubernetes インフラストラクチャでベンチマークされた初めての事例となります。Red Hat OpenShift AI と llm-d スケジューラーを使用することで、分散推論が厳格なレイテンシー要件を維持しながら NVIDIA AI インフラストラクチャ (H200 および B200 GPU) 上で効果的に拡張できることを実証しました。

推論パフォーマンスを最適化するために、2 つの側面からなる戦略を採用しました。まず、OpenShift 上のベイズ最適化ベースのハイパーパラメータ・チューニングパイプラインが、P99 の Time-to-First-Token (TTFT) を 3.4 秒から 2.1 秒に短縮 (約 38% の改善) し、3 秒未満という目標を達成する単一レプリカの最適な構成を特定しました。

次に、負荷分散とスコアリング戦略を改良することで、マルチレプリカのパフォーマンスを最適化しました。レプリカ間のリクエスト分散を分析することで、使用率を向上させ、テールレイテンシーを最小限に抑え、負荷のある状態でもより一貫したスケーリングを可能にしました。

Whisper large-V3 (音声文字変換)

Red Hat Enterprise Linux (RHEL) と vLLM を実行する NVIDIA H200 および NVIDIA L40S GPU での Whisper-large-v3 の結果を提出しました。

8 × H200 オフライン： 1 秒あたり 36,396 トークン。これは H200 の主要な結果であり、次に近い提出結果よりも 13% 高速です。
2 × L40S オフライン： 1 秒あたり 3,647 トークン。MLPerf Inference v6.0 における Whisper の最初で唯一の L40S による提出結果です。

これらの結果は、Whisper 推論に最も重要な最適化を特定するために、構成パラメータ全体にわたって行われた体系的なアブレーション研究によって導き出されました。バッチサイズの調整により GPU 使用率を最大化することでスループットが 40% 向上し、非同期スケジューリングにより CPU と GPU の同期ストールを排除することでさらに 12.8%、CUDA Graphs によりさらに 6% 向上しました。L40S はコスト重視の環境に広くデプロイされています。Red Hat の結果は、オープンソースの推論スタックが、ハイエンドとコスト効率の良いハードウェアの両方において世界クラスの音声認識パフォーマンスを提供することを示しています。

効率と ROI の向上を実現

Red Hat のソフトウェアスタックは、NVIDIA 推論ソフトウェア Dynamo と Red Hat AI の vLLM および llm-d を利用して、NVIDIA の高速化コンピューティング・インフラストラクチャ上で大幅な効率向上を実現します。RHEL カーネルから推論エンジンまで、スタックのあらゆるレイヤーを最適化することで、企業がトークンあたりのコストを削減し、NVIDIA への投資に対する全体的な ROI を向上できるよう支援します。オンプレミスでもクラウドでも、Red Hat は次世代のエージェント型 AI およびマルチモーダル AI に向けた、実績のある高性能な基盤を提供します。

結果の再現方法についての詳細は、Repo をご覧ください。

MLPerf Inference v6.0 のすべての結果は mlcommons.org でご確認いただけます。また、Red Hat AI についての詳細もご覧ください。

執筆者紹介

Ashish Kamra

Senior Manager, Software Engineering

Ashish Kamra is an accomplished engineering leader with over 15 years of experience managing high-performing teams in AI, machine learning, and cloud computing. He joined Red Hat in March 2017, where he currently serves as the Senior Manager of AI Performance at Red Hat. In this role, Ashish heads up initiatives to optimize performance and scale of Red Hat OpenShift AI - an end to end platform for MLOps, specifically focusing on large language model inference and training performance.

Prior to Red Hat, Ashish held leadership positions at Dell EMC, where he drove the development and integration of enterprise and cloud storage solutions and containerized data services. He also has a strong academic background, having earned a Ph.D. in Computer Engineering from Purdue University in 2010. His research focused on database intrusion detection and response, and he has published several papers in renowned journals and conferences.

Passionate about leveraging technology to drive business impact, Ashish is pursuing a Part-time Global Online MBA at Warwick Business School to complement his technical expertise. In his free time, he enjoys playing table tennis, exploring global cuisines, and traveling the world.

類似検索

ブログ投稿

チャンネル別に見る

すべてのチャンネルを見る

Red Hat と NVIDIA：高性能 AI 推論の基準を設定する

結果の概要

Qwen3-VL-235B (マルチモーダルビジョンモデル)

GPT-OSS-120B

Whisper large-V3 (音声文字変換)

効率と ROI の向上を実現

執筆者紹介

Ashish Kamra

類似検索

チャンネル別に見る

プラットフォーム

ツール

試用、購入、販売

コミュニケーション

Red Hat について

ページの言語を選択してください

Red Hat legal and privacy links

Red Hat legal and privacy links