-
製品とドキュメント Red Hat AI
ハイブリッドクラウドでの AI の開発とデプロイのための製品およびサービスのプラットフォーム。
Red Hat AI Enterprise
AI を活用したアプリケーションをハイブリッドクラウドのどこででも構築、開発、デプロイします。
-
学ぶ 基本
-
AI パートナー
Red Hat AI Inference
Red Hat® AI Inference は、高速で一貫性があり、コスト効率に優れた推論を大規模に提供する統合スタックです。
クイックリンク
AI 推論のコストが高すぎませんか?動画の再生時間:2:16
Red Hat AI Inference とは
Red Hat AI Inference は、ハイブリッドクラウドにおいて任意のアクセラレーターであらゆるモデルを実行するための運用制御を提供します。
vLLM と llm-d を活用したエンドツーエンドの推論スタックは、トークンの経済性とハードウェア容量を最適化して、応答時間を短縮します。このオープンソース・テクノロジーは、エージェント型 AI や Model-as-a-Service パターンのエンジンとして機能し、パフォーマンスを犠牲にすることなく効率を向上させます。
vLLM:推進力となるオープンソース・テクノロジー
vLLM は高効率の推論エンジンであり、トークンあたりのコスト削減と安定したレイテンシーを大規模に実現することで、GPU 使用率の問題を解決します。
vLLM は、可搬性に優れたオープンソースのアプローチと成長を続けるコミュニティにより、Linux® の生成 AI 推論として存在感を高めています。
主要な商用コントリビューターとして、Red Hat は vLLM に関する独自の専門知識を提供し、お客様の AI の目標達成を支援しています。
vLLM コミュニティの現状
50 万基以上の GPU がデプロイ済みで常時稼働1
200 以上の異なるアクセラレータータイプ2
500 以上のサポート対象モデルアーキテクチャ2
24 倍のスループットを実現 (競合他社との比較)3
メリット
ハードウェアとモデルの柔軟性
あらゆるハードウェアやクラウド上の任意のモデルで、運用の一貫性を維持します。
AI を基盤となるインフラストラクチャから切り離して、統合された Model-as-a-Service アーキテクチャを構築し、モデルの提供とエージェントの実行を効率化します。
トークンの経済性を管理
vLLM と llm-d を使用してスループットを向上させ、トークンあたりのコストを削減します。
既存のリソースを最適化して、エージェント実行のコスト効率を高め、AI を持続的に拡張します。
予測可能なスケーリング
推論トラフィックをインテリジェントに分散して、既存のインフラストラクチャ上でより多くのユーザーとエージェントにサービスを提供します。
マルチモーダル・エージェント型ワークフローから RAG ベースのチャットボットやコードアシスタントまで、多様なユースケースと要求を確実に管理します。
llm-d への早期アクセスを利用する
Red Hat AI Inference では、サードパーティ Kubernetes 環境での llm-d と Red Hat OpenShift® の分散推論機能の早期アクセスが利用できるようになりました。
モデルを自由に選べる
AI スタックを再構築することなく、統合された Model-as-a-Service アーキテクチャを構築します。
Red Hat AI Inference は、オープンソースモデルとハードウェア・アクセラレーターのあらゆる組み合わせに対して、運用の一貫性を実現します。Red Hat AI プラットフォーム上で効率的に動作することが検証済みで、コストが最適化されたモデルのコレクションを活用して、自信を持ってデプロイメントを加速できます。
Red Hat AI で 233% の投資対効果 (ROI)
Red Hat は Forrester Consulting に Total Economic Impact™ (TEI) 調査の実施を依頼し、Red Hat AI を導入することで組織が実現する可能性がある投資対効果 (ROI) について調べました。
Red Hat AI のお客様に聞き取り調査を行った結果、調査対象の顧客に基づく複合組織が 3 年間で 233% の ROI を実現し、初期投資の 3 倍以上の総価値を得たことがわかりました。4
製品のハイライト
モデルを大規模かつ効率的に提供するために設計された、包括的で完全に統合された推論スタックを利用できます。
| 特長 | 詳細 | メリット | |
|---|---|---|---|
llm-d | OpenShift で分散推論機能を実行でき、サードパーティの Kubernetes 環境で llm-d への早期アクセスも利用できます。 | 推論を高速化し、任意の Kubernetes ディストリビューションで実行される AI インフラストラクチャをさらに活用できます。 | |
生成 AI 固有のテレメトリー | 最初のトークンまでの時間 (TTFT)、KV キャッシュのヒット」率、GPU 使用率など、モデル固有のパフォーマンス指標を確認できます。 | 厳格なサービスレベル目標 (SLO) を達成するための知見を得て、モデルの改善点を確認します。 | |
モデル最適化ツールキット | スパース性や量子化などの手法を使用して、カスタムモデルや基盤モデルを最適化します。 | ハードウェア容量を最大限に活用することで、コストを最小限に抑え、推論を高速化します。 | |
スパースな混合専門家 (MoE) | 低レイテンシーのエージェントと高度な推論モデルを使用して、スパースな MoE アーキテクチャを実行します。 | 効率的なモデルアーキテクチャにより、パフォーマンスを犠牲にすることなく推論コストを削減できます。 | |
すべての Red Hat 製品で認定済み | Red Hat AI Inference の機能は、Red Hat AI Enterprise および Red Hat OpenShift® AI の一部です。また、Red Hat OpenShift および Red Hat Enterprise Linux でもサポートされています。 | Red Hat 製品を使用するか、当社のサードパーティ・サポート・ポリシーに基づいて Linux および Kubernetes プラットフォームにデプロイできます。 |
購入方法
Red Hat AI Inference は、スタンドアロンの製品として、または Red Hat AI の一部として利用できます。 llm-d および vLLM ベースの機能は Red Hat AI Enterprise および Red Hat OpenShift AI に含まれています。
お客様のニーズに合致し、お客様の条件に従って動作する AI。
生成 AI
テキストやソフトウェアコードなどの新しいコンテンツを作成します。
Red Hat AI を使用することで、少ないリソースと低い推論コストで、任意の生成 AI モデルをより迅速に実行できます。
予測型 AI
パターンを結び付け、将来の結果を予測します。
Red Hat AI を使用することで、ハイブリッドクラウド全体で一貫性を維持しつつ、予測モデルを構築、トレーニング、提供、監視できます。
運用化 AI
AI の大規模な保守とデプロイをサポートするシステムを作成します。
Red Hat AI を使用することで、AI 対応アプリケーションのライフサイクルを管理および監視しながら、リソースを節約し、プライバシー規制へのコンプライアンスを確保できます。
エージェント型 AI
人間が限定的に関与するだけで複雑なタスクを実行するワークフローを構築します。
Red Hat AI は、既存アプリケーション内でのエージェント型 AI ワークフローの構築、管理、デプロイに対応する柔軟なアプローチと安定した基盤を提供します。
パートナーとデプロイする
エキスパートとテクノロジーの融合によって、AI の活用の幅が広がっています。Red Hat と連携して Red Hat ソリューションの運用能力に関する認定を受けているすべてのテクノロジーパートナーをご覧ください。
2025 年の Red Hat Summit および AnsibleFest で紹介されたお客様の AI 導入事例
ターキッシュ エアラインズは、組織全体でのデータアクセスを実現して、デプロイのスピードを倍増させました。
JCCM は、AI を使用して地域の環境影響評価 (EIA) プロセスを改善しました。
DenizBank は、市場投入時間を数日から数分へと短縮しました。
日立は、Red Hat OpenShift AI を使用して事業全体で AI を運用化しました。
よくある質問 (FAQ)
Red Hat AI Inference を使用するには、Red Hat AI Enterprise または Red Hat OpenShift AI を購入する必要がありますか?
いいえ。Red Hat AI Inference はスタンドアロンの Red Hat 製品として購入できます。
Red Hat AI Inference および Red Hat AI Enterprise を購入する必要がありますか?
いいえ。Red Hat AI Inference の vLLM および llm-d ベースの機能は、すでに Red Hat AI Enterprise および Red Hat OpenShift AI に含まれています。
Red Hat AI Inference は、Red Hat Enterprise Linux または Red Hat OpenShift で実行できますか?
はい、できます。vLLM ベースのランタイムは、サードパーティ契約に基づき、サードパーティの Linux 環境や Kubernetes 環境でも実行できます。また、サードパーティの Kubernetes 環境で llm-d ベースの分散推論機能を実行するための早期アクセスも提供されます。
Red Hat AI Inference の価格設定はどのようになっていますか?
価格はアクセラレーターごとに設定されます。
その他の AI 関連資料
企業における AI の始め方
AI 推論を始める方法
ハイブリッドクラウド全体でエンタープライズ AI 推論をスケーリング
Web セミナー:パフォーマンスを向上させ、コストを最適化する方法
セールスチームに問い合わせる
Red Hat AI について Red Hat に問い合わせる
1Michael Goin、「[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - December 18, 2025」、YouTube、2025 年 12 月 8 日。
2Woosuk Kwon、「Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale」、X、2026 年 1 月 26 日。
3Woosuk Kwon、他、「vLLM:Easy, Fast, and Cheap LLM Serving with PagedAttention」、vLLM ブログ、2023 年 6 月 20 日。
4Forrester Consulting による調査 (Red Hat からの委託)、「Forrester Total Economic Impact™ Of Red Hat AI」、2026 年 2 月。