ユースケース

Red Hat AI による高速で効率的な推論

推論を最適化すると、モデルはより高速に、よりスマートに、そしてより高い信頼性を備えたものになります。

あらゆるクラウド環境のあらゆるアクセラレーターで、任意のモデルを選択できます。

既存のインフラストラクチャを最大限に活用して、トークンあたりのコストを削減し、スループットを向上させます。

インテリジェントな分散推論と、予測不可能な需要に関する知見により、動的にスケーリングします。

推論は生成 AI の中核です。しかし、モデルが複雑になるにつれて推論は遅くなり、処理が複雑化する可能性があります。

大規模な推論を行うには、モデルのために大量のストレージ、メモリー、および計算能力が必要となり、これらが予算の大部分を占めてしまう可能性があります。さらに、エージェント型 AI が急速に普及し、コンピュート・ワークロードの増大に拍車をかけています。

Red Hat® AI は推論を最適化することで、コスト効率の維持に役立ち、チームはスケールアップできるとともに、エージェント型 AI を高い信頼性でサポートできるようになります。

できること

Red Hat AI は、一貫性のある高速でコスト効率の高い推論を大規模にサポートします。vLLM や llm-d などのオープンソース・テクノロジーを活用している Red Hat AI は、任意のモデルとアクセラレーターを使用してハイブリッドクラウド全体のどこへでも拡張できる柔軟性を提供します。

推論を重視すべき理由

ハイブリッドクラウド全体へのデプロイと拡張

異なるハードウェア・アクセラレーター (GPU、TPU) 間で運用上の一貫性を維持し、オンプレミス、クラウド、またはエッジでモデルを実行します。

モデルとアクセラレーターの選択

モデルとハードウェア・アクセラレーターの任意の組み合わせを選択して、一貫した運用エクスペリエンスを維持できます。スタック全体を再構築することなく、統合された Model-as-a-Service アーキテクチャを構築します。

あらゆるサイズのモデルの圧縮と量子化

高いモデル応答精度を維持しながら、コンピューティングの使用率とそれに関連するコストを削減します。

トークンあたりのコスト削減によるスループット向上

vLLM と llm-d を使用して、既存のインフラストラクチャを最大限に活用します。利用可能なリソースを最適化することで、低レイテンシーと高スループットを実現し、コスト効率の高い推論とエージェントを大規模に実行できます。

エンドツーエンドのモデルライフサイクル管理

Kubernetes コアを備えた単一の一元化されたプラットフォーム上で、使い慣れたツールとフレームワークを使用して構築します。

信頼性の高い大規模運用の実現

すべての推論ワークロードは、アクセス制御、ポリシー適用、および可観測性によって管理されます。

Red Hat AI による Model-as-a-Service

設計段階から拡張性、オープン性、コスト効率を考慮した Models-as-a-Service の詳細をご覧ください。

Red Hat AI で 233% の投資対効果 (ROI)

Red Hat が委託した Forrester Consulting の調査によると、Red Hat AI をお使いのお客様をベースとした調査対象組織の全体において、Red Hat AI のデプロイによって 233% の投資対効果 (ROI) が実現していることがわかりました。¹

詳細を見る

Red Hat AI は、柔軟性の高いオープンソースベースのデプロイオプションを提供し、モデル、エージェント、アプリケーション全体にわたって、効率的で費用対効果が高く、制御された推論を実現します。

Red Hat AI による AI モデル推論 | Red Hat による解説(動画の再生時間：4:19)

特長

Red Hat AI は、モデル、エージェント、ハードウェアに対する卓越した制御機能を提供し、推論性能を大規模に向上させます。

vLLM

スループットと GPU 使用率を最大化

vLLM は、ハードウェア・アクセラレーター全体でスループットを最大化し、応答時間を短縮するように設計された推論エンジンです。PagedAttention アルゴリズムを使用して GPU の使用率を最適化し、生成 AI アプリケーションの出力速度を向上させます。

vLLM を使用することで、あらゆる生成 AI モデルをあらゆる AI アクセラレーターに最適化してデプロイできると同時に、プロダクション環境における推論動作を制御可能かつ予測可能なものに維持できます。

vLLM の詳細はこちら

llm-d

大規模な分散推論を高速化

llm-d は、大規模な分散 LLM 推論を高速化する、Kubernetes ネイティブのオープンソース・フレームワークです。

つまり llm-d は、AI モデルが大量のデータを含む複雑なクエリを受け取った場合の処理を高速化するフレームワークとなります。そのアクセスしやすいモジュール式アーキテクチャにより、llm-d は大規模な分散 LLM 推論に最適なプラットフォームとなります。分散ワークロード全体にわたって一貫性、制御、およびガバナンスを維持しながら、スケーラブルな推論をサポートします。

llm-d の詳細はこちら

生成 AI 固有のテレメトリー

厳格なサービスレベル目標 (SLO) を達成するための知見を獲得

実稼働中のモデルの指標と分析結果を活用して、モデルの改善点と改善方法を見つけ出します。最初のトークンまでの時間 (TTFT)、KV キャッシュのヒット率、GPU 使用率など、モデル固有のパフォーマンス指標を確認できます。これらの指標を使用してパフォーマンスを監視し、異常を検出し、推論が運用、セキュリティ、およびポリシーの要件を満たすようにすることができます。

モデル最適化ツールキット

リソース制約を軽減するためにモデルを圧縮および量子化

多様なモデルツールキットを活用して、任意の基盤モデルまたはカスタムモデルを最適化します。量子化やスパース性などの技術を用いることで、ハードウェア要件を削減し、推論コストを低減します。

LLM Compressor などのツールがツールキットに含まれています。これは最新のモデル圧縮研究を利用して、LLM をより小型化し、エネルギー効率を高め、高速化します。これにより、精度を犠牲にすることなく、ハードウェア要件が削減され、効率が向上します。

LLM Compressor は、その中核機能に加え、他のツールやプラットフォームと幅広く連携できます。Hugging Face Transformers のエコシステム内での推論をサポートし、デプロイ前の精度検証が可能です。また、ファインチューニング・フレームワークとの連携も可能で、ユーザーは教師あり学習中にスパース性を維持できます。

デプロイ前にモデル動作の妥当性、再現性、および制御を維持しながら、上記すべてを達成するのに役立ちます。

LLM Compressor の詳細はこちら

Models-as-a-Service

オープンな可搬性戦略で内部モデルへのアクセスを管理

Red Hat AI には、マネージド API ゲートウェイの統合が含まれています。これによって AI プラットフォームエンジニアは、内部の Models-as-a-Service (MaaS) 機能をセットアップできます。これは、ハイブリッドクラウド環境全体でモデルをデプロイおよび運用するための、オープンでモジュール式の、ベンダーに依存しない方法を提供します。

一元化された MaaS アーキテクチャによってモデルへのアクセスを制御することで、特定のモデルにアクセスできるユーザーを制御し、ポリシーを適用し、ユーザー、アプリケーション、エージェントの使用状況を監視します。これにより、信頼性が高く、監査可能で、ポリシー駆動型のモデル使用を大規模に実現できます。

AI モデルと GPU リソースをより簡単に利用できるので、開発者は API エンドポイントへのアクセスを効率化でき、プラットフォームエンジニアは高性能のセルフホスト型モデルのアクセス消費を制御、管理、監視できます。

モデルアクセスを管理するためのオープンな戦略は、モデルやエージェントの予測不可能な需要と規模をサポートする推論スタックと組み合わせることで、エージェント型 AI、ファインチューニング、および大規模な AI のための強力な基盤を形成します。

MaaS に関するドキュメントを見る

Red Hat AI モデルカタログ

検証済みのコレクションから生成 AI モデルを選択

任意の生成 AI モデルを使用するか、オープンソースで提供されるサードパーティモデルの最適化されたコレクションから選択できます。このコレクションのモデルは、Red Hat AI プラットフォームで効率的に動作することが検証済みです。

Red Hat AI のモデル検証は、GuideLLM、Language Model Evaluation Harness、vLLM などのオープンソースツールを使用して行われます。これにより、お客様側での再現性が確保されるとともに、モデルの検証、信頼性、さまざまな環境への一貫したデプロイが保証されます。

モデルカタログにアクセスする

ベンダーを選択するのはお客様です

Red Hat は、ソフトウェアベンダー、ハードウェアベンダー、オープンソース・コミュニティと連携し、包括的な AI ソリューションを提供しています。

当社のテクノロジーで動作するようテスト、サポート、認定されたパートナー製品およびサービスをご利用いただけます。

Red Hat AI パートナーを見る

次のステップ

試す

Lorem ipsum dolor sit amet consectetur.Tristique sapien gravida adipiscing.

購入する

Lorem ipsum dolor sit amet consectetur.Tristique sapien gravida adipiscing.

運用を開始

Lorem ipsum dolor sit amet consectetur.Tristique sapien gravida adipiscing.

Red Hat へのお問い合わせ

¹Forrester Consulting による調査 (Red Hat からの委託)、「Forrester Total Economic Impact™ Of Red Hat AI」、2026 年 2 月。

Red Hat AI による高速で効率的な推論

推論を最適化すると、モデルはより高速に、よりスマートに、そしてより高い信頼性を備えたものになります。

できること

ハイブリッドクラウド全体へのデプロイと拡張

モデルとアクセラレーターの選択

あらゆるサイズのモデルの圧縮と量子化

トークンあたりのコスト削減によるスループット向上

エンドツーエンドのモデルライフサイクル管理

信頼性の高い大規模運用の実現

Red Hat AI による Model-as-a-Service

Red Hat AI で 233% の投資対効果 (ROI)

詳細を見る

特長

スループットと GPU 使用率を最大化

大規模な分散推論を高速化

厳格なサービスレベル目標 (SLO) を達成するための知見を獲得

リソース制約を軽減するためにモデルを圧縮および量子化

オープンな可搬性戦略で内部モデルへのアクセスを管理

検証済みのコレクションから生成 AI モデルを選択

ベンダーを選択するのはお客様です

次のステップ

試す

購入する

運用を開始

Red Hat へのお問い合わせ

プラットフォーム

ツール

試用、購入、販売

コミュニケーション

Red Hat について

ページの言語を選択してください

Red Hat legal and privacy links

Red Hat legal and privacy links