Red Hat AI Inference Server

Red Hat® AI Inference Server は、ハイブリッドクラウド全体で推論を最適化し、高いコスト効率でより迅速にモデルをデプロイできます。

推論サーバーとは

推論サーバーは、人工知能 (AI) アプリケーションが大規模言語モデル (LLM) と通信し、データに基づいて応答を生成できるようにするソフトウェアです。このプロセスは推論と呼ばれます。このプロセスによってビジネス価値が生まれ、最終結果がもたらされます。

このプロセスを効果的に機能させるには、大規模な推論を実行するための広範なストレージ、メモリー、インフラストラクチャが LLM に必要ですが、これが予算の大部分を占めることになります。

Red Hat AI プラットフォームの一部である Red Hat AI Inference Server は、推論機能を最適化して、従来の高額なコストと大規模なインフラストラクチャの削減に貢献します。

AI 推論の詳細はこちら

Red Hat AI Inference Server による高速かつコスト効率に優れた AI 推論。動画の再生時間：2:28

コマンドライン・インタフェースとプロンプトが表示されているインタラクティブデモのスクリーンショット。プロンプトには「These models are optimized to run on Red Hat AI Inference Server.You can deploy them wherever you need them with a standardized API, whether on Red Hat Products or non-Red Hat Kubernetes and Linux environments.」と書かれている。

Red Hat AI Inference Server の概要

Red Hat AI Inference Server の仕組み

Red Hat AI Inference Server は、大規模な推論を高速かつ高いコスト効率で実行します。オープンソースの性質により、あらゆるクラウド環境において、あらゆる AI アクセラレーターであらゆる生成 AI モデルをサポートできます。

vLLM を搭載したこの推論サーバーは、GPU の使用率を最大化し、応答時間を短縮します。LLM Compressor 機能と組み合わせることで、パフォーマンスを犠牲にすることなく推論効率を向上させることができます。クロスプラットフォームの適応性とコントリビューター・コミュニティの拡大により、vLLM は生成 AI 推論の Linux® として注目されています。

3 つの実際の vLLM のユースケースを見る

50%

LLM Compressor を使用することで、パフォーマンスを犠牲にすることなく 50% のコスト削減を実現しているお客様もいます。*

*Saša Zelenović、「LLM の潜在能力を最大限に引き出す：vLLM でパフォーマンスを最適化」、 Red Hat ブログ、2025 年 2 月 27 日。

モデルを自由に選べる

Red Hat AI Inference Server は、すべての主要なオープンソースモデルをサポートし、GPU の柔軟な可搬性を維持します。あらゆる生成 AI モデルを柔軟に使用でき、オープンソースの検証済みサードパーティモデルの最適化されたコレクションから選択できます。

Red Hat AI Inference Server は Red Hat AI の一部として、すべての Red Hat 製品での使用が認定されています。また、Red Hat のサードパーティ・サポート・ポリシーに従って、他の Linux および Kubernetes プラットフォームにもデプロイできます。