Red Hat AI Inference Server
概要
AI の真の価値は、迅速で正確な回答を大規模に得られることにあります。Red Hat® AI Inference Server は、ハイブリッドクラウド全体で推論プロセスを最適化することでこれを直接実現します。推論プロセスは、AI アプリケーションが大規模言語モデル (LLM) とやり取りし、データに基づいて応答を生成できるようにする重要なステップです。これにより、より迅速でコスト効率の高いモデルのデプロイメントが可能になります。
高速でコスト効率の高い推論をどこでも実行
Red Hat AI プラットフォームに含まれる Red Hat AI Inference Server は、一貫性があり高速でコスト効率の高い推論を大規模に実行します。AI Inference Server を使用すると、あらゆるハードウェア・アクセラレーターやデータセンター、クラウド、エッジ環境であらゆる生成 AI モデルを実行できるので、ビジネス要件を満たすために必要な柔軟性と選択肢を得ることができます。AI Inference Server は、基盤モデルとトレーニング済みモデルの両方を圧縮する LLM Compressor を使用したモデル最適化を通じて、または、より短時間で推論をデプロイできる、検証済みで最適化された生成 AI モデルのコレクションへのアクセスを提供して、効率的な推論を実現する機能を提供します。
Red Hat AI Inference Server は、幅広いハードウェア・アクセラレーターおよびモデルと連携し、任意のインフラストラクチャおよびオペレーティングシステム (OS) 上で実行できます。Red Hat AI プラットフォーム、Red Hat Enterprise Linux®、Red Hat OpenShift®、およびサードパーティの Linux または Kubernetes ディストリビューションに対応しており、お客様は任意のアーキテクチャに柔軟に対応できます。
表 1.特長とメリット
メリット | 説明 |
仮想大規模言語モデル (vLLM) によるモデル推論への効率的なアプローチ
| AI Inference Server は、vLLM を使用してグラフィックス・プロセッシング・ユニット (GPU) のメモリー使用量と推論のレイテンシーを最適化することで、モデル推論への効率的なアプローチを提供します。 |
運用の複雑さを軽減 | AI Inference Server は、ハイブリッドクラウドでのモデルのデプロイと最適化のための一貫したプラットフォームを提供します。量子化などの高度な機械学習 (ML) 技術を管理するためのユーザーフレンドリーなアプローチを提供し、Prometheus や Grafana などの可観測性ツールとの統合が可能です。 |
ハイブリッドクラウドの柔軟性 | vLLM を中核とする AI Inference Server により、データセンター、クラウド環境、エッジなど、必要なあらゆる場所で AI モデルを自由に実行できます。 |
技術仕様
- ハイブリッドクラウド用の推論ランタイム: 洗練された強力な推論ランタイム vLLM を中核に据えた AI Inference Server は、企業が選択したモデルをさまざまなアクセラレーター、Kubernetes、Linux 環境にわたって実行するための統一された高性能プラットフォームを提供します。また、可観測性ツールと統合して監視を強化できるほか、OpenAI などの LLM API をサポートしているので柔軟なデプロイが可能です。
- LLM Compressor: AI チームは、あらゆるサイズの基盤モデルおよびトレーニング済みモデルの両方を圧縮でき、高いモデル応答精度を維持しながら、コンピューティングの使用量と関連コストを削減できます。また、Red Hat と連携してモデル最適化の取り組みについてサポートを受けることができます。
- 最適化されたモデルリポジトリ: AI Inference Server は Hugging Face の Red Hat AI ページでホストされており、推論デプロイメントに対応できる主要な AI モデルの検証済みで最適化されたコレクションに即座にアクセスできるので、モデルの精度を損なうことなく効率を 2 - 4 倍高速化します。
- すべての Red Hat 製品で認定済み: AI Inference Server は、Red Hat OpenShift AI および Red Hat Enterprise Linux AI の一部として含まれており、Red Hat OpenShift および Red Hat Enterprise Linux でもサポートされています。
- サードパーティ・プラットフォームへのデプロイ:AI Inference Server はサードパーティの Linux プラットフォームおよび Kubernetes プラットフォームにデプロイでき、Red Hat のサードパーティ・サポート・ポリシーでカバーされます。このような場合、Red Hat は Inference Server コンポーネントのみをサポートします。基盤となるプラットフォーム関連の問題は、Red Hat Enterprise Linux または Red Hat OpenShift で再現できない場合、お客様が責任を負います。
完全に最適化された自動化を達成するプロセスを探る
AI Inference Server を使用して高速でコスト効率に優れたスケーラブルな推論を行う方法について、Red Hat AI Inference Server の製品ページをご覧ください。