AI モデルの大規模な運用化は、IT リーダーにとって重要な課題です。大規模言語モデル (LLM) のトレーニングにかかる初期コストは高額になる可能性がありますが、往々にして過少に見積もられている実際の費用は推論に関連するものです。
AI 推論とは、トレーニングされたモデルを使用して出力を生成するプロセスであり、プロダクションにおいて常に実行されるため、AI アプリケーションの中で最もリソース消費量が多く、コストがかかる部分です。推論の効率が悪いと、AI プロジェクトの潜在的な投資対効果 (ROI) が損なわれ、高いレイテンシーによってカスタマーエクスペリエンスに悪影響がもたらされる可能性があります。
AI のパフォーマンスへのフルスタックアプローチ
LLM を効果的かつ大規模に提供するには、モデル自体とモデルを提供するランタイムの両方に対処する戦略的でフルスタックのアプローチが必要です。単一のアプローチでは不十分です。高いパフォーマンスとコスト効率を実現するには、リソース消費の管理とスループットの最大化という 2 つのフォーカスが必要です。
AI モデルの最適化
このアプローチの戦略的な部分となるのはモデル圧縮です。これにより、精度を損なうことなくモデルのサイズとリソース要件を削減できます。
量子化は、モデルを最適化するための重要な手法です。重みやアクティベーションなど、モデルの数値精度を標準の 16 ビットから 8 ビットや 4 ビットなどの低い形式へと下げます。これにより、モデルのメモリーフットプリントが大幅に縮小され、より少ないハードウェアでモデルを実行できるようになります。
スパース性も効果的な手法の 1 つであり、不要な接続 (重み) を削除してモデルの効率を向上させます。これにより、精度への影響を最小限に抑えながら、ネットワークの小規模化と高速化が可能になりします。
推論ランタイムの最適化
提供ランタイムの最適化も同じく重要です。基本的なランタイムでは、GPU メモリーの使用効率が悪く、トークン生成が遅いという問題が発生することが多く、その結果、GPU がアイドル状態になり、レイテンシーが高くなります。高性能なランタイムなら、高価な GPU ハードウェアの使用率が最大限に高まり、レイテンシーが短縮されます。
オープンソースの vLLM プロジェクトは、効率性を高めるために最適化された技術によってこれらのランタイムの制限に対処するため、高性能推論の業界標準となっています。
- 連続バッチ処理では、複数のリクエストのトークンを並行処理することで、GPU のアイドル時間が最小限に抑えられます。一度に 1 つのリクエストを処理するのではなく、さまざまなシーケンスのトークンをバッチにグループ化します。このアプローチでは、GPU 使用率と推論スループットが大幅に向上します。
- PagedAttention はもう 1 つの例です。この新しいメモリー管理戦略は、大規模なキーと値 (KV) のキャッシュを効率的に処理し、メモリーのボトルネックを軽減しながら、より多くの同時リクエストとより長いシーケンスを可能にします。
分散型の大規模 AI の実現
トラフィック量の多いアプリケーションを扱う企業にとって、単一サーバーのデプロイメントでは不十分なことがよくあります。オープンソースの llm-d プロジェクトは、vLLM の機能を基盤として、分散型のマルチノード推論を可能にします。これにより、組織は予測可能なパフォーマンスと費用対効果を維持しながら、AI ワークロードを複数のサーバー間にスケーリングして、増大する需要や大規模なモデルに対応できます。
llm-d は、AI ワークロードに必要な特定の機能で Kubernetes を強化する、オープンソースのコントロールプレーンです。このプロジェクトは、推論のパフォーマンスと効率に影響を与える次のような機能に重点を置いています。
- セマンティック・ルーティング:llm-d はリアルタイムデータを使用して、推論リクエストを最適なインスタンスにインテリジェントにルーティングします。これにより、リソース使用の効率が向上し、コストのかかるオーバープロビジョニングが減少します。
- ワークロードの分離:これによりプリフィルフェーズとデコードフェーズが分離されるため、最適なタスクに最適なリソースが使用されます。
- 高度なアーキテクチャのサポート:llm-d は、複数ノードでのオーケストレーションと並列処理を必要とする Mixture of Experts (MoE) のような先進のモデル・アーキテクチャを処理できるように設計されています。
llm-d コミュニティは、さまざまなハードウェアや環境で動作する柔軟なコントロールプレーンを作成することで、エンタープライズ AI の標準を大規模に確立しようとしています。
Red Hat が大規模な AI を単純化する方法
エンタープライズレベルで AI を導入するには、モデルを選択するだけでは不十分です。ハイブリッドクラウド・インフラストラクチャ全体で開発、デプロイ、管理を行うための戦略が必要です。Red Hat は、初期モデルの開発から大規模な推論まで、このプロセスを単純化し、加速するように設計されたエンタープライズ対応製品のポートフォリオを提供しています。
Red Hat AI
Red Hat AI ポートフォリオは、AI 最適化に対するフルスタックのアプローチを提供します。この統合された製品には、Red Hat Enterprise Linux AI (RHEL AI)、Red Hat OpenShift AI、Red Hat AI Inference Server が含まれます。
- RHEL AI は、AI 開発の基盤を提供し、RHEL を IBM の Granite モデルなどの主要なオープンソース・コンポーネントや PyTorch などのライブラリとパッケージ化します。このプラットフォームは可搬性があり、オンプレミス、パブリッククラウド、またはエッジで実行できます。
- Red Hat OpenShift AI は Red Hat OpenShift をベースとして構築されており、AI ライフサイクル全体を管理できるように設計されています。データサイエンティスト、開発者、IT チームがコラボレーションするための一貫した環境を提供します。また、ハイブリッドクラウド環境全体に AI ワークロードを拡張し、ハードウェア・アクセラレーターの管理を単純化します。
- Red Hat AI Inference Server は、高スループットで低レイテンシーのパフォーマンスを可能にする、vLLM のサポート付きディストリビューションを提供することで、推論を最適化します。これはコンテナとして提供され、さまざまなインフラストラクチャ間での移植が可能です。また、コンピューティングの使用量を削減するモデル圧縮ツールが含まれています。単一のサーバーを超えてスケーリングする場合、Red Hat AI Inference Server はオープンソースの llm-d プロジェクトと連携します。
IT リーダーにとって、AI を大規模に運用するための最も効果的な方法は、フルスタックのハイブリッドクラウド AI 戦略です。Red Hat AI は、「あらゆるモデルを、あらゆるアクセラレーター上で、あらゆるクラウドで実行する」という当社のビジョンに基づいて構築された、AI の実験からフルスケールのプロダクション対応 AI への移行を支援する一貫した基盤を提供します。
詳細はこちら
単純化されたスケーラブルな AI への取り組みを開始するには、Red Hat AI の Web サイトで利用可能なリソースをご確認ください。
リソース
AI 推論を始める
執筆者紹介
Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.
After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.
チャンネル別に見る
自動化
テクノロジー、チームおよび環境に関する IT 自動化の最新情報
AI (人工知能)
お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート
オープン・ハイブリッドクラウド
ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。
セキュリティ
環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報
エッジコンピューティング
エッジでの運用を単純化するプラットフォームのアップデート
インフラストラクチャ
世界有数のエンタープライズ向け Linux プラットフォームの最新情報
アプリケーション
アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細
仮想化
オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください