大規模言語モデル (LLM) のトレーニングは重要な作業ですが、より広範囲に及ぶ見過ごされがちなコストの課題は、AI 推論です。推論は、トレーニングされた AI モデルが新しい入力データを処理して出力を生成する手順です。組織がこれらのモデルをプロダクション環境にデプロイすると、とくにトークンの量が多い場合、プロンプトが長い場合、また使用の需要が増加した場合に、コストがあっという間に跳ね上がる可能性があります。コスト効率が高くパフォーマンスの高い方法で LLM を運用するには、包括的な戦略が不可欠です。

このアプローチでは、推論ランタイムの最適化とモデル自体の最適化という 2 つの重要な領域に対応します。

推論ランタイムの最適化

基本的な提供方法では、GPU メモリが効率的に使用されない、バッチ処理が最適化されていない、トークン生成が遅いなどの問題が発生することがよくあります。そこで、高性能な推論ランタイムが重要になります。vLLM は、LLM がより効率的かつ大規模に計算を行うのを支援する、事実上のオープンソース・ライブラリです。

vLLM は、以下のような高度な技術によって、ランタイムに関するこれらの課題に対処します。

  • 連続バッチ処理:vLLM はリクエストを 1 つずつ処理するのではなく、複数のシーケンスのトークンをバッチにグループ化します。これにより GPU のアイドル時間が最小限に抑えられ、GPU 使用率と推論スループットが大幅に向上します。
  • PagedAttention:このメモリ管理戦略は、大規模なキーと値 (KV) のキャッシュを効率的に処理します。PagedAttention は、GPU メモリページを動的に割り当てて管理することで同時リクエストの数を大幅に増やし、メモリのボトルネックを生じさせることなく、より長いシーケンスをサポートします。

AI モデルの最適化

ランタイムの最適化に加え、モデルを圧縮することでメモリフットプリントと計算要件を削減することもできます。主な手法は、量子化とスパース性の 2 つです。

  • 量子化:この手法では、モデルの数値 (とくに重みとアクティベーション) を削減し、値あたりのビット数を削減します。このプロセスにより、モデルパラメーターの保存に必要なメモリが大幅に削減されます。たとえば、700 億のパラメーターを持つ Llama モデルは、約 140 GB から 40 GB まで縮小することができます。つまり、より少ないリソースでモデルを実行でき、精度を大幅に低下させることなく計算スループットを倍増させることができます。
  • スパース性:モデルの一部のパラメーターをゼロに設定することで計算量を削減し、システムが不要な操作をバイパスできるようにします。これによりモデルの複雑さが大幅に軽減され、メモリ使用量と計算負荷が低減されるため、推論が迅速になり、運用コストが削減されます。

Red Hat AI:戦略を実践する 

Red Hat AI ポートフォリオは、この戦略的アプローチを実装できるようにするために、大規模な高性能推論を達成する統合されたソリューションセットを提供します。

Red Hat AI は、強力なツールとアセットを通して、モデルとランタイムの両方の最適化に対応します。

  • Red Hat AI Inference Server:Red Hat は、連続バッチ処理とメモリ効率の高い手法を使用する、エンタープライズ対応のサポート付き vLLM エンジンを提供します。このランタイムはスループットを向上させ、GPU の使用量を削減することで、企業が高価な AI ハードウェアから最大限の利益を得ることができるよう支援します。
  • 検証済みで最適化されたモデルへのアクセス:Red Hat AI は、事前評価とパフォーマンステストが実行済みですぐに使用できるモデルのリポジトリへのアクセスを提供します。これらのモデルは複数の評価タスクに対して厳密にベンチマークされており、Hugging Face の Red Hat AI リポジトリにあります。これらのモデルにより、価値実現までの時間を短縮できます。
  • 組み込みの LLM Compressor:Red Hat LLM ツールキットは、量子化などの圧縮技術を適用するための標準化された方法を提供します。このツールキットは、最適化されたモデルを提供するために Red Hat が使用しているもので、お客様がファインチューニングまたはカスタマイズされたモデルを独自に最適化できるようにします。

Red Hat AI を活用することで、さまざまな構成のハードウェアに高性能でコスト効率の高いモデルをデプロイできます。これにより、チームはコストと複雑さを制御しながら、高まり続ける AI の需要に対応できます。

推論パフォーマンス・エンジニアリングの基礎とモデルの最適化について詳しくは、無料の e ブック『Get started with AI Inference (AI 推論を使い始める)』をダウンロードしてください。

リソース

エンタープライズ AI を始める:初心者向けガイド

この初心者向けガイドでは、Red Hat OpenShift AI と Red Hat Enterprise Linux AI によって AI 導入をどのように加速できるのかについて説明します。

執筆者紹介

Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.

With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.

UI_Icon-Red_Hat-Close-A-Black-RGB

チャンネル別に見る

automation icon

自動化

テクノロジー、チームおよび環境に関する IT 自動化の最新情報

AI icon

AI (人工知能)

お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート

open hybrid cloud icon

オープン・ハイブリッドクラウド

ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。

security icon

セキュリティ

環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報

edge icon

エッジコンピューティング

エッジでの運用を単純化するプラットフォームのアップデート

Infrastructure icon

インフラストラクチャ

世界有数のエンタープライズ向け Linux プラットフォームの最新情報

application development icon

アプリケーション

アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細

Virtualization icon

仮想化

オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください