vLLM が AI 推論を加速させる仕組み:3 つのエンタープライズ・ユースケース

URL をコピー

vLLM は、メモリーストレージとグラフィックス・プロセッシング・ユニット (GPU) をより有効に活用することで大規模言語モデル (LLM) での生成 AI 推論を高速化する推論サーバーです。 

GPU を効率的に使用すると、LLM は計算をより高速かつ大規模に実行できるようになります。これは、組織がチャットボットやマルチモーダル・ワークフローなどのリアルタイム・アプリケーションを必要とする場合にますます重要になっています。 

この記事では、有名企業における vLLM 活用の成功例を 3 つご紹介します。

vLLMの詳細な概要を見る

推論中、LLM はキー値に基づいて短時間で大量の計算を実行します。 

LLM はキー値を使用してトークン (用語またはフレーズ) に数値を付加し、言語を理解して回答を計算します。そのため、すべてのトークン (キー) は、LLM が回答を計算できるようにする数値 (値) に関連付けられます。 

AI 推論では、次の 2 つの主なフェーズでキー値が使用されます。 

  • プリフィル:モデルが入力プロンプトを処理するときに実行されます。各トークンのキー値は、モデルの短期メモリーとして機能するキー値 (KV) キャッシュを作成します。
  • デコード:モデルが新しいトークンを生成するときに実行されます。既存の KV キャッシュを使用して、回答のキー値を計算します。 

LLM は、処理されたすべてのトークンのキー値を KV キャッシュに保存します。キャッシュはプロンプトの長さと出力生成に応じて増加するため、LLM メモリーストレージを大量に消費します。従来の LLM メモリー管理システムでは、計算を整理したりメモリーを最も効率的な方法で使用したりしないため、LLM の動作が遅くなります。 

vLLM は、推論中に KV キャッシュがどのように使用されるかを理解しているメモリー管理手法を使用します。繰り返されているキー値を識別しながらキャッシュデータを取得することで、メモリーの断片化を防ぎ、LLM の余分な作業を削減します。これにより、GPU メモリーをより効率的に使用でき、LLM 推論が高速化されます。 

AI 推論を重視すべき理由

AI テクノロジーの導入に関する 4 つのキーポイント

vLLM はさまざまなテクノロジーと手法を使用して、ストレージの使用量を削減し、推論を高速化します。 

  • 連続バッチ処理:LLM は前のトークンの計算を完了していなくても、次のトークンバッチの推論プロセスを開始できます (vLLM はマルチタスクが可能です)。
  • PagedAttention:KV キャッシュを使用して以前のトークンを記憶し、そのメモリーを活用して GPU ストレージを節約する画期的なテクノロジーです。
  • 投機的デコード:より小さく、より高速なモデルを使用して着信トークンを予測し、プリフィルステージの速度と効率を高めます。
  • 量子化:大きなモデルパラメーターを小さな形式に圧縮するプロセスであり、精度を犠牲にすることなく必要なストレージを削減できます。モデルのカスタマイズで使用できる量子化の手法にはさまざまなものがあります。

処理するトークンを減らしたり、回答を数秒早く生成したりしたところで、それほど大きな違いはないと思われるかもしれません。しかし、企業では何千もの AI ワークロードが処理され、GPU を使用して推論サーバーの計算が行われています。そのすべてにこのメモリー節約手法を適用すれば、時間、費用、リソースを大幅に節約できます。 

企業レベルで AI を拡張したい組織にとって、これは画期的です。 

分散推論によってどのように AI が大規模に高速化されるかを見る

組織は、大量かつ変動の大きいワークロードで AI 推論を使用しています。しかし、一貫性を持って大規模に LLM をデプロイするには、多くのコンピューティングパワー、リソース、専門的な運用スキルが必要です。 

vLLM は、企業での AI 推論をサポートするために必要なハードウェアの使用を効率化し、これらの課題の克服に貢献します。そのため、vLLM はスピードに加えて柔軟性と制御性を必要とする業界にとって特に魅力的な選択肢となっています。 

AI のスケーリングのメリットについて読む

オープンソース・ソリューションである vLLM により、企業は次のことが可能になります。 

  • GPU を所有および管理する
  • データを制御する
  • リリースされた新しいモデルをすぐに試す

この優れた自由度により、トークンあたりのコストが下がり、プライバシーに関する懸念が少なくなります。 

vLLM は、NVIDIA GPU や AMD GPU、Google TPU、Intel Gaudi、AWS Neuron など、さまざまなハードウェアにデプロイできます。また、vLLM は特定のハードウェアに制限されるものではなく、クラウド、データセンター、エッジのいずれでも機能します。

vLLM と Ollama:それぞれのフレームワークをいつ使用するか

採用活動からオンラインゲームまで、推論はさまざまな用途に使用されますが、それをスケーリングしようとするとあっという間に複雑になってしまう可能性があります。 

次に挙げるのは、大手企業がオープンソース・プロジェクトである vLLM をどのように使用しているかを示す例です。これらの企業は Red Hat の顧客ではありませんが、より広範な vLLM コミュニティとそこから生み出されるテクノロジーを活用しています。 

Roblox の vLLM 活用事例

Roblox は、世界中に何百万人ものユーザーを抱えるオンラインゲーム・プラットフォームです。ユーザーは独自のゲーム体験を作成したり、他のユーザーが作成したゲームをプレイしたりできます。 

同社の最新機能である、コンテンツ作成を支援する AI チャットボット「Assistant」により、処理されるトークンは 1 週間あたり 10 億以上へと増加しました。リアルタイム AI チャット翻訳音声安全性モデルなどの追加機能も、推論の複雑さが増す要因となっています。何百万ものユーザーのマルチモーダルなインタラクションに対応したことにより、処理するトークンが増え、推論に必要なリソースも増加しました。 

この増大する需要に対処するために、Roblox は主要な推論エンジンとして vLLM を採用しました。特に、世界中の顧客に対応するために、言語タスクに vLLM の投機的デコーディング機能を活用しています。vLLM を導入したことでレイテンシーが 50% 低減され、現在では週あたり 40 億トークンを処理しています。 

vLLM により、Roblox はプラットフォームの成長に合わせて拡張し、ユーザーの需要に応えることができるようになりました。Roblox はオープンソース・テクノロジーのサポートにコミットしており、vLLM はその方針に合致しているために選択されました。 

Red Hat の vLLM Office Hours で、Roblox が vLLM をどのように使用しているかについてお聞きください。 

Roblox と vLLM の詳細について読む

LinkedIn の vLLM 活用事例

LinkedIn は、多数のアクティブなユーザー層のニーズに対応する幅広い生成 AI ユースケースをサポートするために vLLM を採用しました。 

LinkedIn は世界最大級のプロフェッショナル・ネットワーキング・サイトの 1 つであり、200 カ国以上に 10 億人を超える登録者を擁しています。LinkedIn は現在、vLLM により LinkedIn Hiring Assistant など 50 を超える生成 AI ユースケースをサポートすることが可能になっています。 

LinkedIn Hiring Assistant は、複雑な分類計算を使用して、応募者を経験年数、スキル、雇用歴などの資格要件でフィルタリングします。これにより、採用担当者は職務に最も適した応募者を見つけることができます。 

しかし、この広範にわたる分類を処理するには多数のトークン (候補者 1 人あたり平均 1,000 トークン) が必要となるうえ、応募者プールに何千人もの候補者が登録される可能性があります。 

応募の 50% 以上で、プレフィックストークンは共通です (つまり、資格要件に類似点があります)。そのため、LinkedIn Hiring Assistant は vLLM の PagedAttention テクノロジーと連続バッチ処理機能の最適なユースケースでした。このテクノロジーと機能は両方とも、レイテンシーを削減し、高スループットを優先し、GPU ストレージへの負荷を軽減します。 

出力トークンあたりの時間 (TPOT) は、モデルが個々のトークンを生成するのにかかる平均時間を示す指標です。 これまでのところ、LinkedIn は vLLM によって TPOT を 7% 向上させることに成功しています。 

LinkedIn と vLLM の詳細について読む

Amazon の vLLM 活用事例

Amazon の生成 AI ショッピング・アシスタントの Rufus は、決断疲れを軽減することでカスタマーエクスペリエンスを向上させることを目指しています。Rufus は 2025 年に 2 億 5000 万人の顧客にサービスを提供したと報告されており、その数は増え続けています。 

この生成 AI ショッピング・アシスタントを使用する顧客の数が増えると、推論の複雑さが増加します。Amazon は、単一のチップやインスタンスでは Rufus をスムーズに実行するのに十分なメモリーを提供できないことに気付きました。 

そこで、より高速かつ低レイテンシーで精度を維持できるスケーラブルなマルチノード推論機能を重視することにしました。同社は、vLLM との統合によりスムーズで高速な推論を可能にするマルチノード・アーキテクチャ・ソリューションを構築することで、これを実現しました。 

vLLM の連続バッチ処理手法を使用することで、このマルチノード・アーキテクチャでは推論処理をインテリジェントにスケジュールすることができます。これにより、トークンの量がレイテンシーやパフォーマンスに影響を与えることがなくなりました。 

vLLM を使用して LLM の効率とスループットを向上させることで、Amazon は Rufus のような生成 AI プロジェクトを拡張し、顧客とともに成長および進化させ続けることができます。

Amazon と vLLM の詳細について読む 

vLLM には以下のコア機能が備わっているので、今後も AI 推論の将来を支える基盤であり続けます。 

  • 速度:推論機能は止まることなく向上を続けています。速度とモデル効率の向上のために、vLLM のハードウェアおよびモデルプロバイダーがプロジェクトに直接貢献しています。
  • コミュニティ:vLLM には大規模なオープンソース・コミュニティがあり、成長を続けています。 vLLM の効率性は非常に高く、DeepSeek、NVIDIA、Meta、Google など、モデル開発に貢献するトップ 10 企業はすべて、vLLM 用に事前構築されたモデルを作成しています。
  • 柔軟性:vLLM は、NVIDIA GPU や AMD GPU、Google TPU、Intel Gaudi、AWS Neuron、およびその他のアクセラレーター (MetaX、Rebellions など) を含む、ほとんどの AI ハードウェアにデプロイできます。多様なハードウェアをサポートしているので、企業は既存のリソースを使用して成果を出すのに必要な柔軟性を獲得できます。
  • Day 0 サポート: vLLM は、Meta や Google などの人気のモデルビルダーが新しいモデルをリリースした時点で、そのベースとなるアーキテクチャに対応しています。つまり、vLLM は新しいモデルに対して Day 0 (即時) のサポートを提供できます。そのため vLLM は、モデルを迅速に導入し、コストを削減したい企業にとって、アクセスしやすくすぐに使えるソリューションとなります。 

vLLM には、ハイブリッドクラウドで大規模に LLM を管理するための分散推論フレームワークである llm-d も含まれています。

GitHub で vLLM コミュニティを探索する

Red Hat® AI は、AI 導入の初期段階にある企業から、AI を拡張する準備ができている企業まで、AI 導入のあらゆる段階で役立つ製品およびサービスのプラットフォームです。企業独自のユースケースに応じて、生成 AI および予測型 AI のいずれの取り組みもサポート可能です。

Red Hat AI を使用すると、Red Hat AI Inference Server にアクセスしてハイブリッドクラウド全体でモデル推論を最適化し、より迅速でコスト効率の高いデプロイメントを実現できます。vLLM を搭載した推論サーバーは、GPU の使用率を最大化し、応答時間を短縮します。

Red Hat AI Inference Server の詳細を見る

Red Hat AI Inference Server には Red Hat AI リポジトリが含まれています。これは、サードパーティによって検証および最適化されたモデルのコレクションであり、モデルの柔軟性を実現し、チーム間の一貫性を促進します。サードパーティのモデルリポジトリにアクセスすることで、企業は市場投入時間を短縮し、AI の成功に対する財務上の障壁を減らすことができます。

Red Hat AI による検証済みモデルの詳細を見る

ブログ投稿

戦略の主権をどの程度保持していますか?Red Hat Sovereignity Readiness Assessment ツールの概要

Red Hat Sovereignty Readiness Assessment ツールは、Web ベースのセルフサービス評価ツールであり、7 つの重要ドメインにわたる組織のデジタル管理についての明確で客観的なベースラインを提供します。

エンタープライズ AI を始める:初心者向けガイド

この初心者向けガイドでは、Red Hat OpenShift AI と Red Hat Enterprise Linux AI によって AI 導入をどのように加速できるのかについて説明します。

関連情報

What is Mixture of Experts (MoE)?

混合専門家 (MoE) は、タスクをモデル内の最適な部分に振り分けて AI 推論を高速化するモデルアーキテクチャ手法です。

What is AgentOps?

AgentOps (エージェント・オペレーション) とは、AI が意思決定を行う際の「頭脳」をリアルタイムで監視するツール群のフレームワークです。

What are predictive analytics

現在と過去のデータを分析し、将来のイベントを予測する手法。機械学習、統計モデリング、データマイニング等による傾向、行動、成果、ビジネス機会の特定を支援します。

AI/MLリソース

注目の製品

  • Red Hat AI

    ハイブリッドクラウド環境全体で AI ソリューションの開発とデプロイメントを加速させる柔軟なソリューション。