現時点では、大規模言語モデル (LLM) による変革の可能性があることは明らかですが、これらの強力なモデルを本番環境で効率的にデプロイすることは困難な場合があります。
しかし、この課題は新しいものではありません。ポッドキャスト Technically Speaking の最近のエピソードで、Chris Wright が、Red Hat の主任ソフトウェアエンジニアで、何年も前に IBM Watson の原型である「Jeopardy!」システムの商用化に携わった Nick Hill と対談しています。Nick Hill によると、これらの初期の取り組みは、サーバーでいっぱいの部屋から Watson を 1 台のマシンにまで最適化することに重点を置くものであり、強力な AI を実用化するためにはシステムレベルのエンジニアリングが鍵であることを示しています。
両者は、これと同じ原則が最新の LLM と vLLM オープンソース・プロジェクトにも適用される点を論じています。このオープンソース・プロジェクトは、AI の実用性とパフォーマンスを大規模に拡大することで、AI 推論に革命をもたらしています。
vLLM とは
vLLM は、生成 AI (gen AI) との連携時に直面する効率性とスケーラビリティの課題に直接対応する推論サーバーです。vLLM は高価な GPU リソースの使用率を最大化することで、強力な AI をよりアクセスしやすく実用的なものにします。
Red Hat は、重要な商業的なコントリビューターとして vLLM プロジェクトに深く関わっています。Red Hat は、サポート対象の強化されたエンタープライズ対応の vLLM バージョンを Red Hat AI Inference Server に統合しました。この製品は、コンテナ化されたスタンドアローンのオファリングとして、または Red Hat Enterprise Linux AI (RHEL AI) や Red Hat OpenShift AI を含む、より大規模な Red Hat AI ポートフォリオの主要コンポーネントとして利用できます。vLLM コミュニティとのコラボレーションは、より大規模なオープンソース AI 戦略における重要な要素です。
vLLM が LLM 推論に重要な理由
LLM の推論は、AI モデルがトレーニングを新しいデータやクエリに適用するプロセスであり、固有のボトルネックがいくつかあります。推論の従来の手法は、トークンがシーケンシャルに生成され、GPU の使用率が低いために非効率的になることがあり、負荷がかかる場合の高レイテンシや、スケーリングが不可能な柔軟性のないアーキテクチャ、およびメモリー帯域幅の制約などが問題となる可能性があります。
しかし LLM は、最適化されたアプローチを提供します。その主な目的は、GPU の使用率とスループットを最大化することであり、これを一連の主要な最適化を通じて実現します。
- PagedAttention:この中核となるイノベーションは、コンピューターの仮想メモリーと同様の概念を使用して、キーと値 (KV) のキャッシュを効率的に管理します。KV キャッシュは、モデルがあるトークンから次のトークンまで記憶しておくために必要な中間データです。
- 継続的バッチ処理:この手法により、バッチ処理中に推論サーバーが新しい受信リクエストを効率的に処理できるようになり、アイドル時間を短縮し、全体的なスループットを向上させます。
- その他の重要な最適化: vLLM では、小型で高速なモデルを使用して次のトークンを予測する投機的デコーディングや、特定のハードウェアでパフォーマンスを最大化する最適化された CUDA カーネルなどの手法を活用します。
vLLM はデータフロー全体の管理、バッチ処理、スケジューリングを支援するインターフェース層として機能し、LLM をさまざまなハードウェアおよびアプリケーションと統合できるようにします。
エンタープライズ AI の戦略的なメリット
vLLM は技術的に興味深いものであることに加え、IT リーダーにとっても重要な戦略上のメリットを提供します。 vLLM の最適化は、コスト管理、より効果的なスケーリング、テクノロジースタックのより厳密な制御を支援します。
AI を民主化し、コストを最適化する
vLLM は、組織の既存のハードウェアをより効果的に活用するのに役立ちます。GPU の使用率を大幅に増加させることで、ワークロードの実行に必要なハードウェアの数を削減し、コストを削減することができます。これにより、より多くの組織が高度な AI 機能を実現しやすくなります。
AI アプリケーションを確実にスケーリングする
強化された GPU 使用率と応答時間の短縮は、より大規模なモデルとアプリケーションのデプロイのサポートに直接役立ちます。組織は、パフォーマンスを損なうことなく、より多くのユーザーにサービスを提供し、より複雑な AI ワークロードを処理できるようになります。これは、AI プロジェクトを PoC 環境から実稼働環境へと移行するために不可欠なエンタープライズグレードのスケーラビリティを実現するのに役立ちます。
ハードウェアの柔軟性と選択の幅の拡大
vLLM のオープンソースの性質と、Meta、Mistral、IBM などのプロバイダーの主要なモデルと共に NVIDIA、AMD、Intel などの企業のさまざまなハードウェア・アクセラレーターへの幅広いサポートは、重要な戦略的メリットです。これにより、ハードウェア・ソリューションを選択する際の柔軟性が向上し、たとえ動的な要件であっても、組織固有のニーズに最適なアクセラレーターを選択することができます。
イノベーションの加速とコミュニティへのインパクト
vLLM のアクティブなオープンソース・コミュニティは、非常き大きな価値を提供します。コミュニティは活発で成長しており、これは新しい研究や進歩の迅速な統合につながります。このような急速な開発とイノベーションにより、vLLM は LLM 推論の標準として確立され、企業は最新のイノベーションを継続的に活用できるようになります。
vLLM によるエンタープライズグレードの AI
Red Hat は、AI をハイブリッドクラウド上で実用的で透明性が高く、アクセスしやすいものにすることをビジョンとして掲げています。 vLLM はこの戦略の要であり、「あらゆるモデル、アクセラレーター、クラウドに対応」という指針となるビジョンの重要な要素になります。
Red Hat AI Inference Server
Red Hat は vLLM を Red Hat AI Inference Server に統合しました。これは、サポート対象の強化されたエンタープライズ対応の vLLM のディストリビューションです。Red Hat では、最適化され、検証済みのサードパーティのモデルのリポジトリに加え、LLM Compressor などのツールを提供しており、これらのツールは、ハイブリッドクラウド環境全体で、より迅速かつ費用対効果の高いデプロイを可能にします。
Red Hat が断片化した Linux 環境を統合したように、vLLM を活用した Red Hat AI Inference Server は、AI 推論に対して同様の統合レイヤーを提供します。これは、AI ワークロードを実行するための一貫した信頼性の高い方法を必要とする組織が、複雑なデプロイを単純化するのに役立ちます。
AI インフラストラクチャの統合
Red Hat AI Inference Server は、スタンドアローンのコンテナ化された製品として利用できます。また、これは Red Hat AI ポートフォリオ全体で重要な役割を果たします。
- コアコンポーネントは Red Hat Enterprise Linux AI (RHEL AI) に含まれており、この RHEL AI は LLM の開発、テスト、デプロイのための基盤となるプラットフォームを提供します。
- これは、Red Hat OpenShift AI の主要なコンポーネントであり、AI モデルのライフサイクル全体を大規模に管理するための統合 MLOps プラットフォームです。
- さらに、最適化されたモデルの Hugging Face リポジトリを利用すると、Llama、Mistral、Qwen、Granite など、vLLM で効率的に実行されるように事前に最適化されたサードパーティの検証済みモデルを利用できます。
Red Hat のオープンソース・コミュニティへのコミットメントは継続的に行われます。Red Hat は、vLLM コミュニティへの関与に加え、最近では vLLM を組み込んだ Kubernetes ネイティブの高性能分散 LLM 推論フレームワークである llm-d プロジェクトを立ち上げました。この新たな取り組みには、Google や NVIDIA などのコントリビューターも参加しており、大規模なスケールで生成 AI を実行できる設計で、さまざまなハードウェア・アクセラレーターでのほとんどのモデルで競争力のあるパフォーマンスを実現するのに役立ちます。
Red Hat のメリット
Red Hat AI は、モデルのトレーニングと推論のための完全なエンタープライズ AI プラットフォームを提供し、効率の向上、エクスペリエンスの単純化、さらにハイブリッドクラウド環境のどこにでもデプロイできる柔軟性をもたらします。Red Hat は、AI を実用的で透明性が高く、利用しやすいものにすることをビジョンとして掲げています。Red Hat のポートフォリオは、初期の実験から実稼働に至るまで、お客様のビジネスに役立つ AI ソリューションの構築と実行を支援できるように設計されています。
Red Hat のハイブリッドクラウド・アプローチにより、既存のアプリケーションをモダナイズする場合でも、新しいアプリケーションを構築する場合でも、AI の実装方法はお客様が選択できるようになります。また Red Hat は、 無料の AI 基礎コースなど、AI トレーニングと認定を提供しており、組織が必要とする AI スキルの開発を支援します。
リソース
AI 推論を始める
執筆者紹介
The Technically Speaking team is answering one simple question: What’s next for enterprise IT? But they can’t answer that question alone. They speak to tech experts and industry leaders who are working on innovative tools. Tune in to their show for a front-row seat to the industry’s visions for the future of technology.
類似検索
チャンネル別に見る
自動化
テクノロジー、チームおよび環境に関する IT 自動化の最新情報
AI (人工知能)
お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート
オープン・ハイブリッドクラウド
ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。
セキュリティ
環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報
エッジコンピューティング
エッジでの運用を単純化するプラットフォームのアップデート
インフラストラクチャ
世界有数のエンタープライズ向け Linux プラットフォームの最新情報
アプリケーション
アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細
仮想化
オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください