大規模言語モデル (LLM) の概念実証 (PoC) に成功したとします。次に待ち受けているのは何でしょうか?単一のサーバーから本番環境レベルの分散型 AI 推論への移行は、ほとんどの企業にとって大きな壁のような課題となります。ここまで支えてきたインフラでは、もはや対応しきれません。
Technically Speaking ポッドキャストの最近のエピソードで説明されているように、ほとんどの組織の AI 導入と PoC は、単一のサーバーにモデルをデプロイするという、管理可能なタスクから始まります。しかし多くの場合、次のステップとして、本番環境レベルの分散型 AI 推論への大きな飛躍が必要となります。これは、単にマシンを増やすだけの問題ではありません。これには、インフラストラクチャ自体に新しい種類のインテリジェンス、つまり、これらの独自の動的ワークロードの複雑さを管理するための AI 対応のコントロールプレーンが必要だと考えています。
新たな課題:分散型 AI 推論
LLM を大規模にデプロイすると、一連の課題が発生しますが、従来のインフラストラクチャはこれらの課題に対応するように設計されていません。たとえば、標準的な Web サーバーは、均一な要求を処理しますが、これとは対照的に、AI の推論リクエストは予測不可能であり、かつリソースを大量に消費するため、コンピューティング、メモリー、ネットワークに対する要求が変動します。
これを現代のロジスティクスのようなものと考えてみてください。小さな荷物をある都市から別の都市に移動するのは簡単です。しかし、グローバルなサプライチェーンを調整するには、インテリジェントな物流管理システムが必要になります。これには、数千もの貨物を追跡し、さまざまな種類の貨物を動的に経路指定し、すべてが時間どおりに到着するようにスケジューリングを調整できるシステムが必要になります。このインテリジェンスと慎重な調整がなければ、システム全体は機能しなくなります。これと同様に、インテリジェントなインフラストラクチャ・レイヤーがなければ、AI のスケーリングは非効率的かつ高コストで、信頼性の低いものになります。
これらのワークロードの複雑さは、LLM 推論のプリフィルおよびデコードフェーズに関連するものです。プリフィルのフェーズは入力プロンプト全体を一度に処理する、計算負荷の高いタスクです。一方、デコードのフェーズは出力トークンを一度に 1 つずつ生成し、これはメモリー帯域幅に大きく依存します。
ほとんどの単一サーバーのデプロイメントでは、これら 2 つのフェーズを同じハードウェア上で共存させており、とくに複数の要求パターンを持つ大量のワークロードの場合に、ボトルネックが生じ、パフォーマンスが低下する可能性があります。現実の課題としては、(プリフィルフェーズの) 最初のトークンまでの時間 (TTFT: Time to First Token) と (デコードフェーズの) トークン間レイテンシー (ITL: Inter-Token Latency) の両方を最適化して、スループットを最大化し、最も多くの同時リクエストを処理し、さらに (企業での使用において重要となる) 定義されたサービスレベル目標 (SLO) を一貫して達成することなどがあります。
共通の問題に対する共通のビジョン
この複雑な業界全体の課題に対処する上で、オープンソースの力を活用できることは明らかです。問題がハードウェアベンダー、クラウドプロバイダー、プラットフォーム・ビルダーによって共有される場合、通常、最も効果的なソリューションとなるのは、協調型のソリューションです。共有されるオープンソース・プロジェクトは、数十の組織が独立して同じ問題を解決する場合よりも、イノベーションを加速させ、共通の標準を確立するのに役立ちます。
llm-d project は、このコラボレーションの典型的な例です。Red Hat と IBM Research が開始したこのプロジェクトに、すぐに Google や NVIDIA などの業界リーダーの連合が加わり、一丸となって共同で開発されたビジョンに向けた取り組みが行われています。
llm-d は、技術的な側面では、AI 推論を大規模に管理するための明確で実証済みのブループリント、つまり「明かりの灯った道筋」を提供するように設計されています。このコミュニティは、すべてをゼロから構築するのではなく、AI ワークロードを大規模に実行する際の運用上の課題を最適化し、標準化することに注力しています。
llm-d:実動レベルの AI のブループリント
llm-d プロジェクトは、AI ワークロードに必要な特定の機能で Kubernetes を強化するオープンソースのコントロールプレーンを開発しています。これは Kubernetes を置き換えるものではありませんが、専用のインテリジェンス層を追加し、vLLM の実行時パフォーマンスを分散レイヤーへと拡張します。
llm-d コミュニティは、AI 推論のパフォーマンスと効率に直接影響を与える以下のような機能の構築に重点を置いています。
- セマンティックルーティング: llm-d のスケジューラーは、それぞれの推論リクエストの一意のリソース要件を認識しています。これは、ワークロードを実行する場所についてよりスマートな決定を下すことができ、高価なリソースをより効率的に使用し、コストのかかるオーバープロビジョニングを回避します。また、モデルの key-value (KV) キャッシュの使用率などのリアルタイムデータを使用して、リクエストを最適なインスタンスにルーティングする点で、従来の負荷分散を超えるものです。
- ワークロードの分離: llm-d は、複雑な推論タスクを小さい、管理可能な単位 (とくにプリフィルおよびデコード フェーズ) に分割します。これにより、詳細な制御が可能になり、異種ハードウェアの使用が可能になるため、適切なリソースを適切なタスクに使用することができ、全体的な運用コストを削減することができます。たとえば、プリフィル Pod を計算負荷の高いタスク向けに最適化し、デコード Pod をメモリー帯域幅の効率に合わせて調整することができます。これにより、モノリシックなアプローチでは不可能であった詳細レベルの最適化が可能になります。
- 高度なアーキテクチャのサポート: llm-d は、複数のノードにわたる複雑なオーケストレーションと並列処理を必要とする、Mixture of Experts (MoE) などの新しいモデル・アーキテクチャに対応できるように設計されています。広範な並列処理をサポートすることで、llm-d はスパースなモデルを効率的に使用できるようにします。これらのモデルは、密度の高いモデルよりもパフォーマンスとコスト効率に優れていますが、大規模にデプロイするのが困難です。
llm-d コミュニティは、HPC (高性能計算) や大規模分散システムなどの分野から最良のアイデアを取り入れ、これらの使用を難しくする可能性のある柔軟性に欠けた特殊なセットアップを排除することに取り組んでいます。これは、モデルの提供には vLLM、スケジューリングには推論ゲートウェイなどのオープン・テクノロジーを戦略的に活用して、単一の統合フレームワークを作成します。
運用性と柔軟性を重視していますが、これらは中核となる設計原則であり、このプロジェクトでは NVIDIA、AMD、Intel などのベンダーの複数のハードウェア・アクセラレーターをサポートしています。llm-d は、異なるハードウェアや環境間で機能する柔軟なコントロールプレーンを構築することで、エンタープライズ AI の将来に向けた強力で永続的な標準の確立に取り組んでいます。
終わりに
現在の AI の運用に焦点を当てている IT リーダーにとって、llm-d プロジェクトの価値はコミュニティだけにとどまりません。このオープンソースの連携で行われている作業、とりわけインテリジェントな AI 対応コントロールプレーンの開発は、多くの組織が現在直面している本番環境における課題に直接対応しています。
llm-d の利点は明らかです。
- 単一のサーバーから移行する: LLM のスケーリングは、マシンを追加することだけでは達成できません。これに必要なのは、インテリジェントな分散ワークロードをの管理、複雑なハードウェアの処理、およびコストとパフォーマンスの最適化が可能な戦略的なインフラストラクチャ・レイヤーを実装することです。
- オープンスタンダードを活用する:最も堅牢なソリューションは、独自仕様のサイロではなく、協調型のオープンソースの取り組みから生まれます。このようなオープンスタンダードに沿ったプラットフォームを採用することで、ベンダーロックインを回避し、AI の取り組みに適した、より柔軟で将来に備えた環境を提供できます。
- 信頼できるパートナーと共に実践する: ノベーションを活用する上で、分散システムの専門家になったり、llm-d プロジェクトに直接貢献したりする必要はありません。コミュニティで生み出された価値は、Red Hat AI などのサポートされているエンタープライズ・プラットフォームに統合されており、このプラットフォームは、大規模な AI をデプロイし、管理するための一貫した信頼できる基盤を提供します。
エンタープライズ AI の未来は、強固なインフラストラクチャ基盤に依存しています。llm-d コミュニティの仕事は、その基盤を構築することであり、Red Hat AI などのプラットフォームがこの実現に役立ちます。
リソース
適応力のある企業:AI への対応力が破壊的革新への対応力となる理由
執筆者紹介
Chris Wright is senior vice president and chief technology officer (CTO) at Red Hat. Wright leads the Office of the CTO, which is responsible for incubating emerging technologies and developing forward-looking perspectives on innovations such as artificial intelligence, cloud computing, distributed storage, software defined networking and network functions virtualization, containers, automation and continuous delivery, and distributed ledger.
During his more than 20 years as a software engineer, Wright has worked in the telecommunications industry on high availability and distributed systems, and in the Linux industry on security, virtualization, and networking. He has been a Linux developer for more than 15 years, most of that time spent working deep in the Linux kernel. He is passionate about open source software serving as the foundation for next generation IT systems.
チャンネル別に見る
自動化
テクノロジー、チームおよび環境に関する IT 自動化の最新情報
AI (人工知能)
お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート
オープン・ハイブリッドクラウド
ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。
セキュリティ
環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報
エッジコンピューティング
エッジでの運用を単純化するプラットフォームのアップデート
インフラストラクチャ
世界有数のエンタープライズ向け Linux プラットフォームの最新情報
アプリケーション
アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細
仮想化
オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください