本日、Red Hat では llm-d を Cloud Native Computing Foundation (CNCF) にサンドボックスプロジェクトとして提供することをお伝えします。

これは単なるコードの引き継ぎではありません。これは、高性能な AI 推論をクラウドネイティブスタックのコアとなる、ポータブルな機能にする取り組みです。2025 年 5 月に llm-d を発表した際、Red Hat は AI の実験と大規模なミッションクリティカルのプロダクション推論との間に見られた機能面での大きなギャップを解消することを目指しました。Red Hat は llm-d を CNCF に移行することで、CoreWeave、IBM、Google、NVIDIA を含むマルチベンダー連合の目標を拡大し、分散推論のオープンスタンダードの構築に向けて取り組みます。

推論がエージェント時代を推進する

エージェント型の未来を迎えるにあたり、エンタープライズエージェントの広大な領域を支える AI 推論は、大きく拡大しようとしています。推論のコストと複雑さが、エージェント自体のビジネス価値を上回ってしまわないようにすることが極めて重要になります。しかし、推論には非常にコストがかかる場合があり、膨大な量の専用アクセラレーターを消費します。また、大規模な環境ではコストがさらに上昇する可能性があります。llm-d の高度な機能はこれに直接対処し、インフラストラクチャの効率を最大化しながら、エンタープライズのサービスレベル目標 (SLO) の達成を支援します。さらに、組織には、データセンター、クラウド、エッジなど、選択したハードウェア上の適切な場所で推論をデプロイできる柔軟性が必要です。この柔軟性は、基盤となるエコシステムがオープンソースとオープンスタンダードに基づいて構築されている場合にのみ実現します。

クラウドネイティブ環境におけるギャップの解消

Kubernetes はオーケストレーションの業界標準ですが、これは大規模言語モデル (LLM) 推論の特有のステートフルな要求のために構築されたわけではありません。従来のマイクロサービスでは、リクエストは単なるリクエストであり、各レプリカが 1 つずつを同様に処理します。生成 AI では、リクエストのコストは、プロンプトと出力のトークンの長さ、モデルのサイズとアーキテクチャ、キャッシュの局所性、およびモデルがプリフィル (演算負荷が高い) フェーズかデコード (メモリー負荷が高い) フェーズにあるかかによって大きく異なります。

標準的なサービスルーティングはこれらの動的な要素を考慮しないため、非効率的な配置や予測不可能なレイテンシーにつながります。ここで llm-d がギャップを解消します。llm-d は、KServe のような上位レベルのコントロールプレーンと vLLM のような下位レベルのエンジン間で、特殊なデータプレーンのオーケストレーション層として機能します。Gateway API や LeaderWorkerSet (LWS) などの Kubernetes ネイティブなプリミティブを使用して、複雑な分散推論を管理と観測が可能なクラウドネイティブ・ワークロードに変換します。

コントリビューションを通じたエコシステムの強化

llm-d を CNCF に提供することで、私たちは「明確な道筋」を築いています。これは、断片化された AI コンポーネントを、モジュール化され相互運用可能なマイクロサービスへと変える、実証済みで再現可能な青写真です。このコントリビューションは、単なる 1 つのプロジェクトにとどまらず、クラウドネイティブ環境全体を充実させ、推論処理が従来のコンテナベースのアプリケーションと同じ環境において、同等の地位を占めるようにすることを目指しています。

この取り組みの中心となるのがエンドポイントピッカー (EPP) です。llm-d は Kubernetes Gateway API Inference Extension (GAIE) の主要な実装として機能し、EPP によってプログラム可能な推論対応のルーティングが可能になります。つまり、システムはエンジンの実際の状態に基づいてルーティングを決定し、KV キャッシュのヒット率とハードウェア・アクセラレーターの特性を最適化します。これは、厳格なサービスレベル目標の下で持続的なスループットを維持するための根本的な要件です。

llm-d は CNCF 内の既存の環境を補完し、拡張します。

  • Kubernetes:AI ワークロード用の主要なインフラストラクチャ・プラットフォームを提供します。
  • Gateway API:AI 固有のルーティングのためのアップストリーム連携を促進し、トラフィック管理をコアとなるオープンなコンポーネントとして維持できるようにします。
  • KServe:llm-d と統合する上位レベルのコントロールプレーンとして機能し、細分化されたサービングやプレフィックスキャッシングなどの高度な機能をサポートします。
  • LeaderWorkerSet: Kubernetes ネイティブのプリミティブを活用して、複雑なマルチノードレプリカと高度な並列処理をオーケストレーションし、vLLMなどのエンジンを管理しやすいクラウドネイティブのワークロードへと変換します。
  • Prometheus & Grafana:最初のトークンまでの時間 (TTFT) などの特殊なメトリクスをエクスポートし、生成 AI にエンタープライズグレードの可観測性をもたらします。

推論の未来の拡張に向けた協業

llm-d は設立当初から、コラボレーションを中核に据えてきました。Red Hat が 昨年の Red Hat Summit で llm-d を発表した際に、このプロジェクトの創設メンバー、業界のリーダー、そして学術界の支援者による共同の取り組みは、Red Hat にとって大きな誇りでした。それは単に llm-d を立ち上げたというだけでなく、将来を見据えた協力的な基盤を築き上げたという点においても同様です。それから 10 カ月で、llm-d はエンタープライズ AI のプライベート MaaS と大規模な AI イニシアチブの両方に導入されました。さらに重要な点として、コントリビューターとパートナーのエコシステムが拡大し続けることで、プロジェクトのオープンがますます強固になっていることです。開発者や企業は llm-d に信頼を寄せており、私たちはプロジェクトを CNCF に提供することで、オープンな未来をサポートし、維持することができます。オープンソース AI のイノベーションの成功までの道のりは長いものですが、私たちは目標を達成するためのインフラストラクチャを共に構築しています。


執筆者紹介

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

UI_Icon-Red_Hat-Close-A-Black-RGB

チャンネル別に見る

automation icon

自動化

テクノロジー、チームおよび環境に関する IT 自動化の最新情報

AI icon

AI (人工知能)

お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート

open hybrid cloud icon

オープン・ハイブリッドクラウド

ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。

security icon

セキュリティ

環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報

edge icon

エッジコンピューティング

エッジでの運用を単純化するプラットフォームのアップデート

Infrastructure icon

インフラストラクチャ

世界有数のエンタープライズ向け Linux プラットフォームの最新情報

application development icon

アプリケーション

アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細

Virtualization icon

仮想化

オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください