本ブログは、Red Hat Research Quarterly の記事「From silos to startups: Why universities must be a part of industry’s AI growth」で扱われた、カリフォルニア大学バークレー校の Ion Stoica 氏との最近の対談を基に作成されました。全文は、こちらをご覧ください。
ここ数年、人工知能 (AI) に関する議論は、大規模言語モデル (LLM) とそのトレーニングに費やされる膨大な量の労力などが中心となってきました。テクノロジー業界はこれまでディスカバリー・フェーズに重点を置いてきましたが、その時代は急速に変化しています。
話題の中心は、「モデルをどのように構築するか」から「モデルを実際に大規模にプロダクションで実行するにはどうすればよいか」へと変化しています。
このシフトは単なる技術的な詳細だけで終わらず、エンタープライズ AI の新たな中心点の移行を意味します。AI が研究室を離れてビジネスの中核機能となると、推論へとフォーカスがシフトします。つまりトレーニング済みモデルの「脳」内で答えを生成したり、アクションを実行したりする前に発生するシナプスの発火点に焦点が向けられます。企業においては、推論は高速かつ費用対効果が高く、完全に制御されている必要があります。
推論の課題に対するオープンソースの回答
AI を概念実証 (PoC) から信頼性の高いプロダクショングレードのサービスに移行することは、IT リーダーに大きな複雑性、コスト、制御性の課題をもたらします。
まず、これらのモデルの実行に必要なハードウェアは、とくに企業が必要とする規模の場合は高価であり、また入手困難になることが多々あります。次に、需要は予測不可能です。使用量が急増した後、低レベルのアクティビティが長期間続くことがあり、これは数百ものドメイン特化モデルのバリアントにおいて複合的に影響する可能性があります。この変動性により、リソース利用率を最大化し、重要な投資を保護することが極めて困難になります。
私たちは、オープンソース・コミュニティが LLM の提供におけるパフォーマンスと効率の最適化に焦点を当てることで、この課題に対処しているのを目にしてきました。この分野を主導する最も成功したプロジェクトの 1 つが vLLM です。vLLM は、カリフォルニア大学バークレー校の Sky Computing Lab で Ion Stoica 氏のリーダーシップの下に確立されました。Ion 氏が対談で言及しているように、この学術的な基盤は極めて重要です。これは、大学の研究が、最も差し迫った現実世界の推論の課題を直接解決していることを示しています。vLLM はすぐに高性能の LLM 提供におけるデファクトになりました。これは、スループットの最大化とレイテンシーの最小化を実現するために設計された、速度と効率を追求したエンジンです。
コミュニティの企業向けイノベーションを強化
vLLM などのコミュニティのプロジェクトはイノベーションの開始点となりますが、これらは、エンタープライズの本番環境の厳しい要求に対応できるよう適応させていく必要があります。この段階で、信頼できる Linux と Kubernetes のエキスパートとしての Red Hat の価値が発揮されます。
私たちは vLLM という画期的な取り組みを他のコミュニティ主導のプロジェクトと組み合わせて、プロダクション AI 向けに強化された、サポート付きでスケーラブルなプラットフォームを構築しています。この進化の鍵となるコンポーネントが llm-d であり、これは、クラスタおよびクラスタ以上の規模での LLM 管理のための分散推論フレームワークです。
私たちは、llm-d を統合することで、LLM が Kubernetes でネイティブに実行される方法を根本的に変えています。これにより、コンテナ・オーケストレーションの実証済みの価値 (制御性、一貫性、効率的なリソース・スケジューリング) が、これまでで最も困難な AI の段階である、高ボリュームかつ需要が変動する推論の段階に加わります。
この組み合わせにより、組織は次のことが可能になります。
- インフラストラクチャへの投資を最大化する:Kubernetes オーケストレーションを活用して、大規模モデルの分散型の提供を可能にします。これにより、IT チームは高価で制限されたハードウェア・アクセラレーターを複数のワークロードやモデル間で最大限に活用し、インフラストラクチャをサイロ化されたハードウェアではなく、弾力性に優れたコンピューティング容量のプールとして扱うことができます。
- 応答時間を短縮する:分散推論は予測不可能な需要をインテリジェントに管理し、アプリケーションが遅延を急増させることなく必要な応答を得られるようにします。
- 安心してデプロイメントを加速できる:Red Hat は、最先端の研究とコミュニティのイノベーションから、強化されたサポート付きのソフトウェアに至るまで、信頼できる道筋を提供します。これにより、AI エンジニアは価値実現までの時間を短縮でき、プラットフォームチームは必要な管理とガバナンスの制御を行うことができます。
AI に不可欠なオープンモデル
vLLM と llm-d をもたらしたイノベーションのパイプラインは、学術研究から始まり、オープンソース・コミュニティを通じて進化し、最終的にはエンタープライズ規模で安定化し、サポートされるようになっています。Ion 氏と私は、このモデルこそが AI 導入における今後の 10 年間を定義するものとなるだろうという見解を共有しています。
AI が真に不可欠なビジネスツールとなるためには、プロプライエタリーなラボで隔離された状態にされたり、概念実証に限定されることがあってはなりません。むしろ、AI はアクセス可能で透明性があり、継続的なコラボレーションによる改善を可能にする基盤の上に構築されていなければなりません。Red Hat は、オープン・ハイブリッドクラウドがこのイノベーションの運用に最適な場所となり続けるように取り組んでいます。これにより、企業は自社でデータを所有し、自社の将来を掌握し、進化する AI 環境に自信を持って対応するために必要な基盤を得ることができます。
執筆者紹介
Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.
After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.
チャンネル別に見る
自動化
テクノロジー、チームおよび環境に関する IT 自動化の最新情報
AI (人工知能)
お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート
オープン・ハイブリッドクラウド
ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。
セキュリティ
環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報
エッジコンピューティング
エッジでの運用を単純化するプラットフォームのアップデート
インフラストラクチャ
世界有数のエンタープライズ向け Linux プラットフォームの最新情報
アプリケーション
アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細
仮想化
オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください