AI-RAN の技術的制約が明らかになるにつれ、多くの通信サービスプロバイダーは、AI と無線アクセスネットワーク(RAN)を同一ハードウェア上で実行できるかという問題を超えて、「AI をいかにスケールさせて管理するか」が重要であるという確信を深めています。
Red Hat とソフトバンク株式会社の最新の協業において、llm-d をソフトバンクの AI-RAN オーケストレーターAITRAS(アイトラス)への統合を実現しました。Red Hat が他の業界リーダーとともに開発した llm-d は、大規模言語モデル(LLM)の推論を RAN 内で動的かつインテリジェントな方法でより効率的に分散実行し、パフォーマンスを向上させることを目的に設計されたオープンソースフレームワークです。
サービスプロバイダーのエッジ環境における AI と RAN ワークロード統合の課題
従来の RAN アプリケーションは、サービスプロバイダーによってエッジ環境で CPU や GPU を使用して広く導入されており、多くの場合、Red Hat OpenShift などの Kubernetes プラットフォームが利用されています。しかし、近年の生成 AI や Transformer を基盤とした言語モデルの急速な発展により、エッジ環境における新たな計算方法やインサイトが活用可能になっています。現在では、従来の RAN に加えて、エッジ環境で実行環境および推論エンドポイントを必要とする AI 搭載の RAN アプリケーションやエージェントが登場しています。ここでサービスプロバイダーにとって重要な課題は、従来の RAN とこれらの新しい言語モデル・エージェントを RAN の設置拠点で効果的な方法で共存させ、新たなユースケースを生み出し、価値を創出し、収益化につなげることです。この統合の実現により、運用コスト(OpEx)の削減および、新たな収益をもたらすエッジサービスの市場投入までの時間短縮が可能になります。
AI-RAN を商業的に実現可能にするには、サービスプロバイダーは AI ワークロードをクラウドネイティブネットワーク機能(CNF)やアプリケーションと同等の柔軟性をもって管理・運用する必要があります。そこで、AI-RAN 向けに llm-d と vLLM を活用したソフトバンクと Red Hat のコラボレーションの機会が生まれました。
推論とオーケストレーターのつなぐ架け橋としての llm-d
vLLM は AI 推論を牽引するオープンソースとして登場し、単一の GPU ノード上で高性能なモデルデプロイメントを実現しています。ところが、複雑なマルチノード環境全体にわたるモデルデプロイメントの管理には対応していません。llm-d は、まさにこの問題を解決するために構築されました。Kubernetes を活用することで、llm-d は複数のノード間で vLLM をオーケストレーションし、本番環境での実稼働規模の AI 推論を実現し、vLLM の効率性を分散環境にも拡張します。
llm-d とソフトバンクの AITRAS オーケストレーターの統合がサービスプロバイダーにもたらす新たな変革は、以下のとおりです。
- AI と RAN ワークロードの統合:AITRAS は複数の GPU クラスターにわたって RAN ワークロードと LLM リクエストをオーケストレーションおよび最適化し、llm-d と vLLM は推論リクエストを GPU に効率的に(プレフィックス、kvcache、および負荷に基づいて)ルーティングして、GPU リソースをよりシームレスに管理し、オートスケーリングを可能にします。
- ハードウェアを考慮した最適化:LLM 推論には、プレフィル(計算集約型のプロンプト処理)とデコード(メモリ帯域幅に依存するトークン生成)という2つの異なるフェーズが存在します。異種構成全体でハードウェア利用率を最大化するために、llm-d は各フェーズに専用の GPU リソースを動的に割り当てることで、AITRAS がプレフィルとデコードの分離を活用できるようにし、その他の Kubernetes のリソース管理機能と組み合わせることで、高性能 AI の要求が同じハードウェアを共有する重要な RAN 機能を圧迫するリスクの軽減に貢献します。これは、ネットワークの回復力を保護し、すべての顧客に対して優れたサービス品質(QoS)を確保するために不可欠な機能です。
- 変動する需要に対応した自律的スケーリング:LLM サービスに対するユーザーリクエストは非常に多様です。AITRAS は llm-d を使用することで、ワークロードプロファイルに基づいて、プリフィルおよびデコードのワーカーロールを自動で分離配置し割り当て、スケーリングできます。この最適化された割り当てにより、ユーザーのレイテンシが短縮され、消費電力が大幅に減少します。これにより総所有コスト(TCO)の削減が実現し、サービスプロバイダーのサステナビリティ目標達成が支援されます。
5Gと6Gの未来を支える AITRAS・llm-d の統合
llm-d を AITRAS に統合することで、エッジ環境における AI 用のオペレーティングシステムが効果的に提供されます。これにより、ソフトバンクは Arm ベースのシステムを含む電力効率の高いアーキテクチャ上で高性能な推論および RAN ワークロードを実行でき、AI-RAN が次世代モバイルネットワークに必要なスケーラビリティと柔軟性を達成できることが証明されます。手動設定から自動化された llm-d 主導のデプロイメントモデルに移行することで、サービスプロバイダーはこれまでエッジ AI の実現を妨げてきた運用上の複雑さを解消します。
サービスプロバイダーはいま、ネットワークが担う役割が単なるデータ伝送にとどまらず、インテリジェントかつ効率的なデータ処理をも担うような新時代に直面しています。MWC Barcelona 2026 の Red Hat ブースでは、今回のコラボレーションの成果を詳しくご紹介しています。llm-d と AITRAS の統合によって AI-RAN の実現がどのように現実に近づいているのか、専門家がご説明します。
当社ホームページでも、Red Hat AI のメリットや、AI-RAN テクノロジーの開発およびネットワークパフォーマンスの最適化を目的とした Red Hat とソフトバンクの協業について、詳細情報をご覧いただくことができます。
執筆者紹介
チャンネル別に見る
自動化
テクノロジー、チームおよび環境に関する IT 自動化の最新情報
AI (人工知能)
お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート
オープン・ハイブリッドクラウド
ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。
セキュリティ
環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報
エッジコンピューティング
エッジでの運用を単純化するプラットフォームのアップデート
インフラストラクチャ
世界有数のエンタープライズ向け Linux プラットフォームの最新情報
アプリケーション
アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細
仮想化
オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください