アイドル状態の GPU による予算の無駄をストップしましょう。AI ワークロードについての動的割り当て、マルチテナンシー、効果的な自動スケーリングの実装方法について説明します。
Red Hat OpenShift AI での GPUaaS の必要性
AI に多額の投資をしている組織にとって、専用ハードウェアのコストは極めて重要な懸念事項です。GPU/ アクセラレーターは高価であり、そのハードウェアが使用されずにアイドル状態になっていると、予算の無駄が大きくなり、AI プロジェクトの拡張が困難になります。1 つの解決策として、ハードウェアの投資対効果 (ROI) を最大化するために設計された運用モデルである、GPU-as-a-Service (GPUaaS) を導入できます。
Red Hat OpenShift AI は、マルチユーザーの GPUaaS ソリューションの実装に使用できる Kubernetes ベースのプラットフォームです。ハードウェアのプロビジョニングは最初のステップですが、真の GPUaaS を実現するには、ワークロードの需要に応じた追加の動的割り当てが必要になります。これにより、GPU をより迅速に回収し、アイドル時間を最小限に抑えることができます。
GPUaaS はマルチテナンシーも必要とします。そこで、Kueue (Kubernetes Elastic Unit Execution) などの高度なキューイングツールが不可欠になります。Kueue は共有リソースをパーティション分割し、クォータでマルチテナンシーを適用することで、複数のチームやプロジェクトに公平で予測可能なアクセスを保証します。このガバナンスが整ったら、中心的な課題は AI ワークロードの自動スケーリングパイプラインの作成になります。
AI ワークロードの統合と自動スケーリング
GPUaaS プラットフォームの目標は、一般的な AI フレームワークを統合し、ワークロードの需要に基づいてリソースを自動的にスケーリングすることです。OpenShift AI は、一般的な AI フレームワークのデプロイを単純化します。
これらのワークロードは 3 つの主要なカテゴリに分類され、それらすべてを Kueue がサポートします。
- 推論: KServe や vLLM などのフレームワークは、とくに大規模言語モデル (LLM) においてモデルを効率的に処理します。
- トレーニング (分散型): KubeFlow Training や KubeRay などのツールは、複雑なマルチノードの分散トレーニングジョブを管理します。
- インタラクティブ・データサイエンス: OpenShift AI データサイエンス・ノートブックのエクスペリエンスとしてのワークベンチが Kueue と統合されており、ノートブックはリソースが利用可能になった場合にのみ起動されるため、リソースの無駄が少なくなります。
Kueue によるキュー管理
マルチテナント AI クラスタにおける中心的な課題は、大量の GPU ジョブ要求をどのように対処するかという点にあります。これが、Kueue が担う役割になります。Kueue は、これらの処理負荷の高いジョブのために基本的なキューイングとバッチ管理を提供します。
クラスタが一時的に飽和状態になったときにリソースリクエストを即座に失敗させる代わりに、Kueue は待機リストをインテリジェントに保持し、管理します。この機能は公平性と効率性を維持する上で重要であり、要求が任意に拒否されることがなく、リソースの独占化を防ぐのに役立ちます。
KEDA による効果的な自動スケーリング
Kueue と KEDA (Kubernetes Event-driven Autoscaling) は連携して、自動スケールアップとスケールダウンの両方を通じてリソースの使用を最適化します。
自動スケールアップ: KEDA は Kueue のメトリクス、とくに GPU ジョブキューの長さを監視します。このバックログを確認することで、KEDA は新しい GPU ノードのスケールアップをプロアクティブに開始できます。つまり、現在の容量が需要によって逼迫する前に新しいリソースがプロビジョニングされ、高可用性とコスト効率の向上につながります。この統合により、Kueue のキューが重要なスケーリングシグナルに変換され、デマンド駆動型のプロアクティブなリソース管理が可能になります。
自動スケールダウン: KEDA は、アイドル状態のワークロードからクォータを要求することで、クォータの自動リリースを容易にします。ワークロード (RayCluster など) がタスクを完了しても削除されない場合、カスタムメトリクス (Prometheus などを介して公開される) でアイドル状態が報告されます。KEDA はこのアイドル状態のメトリクスを監視し、ScaledObject を介して自動スケーラーをトリガーして、アイドル状態のワークロードのワーカーコンポーネントを 0 レプリカにスケールダウンします。これにより、運用コストが大幅に削減されます。
同様の手法を推論クラスターに適用し、KEDA を使用してアイドル期間に KServe コンポーネントを 0 にスケーリングできます。ワーカーコンポーネントをスケールダウンすると、基盤となるノードリソースが解放されます。Kueue ワークロードのオブジェクトとその予約済みクォータは残るため、チームはキューイングのプロセスを再実行せずに次のジョブのクォータ予約を保持しながら、高価でアイドル状態のコンピュートリソースの無駄を削減できます。
可観測性に基づく最適化
継続的な監視は、効率を向上させ、GPUaaS の投資対効果 (ROI) を最大化する上で不可欠です。管理者は、GPU の健全性、温度、使用率を常に追跡していく必要があります。
OpenShift AI に組み込まれた Prometheus/Grafana スタックにより、管理者はカスタムダッシュボードを作成して、GPU 使用率 (テナント、プロジェクト、および GPU 単位) を追跡できます。これらのメトリクスはシステムにフィードバックされ、管理者は GPU クォータを改良し、Kueue によって適用される公平な共有ポリシーを調整し、投資対効果 (ROI) の最大化を確認できます。
結論
OpenShift AI の GPUaaS は、直接的なビジネス上のメリットをもたらします。動的な GPU 割り当てによるコスト削減や、Kueue のキューとクォータによるマルチテナンシーのガバナンス向上、すべての AI ワークロードを対象にした統合された自動スケーリングによるスケーラビリティの向上が実現します。
Red Hat OpenShift AI は、高価で十分に活用されていないことの多い GPU ハードウェアを、効率性の高いマルチテナント GPUaaS プラットフォームに変換するエンタープライズ対応のソリューションを提供します。詳細は OpenShift AI のページをご覧ください。
リソース
適応力のある企業:AI への対応力が破壊的革新への対応力となる理由
執筆者紹介
Ana Biazetti is a senior architect at Red Hat Openshift AI product organization, focusing on Model Customization, Fine Tuning and Distributed Training.
Lindani Phiri is a Senior Principal Engineer and Architect for the OpenShift AI Core Platform.
類似検索
エージェント型のパラドックスとハイブリッド AI の事例
過去を管理するのをやめて、IT の未来を構築しましょう
Technically Speaking | Inside open source AI strategy
Technically Speaking | Build a production-ready AI toolbox
チャンネル別に見る
自動化
テクノロジー、チームおよび環境に関する IT 自動化の最新情報
AI (人工知能)
お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート
オープン・ハイブリッドクラウド
ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。
セキュリティ
環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報
エッジコンピューティング
エッジでの運用を単純化するプラットフォームのアップデート
インフラストラクチャ
世界有数のエンタープライズ向け Linux プラットフォームの最新情報
アプリケーション
アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細
仮想化
オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください