アイドル状態の GPU による予算の無駄をストップしましょう。AI ワークロードについての動的割り当て、マルチテナンシー、効果的な自動スケーリングの実装方法について説明します。
Red Hat OpenShift AI での GPUaaS の必要性
AI に多額の投資をしている組織にとって、専用ハードウェアのコストは極めて重要な懸念事項です。GPU/ アクセラレーターは高価であり、そのハードウェアが使用されずにアイドル状態になっていると、予算の無駄が大きくなり、AI プロジェクトの拡張が困難になります。1 つの解決策として、ハードウェアの投資対効果 (ROI) を最大化するために設計された運用モデルである、GPU-as-a-Service (GPUaaS) を導入できます。
Red Hat OpenShift AI は、マルチユーザーの GPUaaS ソリューションの実装に使用できる Kubernetes ベースのプラットフォームです。ハードウェアのプロビジョニングは最初のステップですが、真の GPUaaS を実現するには、ワークロードの需要に応じた追加の動的割り当てが必要になります。これにより、GPU をより迅速に回収し、アイドル時間を最小限に抑えることができます。
GPUaaS はマルチテナンシーも必要とします。そこで、Kueue (Kubernetes Elastic Unit Execution) などの高度なキューイングツールが不可欠になります。Kueue は共有リソースをパーティション分割し、クォータでマルチテナンシーを適用することで、複数のチームやプロジェクトに公平で予測可能なアクセスを保証します。このガバナンスが整ったら、中心的な課題は AI ワークロードの自動スケーリングパイプラインの作成になります。
AI ワークロードの統合と自動スケーリング
GPUaaS プラットフォームの目標は、一般的な AI フレームワークを統合し、ワークロードの需要に基づいてリソースを自動的にスケーリングすることです。OpenShift AI は、一般的な AI フレームワークのデプロイを単純化します。
これらのワークロードは 3 つの主要なカテゴリに分類され、それらすべてを Kueue がサポートします。
- 推論: KServe や vLLM などのフレームワークは、とくに大規模言語モデル (LLM) においてモデルを効率的に処理します。
- トレーニング (分散型): KubeFlow Training や KubeRay などのツールは、複雑なマルチノードの分散トレーニングジョブを管理します。
- インタラクティブ・データサイエンス: OpenShift AI データサイエンス・ノートブックのエクスペリエンスとしてのワークベンチが Kueue と統合されており、ノートブックはリソースが利用可能になった場合にのみ起動されるため、リソースの無駄が少なくなります。
Kueue によるキュー管理
マルチテナント AI クラスタにおける中心的な課題は、大量の GPU ジョブ要求をどのように対処するかという点にあります。これが、Kueue が担う役割になります。Kueue は、これらの処理負荷の高いジョブのために基本的なキューイングとバッチ管理を提供します。
クラスタが一時的に飽和状態になったときにリソースリクエストを即座に失敗させる代わりに、Kueue は待機リストをインテリジェントに保持し、管理します。この機能は公平性と効率性を維持する上で重要であり、要求が任意に拒否されることがなく、リソースの独占化を防ぐのに役立ちます。
KEDA による効果的な自動スケーリング
Kueue と KEDA (Kubernetes Event-driven Autoscaling) は連携して、自動スケールアップとスケールダウンの両方を通じてリソースの使用を最適化します。
自動スケールアップ: KEDA は Kueue のメトリクス、とくに GPU ジョブキューの長さを監視します。このバックログを確認することで、KEDA は新しい GPU ノードのスケールアップをプロアクティブに開始できます。つまり、現在の容量が需要によって逼迫する前に新しいリソースがプロビジョニングされ、高可用性とコスト効率の向上につながります。この統合により、Kueue のキューが重要なスケーリングシグナルに変換され、デマンド駆動型のプロアクティブなリソース管理が可能になります。
自動スケールダウン: KEDA は、アイドル状態のワークロードからクォータを要求することで、クォータの自動リリースを容易にします。ワークロード (RayCluster など) がタスクを完了しても削除されない場合、カスタムメトリクス (Prometheus などを介して公開される) でアイドル状態が報告されます。KEDA はこのアイドル状態のメトリクスを監視し、ScaledObject を介して自動スケーラーをトリガーして、アイドル状態のワークロードのワーカーコンポーネントを 0 レプリカにスケールダウンします。これにより、運用コストが大幅に削減されます。
同様の手法を推論クラスターに適用し、KEDA を使用してアイドル期間に KServe コンポーネントを 0 にスケーリングできます。ワーカーコンポーネントをスケールダウンすると、基盤となるノードリソースが解放されます。Kueue ワークロードのオブジェクトとその予約済みクォータは残るため、チームはキューイングのプロセスを再実行せずに次のジョブのクォータ予約を保持しながら、高価でアイドル状態のコンピュートリソースの無駄を削減できます。
可観測性に基づく最適化
継続的な監視は、効率を向上させ、GPUaaS の投資対効果 (ROI) を最大化する上で不可欠です。管理者は、GPU の健全性、温度、使用率を常に追跡していく必要があります。
OpenShift AI に組み込まれた Prometheus/Grafana スタックにより、管理者はカスタムダッシュボードを作成して、GPU 使用率 (テナント、プロジェクト、および GPU 単位) を追跡できます。これらのメトリクスはシステムにフィードバックされ、管理者は GPU クォータを改良し、Kueue によって適用される公平な共有ポリシーを調整し、投資対効果 (ROI) の最大化を確認できます。
結論
OpenShift AI の GPUaaS は、直接的なビジネス上のメリットをもたらします。動的な GPU 割り当てによるコスト削減や、Kueue のキューとクォータによるマルチテナンシーのガバナンス向上、すべての AI ワークロードを対象にした統合された自動スケーリングによるスケーラビリティの向上が実現します。
Red Hat OpenShift AI は、高価で十分に活用されていないことの多い GPU ハードウェアを、効率性の高いマルチテナント GPUaaS プラットフォームに変換するエンタープライズ対応のソリューションを提供します。詳細は OpenShift AI のページをご覧ください。
リソース
適応力のある企業:AI への対応力が破壊的革新への対応力となる理由
執筆者紹介
Ana Biazetti is a senior architect at Red Hat Openshift AI product organization, focusing on Model Customization, Fine Tuning and Distributed Training.
Lindani Phiri is a Senior Principal Engineer and Architect for the OpenShift AI Core Platform.
チャンネル別に見る
自動化
テクノロジー、チームおよび環境に関する IT 自動化の最新情報
AI (人工知能)
お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート
オープン・ハイブリッドクラウド
ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。
セキュリティ
環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報
エッジコンピューティング
エッジでの運用を単純化するプラットフォームのアップデート
インフラストラクチャ
世界有数のエンタープライズ向け Linux プラットフォームの最新情報
アプリケーション
アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細
仮想化
オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください