グラフィックス・プロセッシング・ユニット (GPU) は、生成 AI と予測型 AI の両方にとって重要です。データサイエンティスト、機械学習エンジニア、AI エンジニアは、AI モデルの実験、トレーニング、チューニング、デプロイに GPU を利用しています。しかし、このような不可欠なリソースの管理は複雑になることがあり、その管理が開発やイノベーションの妨げとなることが多々あります。
とはいえ、インフラストラクチャの制約が、組織の発展を阻むことがあってはなりません。チームは、複雑な GPU インフラストラクチャの管理ではなく、AI モデルの構築、改良、使用に集中する必要があります。そこで重要な役割を果たすのが IT 運用 (ITOps) であり、オンデマンドでの GPU アクセス (GPU-as-a-Service とも呼ばれる) を提供して、迅速な AI 開発と推論を実現します。
GPU の課題:ITOps に関する多面的な問題
AI ワークロード用に効率的な GPU インフラストラクチャを設定するのは簡単ではなく、ITOps チームは次のような重要な課題に直面しています。
- GPU 不足とコスト制約:GPU は、供給量の制限やクラウドの制約、社内の競合などにより、利用が困難になる場合があります。基盤となるアクセラレーター・アーキテクチャについて顧客の選択肢がないことや制御できないことが、この状況をさらに複雑にしています。GPU は購入費用や運用コストなどにすでに高い費用がかかっているにもかかわらず、十分に活用されていないことがよくあります。
- GPU にアクセスできないことによるシャドー IT 化:データサイエンティスト、ML エンジニア、AI エンジニアが、必要なときに GPU に簡単にアクセスできない場合、「シャドー IT 化」が進む可能性があります。これは、サードパーティのサービスを利用して、機密性の高い企業データの漏洩リスクを生じさせたり、複数のクラウドプロバイダーから GPU リソースを独自に調達して、コスト増加やセキュリティ上のリスクを増大させたりする可能性があることを意味します。また、これにより、リソースの使用やデータセキュリティ、コンプライアンスを制御できなくなります。
- GPU インフラストラクチャの断片化:GPU リソースは多くの場合、オンプレミスのデータセンターや、複数のパブリッククラウド、さらにはエッジのロケーションに分散されています。このような異種環境では、GPU、AI アクセラレーター、アーキテクチャなど多様なアクセラレーターが存在するため、管理が複雑化し、効率的なリソース配分が妨げられます。これにより効率が低下し、コストが増加します。
- GPU 使用率のブラックボックス化:組織は企業全体での GPU 使用状況の追跡に苦労することが多く、これにより、投資対効果 (ROI) を最大化したり、使用率の低いリソースを特定したりすることが困難になっています。マルチテナンシーの状況では、公平な使用ポリシーの確立、リソースの正確な割り当て、コスト発生源の特定が困難になります。
- 安全な GPU マルチテナンシーの達成:マルチテナント環境におけるデータセキュリティの強化は複雑であり、不正アクセスやデータ漏洩を防ぐためのテナント間ネットワークトラフィックの分離や、機密データの不正アクセスや窃取からの保護、またコンプライアンスの証拠を維持しつつ規制要件への準拠を確保することなどが含まれます。
Red Hat のソリューション:GPU の課題を GPU-as-a-Service で解決
Red Hat は、これらの課題に対処するための完全な戦略を提供しています。当社のアプローチは、基盤となる GPU インフラストラクチャの統合と単純化に重点を置いています。オンプレミス、クラウド、エッジ環境から、さまざまな GPU のタイプ、サイズ、場所のアクセラレーターをプールすることで、組織は単一の統合プラットフォームを通じて GPU の管理とオーケストレーションを単純化できます。
Red Hat AI プラットフォームは、ワークロードを最適な GPU リソースにインテリジェントにマッチングさせることでパフォーマンスと効率を最適化し、効率的なスケジューリングと配置を通じて使用率を最大化します。Red Hat では、組織が可視性と制御性を維持できるように、リアルタイムの GPU 監視も提供しています。これは、ボトルネックの特定とリソース割り当ての改善に役立ちます。継続的な機能強化により、使用量と使用パターンを追跡でき、コストの最適化に役立ちます。
また、このシステムは、保護された、効率的な GPU マルチテナンシーも実現します。堅牢なネットワークセキュリティとデータ分離により、テナント環境を分離します。また、各テナントに対して詳細なアクセス制御とリソースクォータを実装することで、コンプライアンスを単純化し、セキュリティとガバナンスについての監査証跡を維持します。
GPU-as-a-Service の提供に必要な主要コンポーネント
Red Hat は強力なオープンソース・テクノロジーを使用して、主に Red Hat OpenShift および Red Hat OpenShift AI 内で、GPU-as-a-Service オファリングを提供しています。
Kueue は、Kubernetes 向けのオープンソースのインテリジェントなワークロード・スケジューラーです。ジョブの優先順位付けとプリエンプトを行い、必要に応じて優先度の低いジョブをプリエンプトすることで、重要なワークロードを最初に実行します。また、チーム間でリソースを公平に割り当てられるようにクォータを管理し、リソースの使用を最適化してボトルネックを回避し、効率を最大化します。Kueue は、ジョブのディスパッチ、キューイング、スケジューリングを処理します。
GPU のパーティション機能は、GPU をより効率的に共有するために使用され、GPU をより小さな仮想 GPU に分割してリソースを動的に割り当てます。これにより、リソース共有が促進され、複数のユーザーが単一の物理 GPU を共有できるようになるため、リソース使用率が向上し、GPU 使用率が最大化されます。
また、Red Hat ソリューションは幅広いオープンソース・テクノロジーを使用して、トレーニングやファインチューニングから推論までの、AI のライフサイクルの最適化をサポートします。トレーニングとファインチューニング用に、スタックには PyTorch、Ray、Kubeflow Trainer、KubeRay などのテクノロジーが含まれています。ジョブのディスパッチには CodeFlare を使用し、キューイングとスケジューリングには Kueue を使用します。
推論には、Red Hat AI は大規模言語モデルのメモリー効率に優れた提供に vLLM を使用し、より広範なモデル提供には KServe を使用します。PyTorch、Hugging Face TGI、ONNX などのフレームワークもサポートしています。
さらに、Red Hat OpenShift AI は堅牢なアクセラレーター機能と GPU 管理機能を提供しています。これには、ワークベンチのアイドル状態のカリングや、利用可能な GPU スライスの構成機能が含まれ、リソース割り当ての最適化に役立ちます。このプラットフォームには、アクセラレーターのサポートに必要なライブラリを備えた、すぐに使えるイメージも用意されています。また、個々のユーザーのワークロードのステータス、クラスタ全体のワークロードのステータス、キュー、GPU 使用量を監視する可観測性ツールも提供します。
Red Hat:AI イノベーションのパートナー
Red Hat は、エンタープライズ向けオープンソースソフトウェア・ソリューションを牽引する世界有数のプロバイダーであり、 GPU-as-a-Service システムの設定を支援します。Red Hat はセキュリティとプライバシーを重視した AI ワークロード向けのオンデマンド GPU を提供することで、データサイエンティスト、ML エンジニア、AI エンジニアがインフラストラクチャではなく AI に集中できるよう支援します。
Red Hat AI で当社の AI ソリューションの詳細をご覧になり、Red Hat までお問い合わせください。
リソース
AI 推論を始める
執筆者紹介
My entrepreneurial spirit led me to co-found an AI startup. This experience, combined with my work driving key go-to-market initiatives at Red Hat and building strategic partnerships, has shaped my ability to translate complex technologies into effective market strategies. I enjoy sharing these insights, whether speaking at UC Berkeley and Stanford or engaging with C-level executives. My background in AI research, including a collaboration between the Royal Institute of Technology and Stanford (with findings presented at SSDL 2017), continues to inform my passion for innovation.
チャンネル別に見る
自動化
テクノロジー、チームおよび環境に関する IT 自動化の最新情報
AI (人工知能)
お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート
オープン・ハイブリッドクラウド
ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。
セキュリティ
環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報
エッジコンピューティング
エッジでの運用を単純化するプラットフォームのアップデート
インフラストラクチャ
世界有数のエンタープライズ向け Linux プラットフォームの最新情報
アプリケーション
アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細
仮想化
オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください