お客様導入事例

Google Cloud と Red Hat、ハードウェアの柔軟性を活用してデジタルメディアプロバイダーの AI コスト削減を支援

業種：
メディアおよびテクノロジー

地域：
グローバル/複数地域

本社：
米国、カリフォルニア州マウンテンビュー

規模：
従業員 18 万名以上

概要

2026年 Ecosystem Innovation Award の受賞者について読む

Google Cloud は、カスタム設計のチップ、生成 AI モデル、開発プラットフォーム、AI 搭載アプリケーションなどを含む、完全に統合および最適化された大規模 AI プラットフォームを提供しています。Google Cloud は、2026 年 Red Hat® Ecosystem Innovation Awards において AI Visionary Partner of the Year に選ばれました。

世界的なデジタル・メディア・テクノロジー・プラットフォームを提供するある企業は、信頼と安全に関わるワークロードの効率性を向上させる必要に迫られていました。そこで目を向けたのが Google Cloud と Red Hat Professional Services でした。同社のチームは、グラフィックス・プロセッシング・ユニット (GPU) と Google Cloud のテンソル・プロセッシング・ユニット (TPU) を柔軟に切り替えられるソリューションを確立し、TPU を活用することでより高速なパフォーマンスを実現しました。TPU の使用によりコストも削減され、安全性確保のワークロードを実行する場合には 92%、生成 AI ワークロードを実行する場合には 62% のコストを削減できました。こうしたコスト削減と効率化のメリットは、ユーザーの保護と信頼の維持に役立つだけでなく、応答時間を短縮してユーザーエクスペリエンスを向上させることにもつながります。

課題

信頼性と安全性のためのシステムをより低コストで効率的に運用する

今日のデジタルプラットフォームは、すべてのユーザーインタラクションをリアルタイムで評価して危害を防止し、コンプライアンスを遵守し、ユーザーの信頼を維持する必要があります。そのため、信頼と安全を確保するためのシステムは不可欠な要件となっています。

このグローバルなデジタルメディアおよびテクノロジー・プラットフォーム・プロバイダーは、AI を活用したコンテンツに対応し、かつ信頼性および安全性に関するプロトコルをサポートするスケーラブルな推論ソリューションを必要としていました。同社の安全システムは、ほぼ瞬時に応答できるよう、レイテンシー 50 ミリ秒未満という厳格なサービスレベル目標 (SLO) で世界中のユーザーからの問い合わせをスキャンできなくてはなりません。より迅速かつ低コストでグローバルに展開しなければならないプレッシャーの中、同社はグラフィック・プロセッシング・ユニット (GPU) の不足に伴うリスクを軽減し、運用コストを削減することに焦点を当てていました。必要としていたのは、大規模言語モデル (LLM) の高いパフォーマンスを維持すると同時に、特定のハードウェアへの依存度を低減できるソリューションです。

ソリューション

ハードウェア全体にわたる AI ワークロードの最適化

同社は Google Cloud および Red Hat と協力し、最新の Google Cloud TPU 上で仮想大規模言語モデル (vLLM) 推論エンジンを使用したソリューションを構築しました。Google がニューラルネットワークによる機械学習向けに特別に設計した TPU は、GPU より高速かつ効率的な処理が可能です。また、vLLM は同社が厳しいレイテンシー SLO を満たすために必要としていた高スループットの推論サービスエンジンを提供します。このソリューションは、オープンソースの分散コンピューティング・フレームワークである Ray をオーケストレーション・レイヤーとして組み合わせた vLLM を使用して、スケーラブルなオンライン提供とバッチ推論をサポートします。

同社のチームが Red Hat と連携することを決定したのは、Red Hat がオープンソースの vLLM プロジェクトに大きく貢献しており、さらにそれを製品ポートフォリオに統合していることが理由です。同社の導入戦略には、TPU の性能を既存の GPU 構成と比較するベンチマークテストが含まれていました。チームは低レベルのシステムコードを最適化し、その結果、小さな入力値に対するパフォーマンスが 400% 向上することを確認しました。この実験により、Google Kubernetes Engine を使用すれば、構成設定を更新して vLLM TPU イメージを使用するだけで簡単に GPU から TPU へと移行できることも実証されました。

Google Cloud が利用しているソフトウェアとサービス

Red Hat プロフェッショナルサービス

詳細はこちら

ビジネス成果

AI パフォーマンスの向上とコスト削減を実現

Google Cloud および Red Hat との共同プロジェクトのおかげで、同社は厳格なレイテンシー SLO を達成しつつ安全と信頼のためのワークロードを実行できるようになりました。「パフォーマンスの向上はユーザーエクスペリエンスの向上につながります」と、Google Cloud のシニアプロダクトマネージャー、Brittany Rockwell 氏は言います。「当社はお客様に対し、信頼と安全に関わるワークロードに TPU を使用することで、処理速度が向上するだけでなく、コストも大幅に削減できることを実証しました。」

主に受信クエリを処理する安全性確保のワークロードの場合、このソリューションは TPU を使用することで、GPU ハードウェアを使用する場合と比較してコストを 92% 削減し、400% の高速化を達成します。レイテンシーの影響を受けやすい生成 AI 機能の場合、このソリューションは GPU を使用する場合と比較してコストを 62% 削減します。このシステムは大規模なデータ入力を高速かつ高コスト効率で処理することができ、エンティティマッピングのバッチ処理において、100 万トークンあたりわずか 0.48 米ドルのコストで 1 秒あたり 1 万 4,000 トークンのスループットを実現します。同社は今後 6 カ月以内に TPU を既存のクラスター内にプロビジョニングすることを予定しており、今後は一般的なワークロードのパフォーマンス最適化を進めます。