成功案例

Google Cloud 与红帽凭借硬件灵活性，助力数字媒体提供商降低 AI 成本

行业：
媒体与科技

地区：
全球/多地区

总部：
美国加利福尼亚州山景城

规模：
超过 18 万名员工

概述

了解 2026 年度生态系统创新奖获奖名单

Google Cloud 提供全面集成且经过优化的规模化 AI 平台，涵盖自研芯片、生成式 AI 模型、开发平台以及 AI 驱动型应用。Google Cloud 斩获 2026 年红帽® 生态系统创新奖的年度 AI 远见合作伙伴奖项。

某全球数字媒体科技平台亟需提升其信任与安全工作负载的效率，因此选择了 Google Cloud 及红帽专业服务。项目团队打造的解决方案可在图形处理器（GPU）与 Google Cloud 张量处理器（TPU）之间切换，而采用 TPU 能够有效提升性能。改用 TPU 还可以降低成本：安全工作负载的运行成本降幅达 92%，生成式 AI 工作负载的运行成本降幅达 62%。成本与效率方面的双重优势，让客户既能保护用户权益、维系用户信任，又可凭借更快的响应速度优化使用体验。

挑战

以更低成本、更高效率运行信任与安全系统

信任与安全系统是当今数字平台不可或缺的组成部分，平台需要实时评估每一次用户交互行为，以规避风险、满足合规要求并维系用户信任。

作为全球数字媒体与技术平台提供商，该客户亟需一套可扩展的推理解决方案，用于处理 AI 内容并为信任与安全协议提供支持。为确保近乎瞬时的响应效果，该公司的安全系统在处理全球用户请求时，延迟服务级别目标（SLO）需严格控制在 50 毫秒以内。受全球业务快速落地、控本增效的压力影响，该客户迫切希望降低因图形处理器（GPU）短缺带来的风险，同时削减运维成本。他们亟需一套解决方案，在减少对特定硬件依赖的同时，保障大语言模型（LLM）高效稳定运行。

解决方案

跨硬件优化 AI 工作负载

该客户携手 Google Cloud 与红帽，共同构建了一套基于最新 Google Cloud TPU 和 vLLM 推理引擎的解决方案。TPU 由 Google 专为神经网络机器学习量身打造，相较 GPU 具备速度更快、能效更优的特性。与此同时，vLLM 凭借高吞吐推理服务引擎，满足了客户严苛的延迟 SLO 要求。该解决方案还采用 vLLM 搭配开源分布式计算框架 Ray 作为编排层，支撑可灵活扩展的在线业务与批量推理任务。

项目团队之所以选择与红帽合作，是因为红帽是开源 vLLM 项目的主要贡献者之一，并已将其集成到自身产品组合中。落地方案的一部分是将 TPU 性能与现有 GPU 环境进行基准测试。团队优化了底层系统代码，使得小体量输入场景下的性能提升至原来的 4 倍。实测结果表明，依托 Google Kubernetes 引擎，从 GPU 迁移至 TPU 的流程十分简便，团队仅需更新配置设置，然后使用 vLLM TPU 镜像即可。

Google Cloud 使用的软件和服务

红帽专业服务

了解更多

业务成果

提升 AI 性能的同时降低成本

依托与 Google Cloud、红帽携手打造的项目，客户如今可在严苛的延迟 SLO 约束下运行安全与信任工作负载。Google Cloud 高级产品经理 Brittany Rockwell 表示：“更快的性能就意味着更好的用户体验。我们向客户证明，针对信任与安全工作负载使用 TPU，不仅能提升速度，还能大幅降低成本。”

对于主要负责处理传入请求的安全工作负载来说，相较原有 GPU 硬件，采用 TPU 的解决方案成本降幅达 92%，速度是原来的四倍；对于延迟敏感型生成式 AI 功能，该解决方案相比使用 GPU 可降低 62% 的成本。该系统在处理大规模数据输入方面兼具速度与性价比优势：在实体映射批处理场景中，每百万词元的成本仅为 0.48 美元，每秒的吞吐量可达 14,000 个词元。客户计划在未来六个月内，在现有集群中置备 TPU 资源，并持续优化常规工作负载的性能。