成功案例
Google Cloud 与红帽凭借硬件灵活性,助力数字媒体提供商降低 AI 成本
行业:
媒体与科技
地区:
全球/多地区
总部:
美国加利福尼亚州山景城
规模:
超过 18 万名员工
概述
Google Cloud 提供全面集成且经过优化的规模化 AI 平台,涵盖自研芯片、生成式 AI 模型、开发平台以及 AI 驱动型应用。Google Cloud 斩获 2026 年红帽® 生态系统创新奖的年度 AI 远见合作伙伴奖项。
某全球数字媒体科技平台亟需提升其信任与安全工作负载的效率,因此选择了 Google Cloud 及红帽专业服务。项目团队打造的解决方案可在图形处理器(GPU)与 Google Cloud 张量处理器(TPU)之间切换,而采用 TPU 能够有效提升性能。改用 TPU 还可以降低成本:安全工作负载的运行成本降幅达 92%,生成式 AI 工作负载的运行成本降幅达 62%。成本与效率方面的双重优势,让客户既能保护用户权益、维系用户信任,又可凭借更快的响应速度优化使用体验。
挑战
以更低成本、更高效率运行信任与安全系统
信任与安全系统是当今数字平台不可或缺的组成部分,平台需要实时评估每一次用户交互行为,以规避风险、满足合规要求并维系用户信任。
作为全球数字媒体与技术平台提供商,该客户亟需一套可扩展的推理解决方案,用于处理 AI 内容并为信任与安全协议提供支持。为确保近乎瞬时的响应效果,该公司的安全系统在处理全球用户请求时,延迟服务级别目标(SLO)需严格控制在 50 毫秒以内。受全球业务快速落地、控本增效的压力影响,该客户迫切希望降低因图形处理器(GPU)短缺带来的风险,同时削减运维成本。他们亟需一套解决方案,在减少对特定硬件依赖的同时,保障大语言模型(LLM)高效稳定运行。
解决方案
跨硬件优化 AI 工作负载
该客户携手 Google Cloud 与红帽,共同构建了一套基于最新 Google Cloud TPU 和 vLLM 推理引擎的解决方案。TPU 由 Google 专为神经网络机器学习量身打造,相较 GPU 具备速度更快、能效更优的特性。与此同时,vLLM 凭借高吞吐推理服务引擎,满足了客户严苛的延迟 SLO 要求。该解决方案还采用 vLLM 搭配开源分布式计算框架 Ray 作为编排层,支撑可灵活扩展的在线业务与批量推理任务。
项目团队之所以选择与红帽合作,是因为红帽是开源 vLLM 项目的主要贡献者之一,并已将其集成到自身产品组合中。落地方案的一部分是将 TPU 性能与现有 GPU 环境进行基准测试。团队优化了底层系统代码,使得小体量输入场景下的性能提升至原来的 4 倍。实测结果表明,依托 Google Kubernetes 引擎,从 GPU 迁移至 TPU 的流程十分简便,团队仅需更新配置设置,然后使用 vLLM TPU 镜像即可。
Google Cloud 使用的软件和服务
红帽专业服务
业务成果
提升 AI 性能的同时降低成本
依托与 Google Cloud、红帽携手打造的项目,客户如今可在严苛的延迟 SLO 约束下运行安全与信任工作负载。Google Cloud 高级产品经理 Brittany Rockwell 表示:“更快的性能就意味着更好的用户体验。我们向客户证明,针对信任与安全工作负载使用 TPU,不仅能提升速度,还能大幅降低成本。”
对于主要负责处理传入请求的安全工作负载来说,相较原有 GPU 硬件,采用 TPU 的解决方案成本降幅达 92%,速度是原来的四倍;对于延迟敏感型生成式 AI 功能,该解决方案相比使用 GPU 可降低 62% 的成本。该系统在处理大规模数据输入方面兼具速度与性价比优势:在实体映射批处理场景中,每百万词元的成本仅为 0.48 美元,每秒的吞吐量可达 14,000 个词元。客户计划在未来六个月内,在现有集群中置备 TPU 资源,并持续优化常规工作负载的性能。
相关资源
Microsoft Azure 红帽® OpenShift® 助力布拉德斯科银行构建可扩展的生成式 AI 平台
领先的 IT 咨询服务商凯捷(Capgemini)依托基于 OpenShift 的架构蓝图,赋能银行业加速迈向现代化
政府 IT 服务提供商 One Technology 通过战略性 IT 自动化,最大限度地提升政府效率
数据管理平台提供商 Everpure 借助虚拟机与容器一体化平台,帮助制造企业将应用交付速度提升至原来的三倍
技术服务商 Logicalis Spain 通过红帽云服务,助力 Piñero 酒店地产集团保障客户体验
开源不断推动着创新。红帽客户以实际行动诠释了这一点,他们正借助开源技术不断创造新的可能。我们自豪地称他们为“开放创新先锋”,特此分享他们的故事。