História de sucesso

Google Cloud e Red Hat ajudam empresa de mídia digital a reduzir os custos da IA com flexibilidade de hardware

Logotipo do Google Cloud

Setor:
Mídia e tecnologia

Região:
Global/Várias regiões

Sede:
Mountain View, Califórnia, EUA

Porte:
Mais de 180 mil

O Google Cloud oferece uma plataforma de IA totalmente otimizada e integrada em grande escala, incluindo chips personalizados, modelos de IA generativa, uma plataforma de desenvolvimento e aplicações com IA. O Google Cloud foi reconhecido como AI Visionary Partner of the Year no Red Hat® Ecosystem Innovation Awards 2026.

Quando uma plataforma global de mídia digital precisou aumentar a eficiência das suas cargas de trabalho de confiança e segurança, recorreu ao Google Cloud e ao Red Hat Professional Services. A equipe desenvolveu uma solução que permite alternar entre unidades de processamento gráfico (GPUs) e unidades de processamento tensorial (TPUs) do Google Cloud, alcançando desempenho superior com as TPUs. O uso das TPUs também reduz os custos, com 92% de economia nas cargas de trabalho de segurança e 62% nas de IA generativa. Esses ganhos em custo e eficiência ajudam o cliente a proteger os usuários e manter a confiança, com tempos de resposta menores e uma experiência melhor para o usuário. 

Desafio

Executar sistemas de confiança e segurança com mais eficiência e custos menores

Sistemas de confiança e segurança são um requisito essencial para as plataformas digitais modernas, em que cada interação do usuário deve ser avaliada em tempo real para prevenir danos, assegurar a conformidade e manter a confiança do usuário. 

Como provedor global de plataformas de mídia digital e tecnologia, o cliente precisava de uma solução de inferência escalável, capaz de atender ao conteúdo gerado por IA e aos protocolos de confiança e segurança. Para garantir uma resposta quase instantânea, os sistemas de segurança da empresa precisavam analisar as consultas dos usuários com um objetivo de nível de serviço (SLO) de menos de 50 milissegundos. Pressionado a lançar produtos mais rápido e com menos custo globalmente, o cliente queria reduzir os riscos associados à escassez de unidades de processamento gráfico (GPUs) e diminuir os custos operacionais. Ele precisava de uma solução que reduzisse a dependência de hardware específico sem comprometer o desempenho dos Large Language Models (LLMs). 

Solução

Otimizar cargas de trabalho entre hardware

O cliente trabalhou com o Google Cloud e a Red Hat para desenvolver uma solução usando o mecanismo de inferência vLLM nas TPUs mais recentes do Google Cloud. Criado pelo Google especificamente para machine learning de rede neural, as TPUs são uma alternativa mais rápida e eficiente às GPUs. Ao mesmo tempo, o vLLM oferece o mecanismo de inferência com alta taxa de transferência de que a equipe precisa para cumprir os SLOs de latência rigorosos do cliente. A solução usa o vLLM com o Ray, um framework de computação distribuída open source, como camada de orquestração para suporte à inferência em lote e ao serviço online escalável. 

A equipe decidiu trabalhar com a Red Hat como sua principal colaboradora para o projeto vLLM open source e o integrou ao seu portfólio de soluções. A estratégia de adoção incluiu avaliar o desempenho das TPUs em relação às configurações de GPU existentes. A equipe otimizou o código de sistema de baixo nível, o que resultou em um desempenho 400% mais rápido para entradas pequenas. O exercício mostrou que a migração de GPUs para TPUs também foi simples com o Google Kubernetes Engine. A equipe precisou apenas atualizar as configurações e usar uma imagem da TPU vLLM.

Software e serviços usados pelo Google Cloud

Red Hat Professional Services

Resultados empresariais

Redução de custos e maior desempenho da IA

O projeto com o Google Cloud e a Red Hat permitiu ao cliente executar cargas de trabalho de segurança e confiança dentro dos seus rigorosos SLOs de latência. “Maior desempenho significa melhores experiências de usuário”, diz Brittany Rockwell, gerente de produto sênior do Google Cloud. “Demonstramos para o cliente que usar TPUs para as cargas de trabalho de confiança e segurança aumenta a velocidade e reduz os custos.”

Para cargas de trabalho de segurança que processam principalmente consultas, a solução reduz os custos em 92% com TPUs em comparação com hardware de GPU. Ela também opera 400% mais rápido. Para funcionalidades de IA generativa sensíveis à latência, a solução reduz os custos em 62% em comparação com o uso de GPUs. O sistema é rápido e econômico ao lidar com entradas de dados em larga escala. O processamento em lotes para mapeamento de entidades chegou a custar apenas US$ 0,48 por 1 milhão de tokens, atingindo 14 mil tokens por segundo. O cliente planeja provisionar TPUs nos clusters existentes nos próximos 6 meses e continua otimizando o desempenho para cargas de trabalho regulares. 

Recursos relacionados

Logotipo da Microsoft

Microsoft Azure Red Hat OpenShift impulsiona a IA generativa escalável no Banco Bradesco

Logotipo da Capgemini

Capgemini ajuda bancos acelerar a modernização com um modelo baseado no Red Hat OpenShift

Logotipo da One Technology

One Technology incrementa a eficiência governamental com a automação estratégica da TI

Logotipo da Everpure

Everpure ajuda fabricante a entregar aplicações três vezes mais rápido com uma plataforma unificada para VMs e containers

Logotipo da Logicalis

Logicalis Spain ajuda Piñero assegurar a qualidade da experiência do cliente com o Red Hat Cloud Services

Logotipo do Red Hat Innovators in the Open

O open source impulsiona a inovação. O melhor exemplo são os clientes da Red Hat, que usam tecnologias open source para revolucionar seus setores. Temos o prazer de chamá-los de "inovadores em open source" e de divulgar o sucesso deles.