Caso de éxito

Google Cloud y Red Hat ayudan a un proveedor de medios digitales a reducir los costos de la inteligencia artificial con la flexibilidad del hardware

Logotipo de Google Cloud

Sector:
Medios y tecnología

Región:
Global, varias regiones

Sede central:
Mountain View, California, EE. UU.

Tamaño:
Más de 180 000 empleados

Google Cloud ofrece una plataforma de inteligencia artificial optimizada y completamente integrada a gran escala, la cual incluye chips diseñados a medida, modelos de inteligencia artificial generativa, una plataforma de desarrollo y aplicaciones impulsadas por la inteligencia artificial. Google Cloud fue reconocida como AI Visionary Partner of the Year en los premios Red Hat® Ecosystem Innovation Awards de 2026.

Cuando una plataforma tecnológica internacional de medios digitales necesitaba aumentar la eficiencia para sus cargas de trabajo de confianza y seguridad, recurrió a Google Cloud y Red Hat Professional Services. El equipo estableció una solución que proporciona la flexibilidad de cambiar entre unidades de procesamiento gráfico (GPU) y unidades de procesamiento tensorial (TPU) de Google Cloud y, así, lograr un rendimiento más rápido con estas últimas. El uso de las TPU también reduce los costos, con ahorros financieros del 92 % en la ejecución de las cargas de trabajo de seguridad y del 62 % en las de inteligencia artificial generativa. Estos beneficios en términos de costos y eficiencia permiten que el cliente proteja a los usuarios y mantenga la confianza, mientras logra tiempos de respuesta más rápidos para mejorar la experiencia del usuario. 

El desafío

Ejecución de los sistemas de confianza y seguridad de manera más eficiente y a un menor costo

Los sistemas de confianza y seguridad son un requisito esencial de las plataformas digitales de la actualidad, en las que toda interacción de los usuarios se debe evaluar en tiempo real para evitar daños, proteger el cumplimiento normativo y mantener la confianza de los usuarios. 

Como proveedor internacional de plataformas tecnológicas y de medios digitales, el cliente necesitaba una solución de inferencias adaptable para impulsar el contenido basado en la inteligencia artificial y respaldar sus protocolos de confianza y seguridad. A fin de garantizar una respuesta casi instantánea, los sistemas de seguridad de la empresa deben analizar las consultas globales de los usuarios con un estricto objetivo de nivel de servicios (SLO) de latencia de menos de 50 milisegundos. El cliente debía efectuar lanzamientos más rápidos y económicos en todo el mundo, por lo que quería reducir tanto los riesgos asociados con la escasez de unidades de procesamiento gráfico (GPU) como los costos operativos. Necesitaba una solución que redujera su dependencia de sistemas de hardware específicos y, a la vez, mantuviera el alto rendimiento de los modelos de lenguaje de gran tamaño (LLM). 

La solución

Optimización de las cargas de trabajo de inteligencia artificial en todos los sistemas de hardware

El cliente trabajó con Google Cloud y Red Hat para establecer una solución utilizando el motor de inferencias del modelo virtual de lenguaje de gran tamaño (vLLM) en las TPU más recientes de Google Cloud. Las TPU, diseñadas por Google específicamente para el machine learning (aprendizaje automático) de redes neuronales, proporcionan una alternativa más rápida y eficiente que las GPU. Al mismo tiempo, el vLLM brinda el motor de inferencias de alto rendimiento que el equipo necesitaba para cumplir los estrictos SLO de latencia del cliente. La solución utiliza el vLLM con Ray, un marco informático open source distribuido, como la capa de organización para admitir la prestación de servicios adaptables en línea y la realización de inferencias por lotes. 

El equipo decidió trabajar con Red Hat porque es una gran colaboradora del proyecto de vLLM open source y lo ha incluido en su cartera de productos. La estrategia de adopción incluyó la evaluación comparativa del rendimiento de las TPU en relación con las configuraciones de GPU actuales. El equipo optimizó el código de sistema de bajo nivel, lo que dio como resultado un aumento del 400 % en la velocidad del rendimiento para las entradas pequeñas. El ejercicio mostró que cambiar de las GPU a las TPU también era sencillo con el Google Kubernetes Engine: el equipo simplemente tuvo que actualizar la configuración y usar una imagen de TPU del vLLM.

Software y servicios que utiliza Google Cloud

Red Hat Professional Services

Resultados empresariales

Reducción de los costos y aumento del rendimiento de la inteligencia artificial

Gracias al proyecto con Google Cloud y Red Hat, ahora el cliente puede ejecutar las cargas de trabajo de confianza y seguridad cumpliendo sus estrictos SLO de latencia. "Un rendimiento más rápido implica mejores experiencias para los usuarios", afirma Brittany Rockwell, gerente sénior de productos de Google Cloud. "Demostramos al cliente que utilizar las TPU para sus cargas de trabajo de confianza y seguridad no solo aumenta la velocidad, sino que también reduce los costos de manera significativa".

Para las cargas de trabajo de seguridad que procesan principalmente consultas entrantes, la solución reduce los costos en un 92 % usando TPU en comparación con el uso de hardware de GPU, al tiempo que se ejecuta un 400 % más rápido. Para las funciones de inteligencia artificial generativa que requieren la menor latencia posible, la solución reduce los costos un 62 % en comparación con el uso de GPU. El sistema es rápido y rentable a la hora de procesar grandes cantidades de datos de entrada. El procesamiento por lotes para la asignación de entidades logró un costo de solo USD 0,48 por cada millón de tokens, con un rendimiento de 14 000 tokens por segundo. El cliente tiene previsto implementar TPU dentro de sus clústeres actuales en los próximos seis meses, y continúa optimizando el rendimiento de las cargas de trabajo típicas. 

Recursos relacionados

Logotipo de Microsoft

Microsoft Azure Red Hat® OpenShift® impulsa la IA generativa adaptable en Banco Bradesco

Logotipo de Capgemini

Capgemini agiliza la modernización de los servicios bancarios con un plano técnico basado en Red Hat OpenShift

Logotipo de One Technology

One Technology potencia la eficiencia gubernamental a través de la automatización estratégica de la TI

Logotipo de Everpure

Everpure ayuda a un fabricante a distribuir aplicaciones tres veces más rápido con una plataforma unificada para contenedores y máquinas virtuales

Logotipo de Logicalis

Logicalis Spain ayuda a Piñero a proteger la experiencia de sus clientes con Red Hat Cloud Services

Logotipo de Innovators in the open

La tecnología de open source impulsa la innovación. Los clientes de Red Hat que usan las tecnologías de open source para cambiar las reglas del juego son un claro ejemplo. Nos enorgullece llamarlos "innovadores de la tecnología abierta" y compartir sus historias.