Success Story
Mit Google Cloud und Red Hat reduziert für Anbieter digitaler Medien KI-Kosten durch flexible Hardware
Branche:
Medien und Technologie
Region:
Global/Multi-region
Hauptsitz:
Mountain View, Kalifornien, USA
Größe:
Über 180.000
Überblick
Google Cloud bietet eine voll integrierte und optimierte KI-Plattform mit Features wie kundenspezifischen Chips, generativen KI-Modellen, einer Entwicklungsplattform und KI-basierten Anwendungen. Google Cloud wurde bei den Red Hat® Ecosystem Innovation Awards 2026 als „AI Visionary Partner of the Year“ ausgezeichnet.
Der weltweit tätige Anbieter einer Plattform für digitale Medien musste die Effizienz seiner Trust and Safety Workloads verbessern und wendete sich an Google Cloud und Red Hat Professional Services. Das Team führte eine Lösung ein, mit der das Unternehmen flexibel zwischen GPUs (Graphical Processing Units) und TPUs (Tensor Processing Units) wechseln und somit eine schnellere Performance mit TPUs erreichen kann. Das Verwenden von TPUs senkt auch die Kosten – beim Ausführen von Sicherheits-Workloads um 92 % und beim Ausführen von gen KI-Workloads um 62 %. Dank dieser Kosten- und Effizienzgewinne konnte der Kunde seine Nutzenden schützen und das Vertrauen bewahren. Gleichzeitig ließen sich die Reaktionszeiten senken und so das Kundenerlebnis verbessern.
Herausforderung
Effizienteres und kostengünstigeres Ausführen von Trust and Safety-Systemen
Trust and Safety-Systeme sind ein wesentlicher Bestandteil für die digitalen Plattformen von heute, bei denen sämtliche Nutzerinteraktionen in Echtzeit bewertet werden müssen, um Schaden zu verhindern, die Compliance zu sichern und das Vertrauen der Nutzenden zu wahren.
Als weltweit tätiger Anbieter einer Plattform für digitale Medien und Technologien benötigte der Kunde eine skalierbare Inferenzlösung für KI-gestützte Inhalte, die seine Trust and Safety-Protokolle unterstützen konnte. Um eine Reaktion nahezu in Echtzeit sicherzustellen, müssen die Sicherheitssysteme des Unternehmens Anfragen von Nutzenden weltweit mit einem strengen Latenz-SLO (Service-Level Objective) von unter 50 Millisekunden scannen. Aufgrund des Drucks, weltweit schneller und günstiger zu launchen, wollte der Kunde daher die Risiken mindern, die mit Ausfällen bei GPUs einhergehen, und zudem operative Kosten reduzieren. Das Unternehmen benötigte eine Lösung, mit der es weniger auf bestimmte Hardware angewiesen war, aber gleichzeitig die hohe Performance für Large Language Models (LLMs) aufrechterhalten konnte.
Lösung
Hardwareübergreifende Optimierung von KI-Workloads
In Zusammenarbeit mit Google Cloud und Red Hat führte der Kunde eine Lösung ein, die die vLLM-Inferenz-Engine (Virtual Large Language Model) der neuesten TPUs von Google Cloud nutzt. Die TPUs wurden von Google speziell für das Machine Learning von neuronalen Netzwerken entwickelt und bieten eine schnellere, effizientere Alternative zu GPUs. Gleichzeitig bietet vLLM die vom Team benötigte Inferenz-Serving-Engine mit hohem Durchsatz, um die strengen Latenz-SLOs des Kunden zu erfüllen. Die Lösung nutzt vLLM mit Ray, einem Open Source Framework für Distributed Computing, als Orchestrierungsschicht, um skalierbare Onlinebereitstellungen und Batch-Inferenz zu unterstützen.
Das Team entschied sich für die Zusammenarbeit, weil Red Hat ein wichtiger Mitwirkender am Open Source-vLLM-Projekt ist und dieses in sein Produktportfolio integriert hat. Teil der Einführungsstrategie war auch ein Benchmarking der TPU-Performance gegen bestehende GPU-Konfigurationen. Das Team optimierte Systemcode mit niedriger Priorität, was zu einer um 400 % schnelleren Performance bei kleinen Eingaben führte. Dies bestätigte, dass der Wechsel von GPUs zu TPUs auch mit Google Kubernetes Engine unkompliziert war. Das Team musste lediglich die Konfigurationseinstellungen aktualisieren und ein vLLM-TPU-Image verwenden.
Von Google Cloud verwendete Software und Services
Red Hat Professional Services
Ergebnis
Bessere KI-Performance bei geringeren Kosten
Dank des Projekts mit Google Cloud und Red Hat kann der Kunde Trust and Safety-Workloads jetzt im Rahmen seiner strengen Latenz-SLOs ausführen. „Eine schnellere Performance bedeutet ein besseres Erlebnis für Nutzende“, erklärt Brittany Rockwell, Senior Product Manager bei Google Cloud. „Wir zeigten dem Kunden, dass das Verwenden von TPUs für seine Trust and Safety Workloads nicht nur die Geschwindigkeit erhöht, sondern auch die Kosten bedeutend senkt.“
Für Sicherheits-Workloads, die hauptsächlich eingehende Anfragen verarbeiten, werden die Kosten durch die Lösung mit TPUs im Vergleich zu GPU-Hardware um 92 % gesenkt. Gleichzeitig werden die Workloads jetzt viermal so schnell ausgeführt. Für latenzempfindliche gen KI-Features werden die Kosten durch die Lösung im Vergleich zur Verwendung von GPUs um 62 % reduziert. Das System ermöglicht eine schnelle und kostengünstige Verarbeitung von umfangreichen Dateneingaben. So beliefen sich die Kosten der Batch-Verarbeitung für das Daten-Mapping auf nur 0,48 USD pro 1 Million Token – bei einem Durchsatz von 14.000 Token pro Sekunde. Der Kunde plant aktuell die Provisionierung von TPUs in bestehenden Clustern in den nächsten 6 Monaten und arbeitet daran, die Performance typischer Workloads weiter zu optimieren.
Zugehörige Ressourcen
Banco Bradesco setzt für seine skalierbare generative KI auf Microsoft Azure Red Hat® OpenShift®.
Capgemini unterstützt Banken dabei, mit einem auf Red Hat OpenShift basierenden Blueprint schneller zu modernisieren.
One Technology maximiert die Effizienz von Behörden durch strategische IT-Automatisierung.
Everpure hilft Herstellern dabei, Apps mit einer einheitlichen Plattform für VMs und Container dreimal schneller bereitzustellen.
Logicalis Spain unterstützt Piñero dabei, das Kundenerlebnis mit Red Hat Cloud Services zu sichern.
Open Source fördert Innovationen. Diese Tatsache wird am besten am Beispiel von Red Hat Kunden veranschaulicht, die mit Open Source-Technologien neue Maßstäbe setzen. Wir nennen diese Unternehmen „Innovators in the Open“ und freuen uns, Ihnen deren Stories zu präsentieren.