GPU as a Service für KI in großem Umfang: Praktische Strategien mit Red Hat OpenShift AI

10. November 2025Ana Biazetti, Lindani Phiri3 Minuten (Lesedauer)

Verschwenden Sie kein Budget mehr für ungenutzte GPUs. Erfahren Sie, wie Sie eine dynamische Zuweisung, Mandantenfähigkeit und effektive automatische Skalierung für Ihre KI-Workloads implementieren können.

Notwendigkeit von GPUaaS auf Red Hat OpenShift AI

Für Unternehmen, die stark in KI investieren, sind die Kosten für spezialisierte Hardware ein wichtiges Thema. GPUs/Beschleuniger sind teuer. Wenn diese Hardware nicht genutzt wird, führt dies zu erheblichen Budgetverschwendungen und erschwert die Skalierung Ihrer KI-Projekte. Eine Lösung ist die Einführung von GPU as a Service (GPUaaS), einem Betriebsmodell, mit dem Sie den ROI (Return on Investment) Ihrer Hardware maximieren können.

Red Hat OpenShift AI ist eine Kubernetes-basierte Plattform, mit der eine GPUaaS-Lösung für mehrere Nutzende implementiert werden kann. Die Provisionierung der Hardware ist der erste Schritt. Um echte GPUaaS zu erreichen, ist eine zusätzliche dynamische Zuweisung auf Basis der Workload-Anforderung erforderlich, damit GPUs schneller zurückgefordert werden können, um Leerlaufzeiten zu minimieren.

GPUaaS erfordert außerdem Mandantenfähigkeit. Hier werden fortschrittliche Warteschlangen-Tools wie Kueue (Kubernetes Elastic Unit Execution) unverzichtbar. Kueue partitioniert gemeinsam genutzte Ressourcen und erzwingt Mandantenfähigkeit über Quotas. So wird ein fairer, vorhersehbarer Zugriff für mehrere Teams und Projekte gewährleistet. Sobald diese Governance eingerichtet ist, verlagert sich die zentrale Herausforderung auf das Erstellen einer automatisch skalierenden Pipeline für KI-Workloads.

Integration und automatische Skalierung von KI-Workloads

Der Zweck einer GPUaaS-Plattform ist die Integration gängiger KI-Frameworks und die automatische Skalierung von Ressourcen je nach Workload-Bedarf. OpenShift AI vereinfacht das Deployment gängiger KI-Frameworks.

Diese Workloads lassen sich in 3 Hauptkategorien unterteilen, die alle von Kueue unterstützt werden:

Inferenz: Frameworks wie KServe und vLLM handhaben die Modellbereitstellung effizient, insbesondere für Large Language Models (LLMs).
Training (verteilt): Tools wie KubeFlow Training und KubeRay verwalten komplexe, verteilte Trainingsjobs mit mehreren Knoten.
Interaktive Data Science: Workbenches, das Data Science-Notebook von OpenShift AI, lässt sich auch in Kueue integrieren. So werden Notebooks nur dann gestartet, wenn Ressourcen verfügbar sind, und weniger Ressourcen verschwendet.

Warteschlangen-Management mit Kueue

Die zentrale Herausforderung in einem mandantenfähigen KI-Cluster ist die Verwaltung der Flut von GPU-Jobanforderungen. Dies ist genau die Rolle von Kueue. Kueue bietet das grundlegende Warteschlangen- und Batch-Management für diese rechenintensiven Jobs.

Anstatt eine Ressourcenanforderung sofort abzulehnen, wenn ein Cluster vorübergehend ausgelastet ist, verwaltet Kueue auf intelligente Weise eine Warteliste. Die Funktion dient der Aufrechterhaltung von Fairness und Effizienz, damit Anfragen nicht willkürlich abgelehnt werden und eine Monopolisierung der Ressourcen verhindert wird.

Effektive automatische Skalierung mit KEDA

Kueue und KEDA (Kubernetes Event-driven Autoscaling) arbeiten zusammen, um die Ressourcennutzung durch automatisiertes Hoch- und Herunterskalieren zu optimieren.

Automatisiertes vertikales Skalieren: KEDA überwacht die Metriken von Kueue, insbesondere die Länge der GPU-Jobwarteschlange. Anhand dieses Backlogs kann KEDA das proaktive Hochskalieren neuer GPU-Nodes initiieren. Das heißt, dass neue Ressourcen bereitgestellt werden, bevor die aktuelle Kapazität durch die Nachfrage überlastet wird, was zu hoher Verfügbarkeit und verbesserter Kosteneffizienz führt. Diese Integration transformiert die Kueue-Warteschlange in ein wichtiges Skalierungssignal und ermöglicht eine proaktive, bedarfsgesteuerte Ressourcenverwaltung.

Automatisiertes Herunterskalieren: KEDA erleichtert die automatische Freigabe von Kontingenten, indem sie von im Leerlauf befindlichen Workloads angefordert werden. Wenn eine Workload (wie etwa ein RayCluster) ihre Aufgabe beendet, aber nicht gelöscht wird, meldet eine benutzerdefinierte Metrik (bereitgestellt beispielsweise über Prometheus) seinen Leerlaufstatus. KEDA überwacht diese Leerlaufmetrik und löst über ein ScaledObject den Autoscaler aus, um die Worker-Komponenten der Leerlauf-Workload auf 0 Replikate herunterzuskalieren. Dadurch lassen sich die Betriebskosten erheblich senken.

Ähnliche Methoden können auf Inferenz-Cluster angewendet werden, wobei KEDA verwendet wird, um KServe-Komponenten während Leerlaufzeiten auf 0 zu skalieren. Durch das Herunterskalieren von Worker-Komponenten werden zugrunde liegende Knotenressourcen freigegeben. Das Kueue-Workload-Objekt und seine reservierte Quote bleiben erhalten, sodass Teams ihre Quotenreservierung für den nächsten Job ohne vollständigen erneuten Warteschlangenprozess beibehalten können, während gleichzeitig die Verschwendung teurer, ungenutzter Rechenressourcen reduziert wird.

Beobachtbarkeitsgesteuerte Optimierung

Eine kontinuierliche Überwachung ist entscheidend, um die Effizienz zu verbessern und den ROI für Ihre GPUaaS zu maximieren. Admins müssen den Zustand, die Temperatur und die Nutzungsraten der GPU kontinuierlich überwachen.

Mit dem integrierten Prometheus/Grafana-Stack von OpenShift AI können Administrationsteams benutzerdefinierte Dashboards erstellen, um die GPU-Auslastung zu verfolgen, aufgeschlüsselt nach Mandant, pro Projekt und pro GPU. Diese Metriken werden in das System zurückgeführt, sodass Administrationsteams GPU-Quotas optimieren, von Kueue durchgesetzte Richtlinien zur gerechten Freigabe anpassen und die ROI-Maximierung bestätigen können.

Fazit

GPUaaS auf OpenShift AI sorgt für direkte Geschäftsvorteile. Sie profitieren von Kosteneinsparungen durch dynamische GPU-Zuweisung, verbesserter Governance durch die von Kueue-Warteschlangen und -Kontingenten erzwungene Mandantenfähigkeit und verbesserter Skalierbarkeit durch integrierte automatische Skalierung für Ihre gesamten KI-Workloads.

Red Hat OpenShift AI ist die unternehmensfähige Lösung, die teure, oft nicht ausgelastete GPU-Hardware in eine hocheffiziente, mandantenfähige GPUaaS-Plattform verwandelt. Besuchen Sie die Seite über OpenShift AI, um mehr zu erfahren.

Über die Autoren

Ana Biazetti

Senior Principal Engineer, Red Hat AI

Ana Biazetti is a senior architect at Red Hat Openshift AI product organization, focusing on Model Customization, Fine Tuning and Distributed Training.

Read full bio

Lindani Phiri

Architect, Red Hat AI

Lindani Phiri is a Senior Principal Engineer and Architect for the OpenShift AI Core Platform.

Read full bio

Mehr erfahren

Nach Thema durchsuchen

Entdecken Sie alle Themen

GPU as a Service für KI in großem Umfang: Praktische Strategien mit Red Hat OpenShift AI

Notwendigkeit von GPUaaS auf Red Hat OpenShift AI

Integration und automatische Skalierung von KI-Workloads

Warteschlangen-Management mit Kueue

Effektive automatische Skalierung mit KEDA

Beobachtbarkeitsgesteuerte Optimierung

Fazit

Das adaptive Unternehmen: KI-Bereitschaft heißt Disruptionsbereitschaft

Über die Autoren

Ana Biazetti

Lindani Phiri

Ähnliche Einträge

Mehr erfahren

Nach Thema durchsuchen

Plattformen

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links