Verschwenden Sie kein Budget mehr für ungenutzte GPUs. Erfahren Sie, wie Sie eine dynamische Zuweisung, Mandantenfähigkeit und effektive automatische Skalierung für Ihre KI-Workloads implementieren können.
Notwendigkeit von GPUaaS auf Red Hat OpenShift AI
Für Unternehmen, die stark in KI investieren, sind die Kosten für spezialisierte Hardware ein wichtiges Thema. GPUs/Beschleuniger sind teuer. Wenn diese Hardware nicht genutzt wird, führt dies zu erheblichen Budgetverschwendungen und erschwert die Skalierung Ihrer KI-Projekte. Eine Lösung ist die Einführung von GPU as a Service (GPUaaS), einem Betriebsmodell, mit dem Sie den ROI (Return on Investment) Ihrer Hardware maximieren können.
Red Hat OpenShift AI ist eine Kubernetes-basierte Plattform, mit der eine GPUaaS-Lösung für mehrere Nutzende implementiert werden kann. Die Provisionierung der Hardware ist der erste Schritt. Um echte GPUaaS zu erreichen, ist eine zusätzliche dynamische Zuweisung auf Basis der Workload-Anforderung erforderlich, damit GPUs schneller zurückgefordert werden können, um Leerlaufzeiten zu minimieren.
GPUaaS erfordert außerdem Mandantenfähigkeit. Hier werden fortschrittliche Warteschlangen-Tools wie Kueue (Kubernetes Elastic Unit Execution) unverzichtbar. Kueue partitioniert gemeinsam genutzte Ressourcen und erzwingt Mandantenfähigkeit über Quotas. So wird ein fairer, vorhersehbarer Zugriff für mehrere Teams und Projekte gewährleistet. Sobald diese Governance eingerichtet ist, verlagert sich die zentrale Herausforderung auf das Erstellen einer automatisch skalierenden Pipeline für KI-Workloads.
Integration und automatische Skalierung von KI-Workloads
Der Zweck einer GPUaaS-Plattform ist die Integration gängiger KI-Frameworks und die automatische Skalierung von Ressourcen je nach Workload-Bedarf. OpenShift AI vereinfacht das Deployment gängiger KI-Frameworks.
Diese Workloads lassen sich in 3 Hauptkategorien unterteilen, die alle von Kueue unterstützt werden:
- Inferenz: Frameworks wie KServe und vLLM handhaben die Modellbereitstellung effizient, insbesondere für Large Language Models (LLMs).
- Training (verteilt): Tools wie KubeFlow Training und KubeRay verwalten komplexe, verteilte Trainingsjobs mit mehreren Knoten.
- Interaktive Data Science: Workbenches, das Data Science-Notebook von OpenShift AI, lässt sich auch in Kueue integrieren. So werden Notebooks nur dann gestartet, wenn Ressourcen verfügbar sind, und weniger Ressourcen verschwendet.
Warteschlangen-Management mit Kueue
Die zentrale Herausforderung in einem mandantenfähigen KI-Cluster ist die Verwaltung der Flut von GPU-Jobanforderungen. Dies ist genau die Rolle von Kueue. Kueue bietet das grundlegende Warteschlangen- und Batch-Management für diese rechenintensiven Jobs.
Anstatt eine Ressourcenanforderung sofort abzulehnen, wenn ein Cluster vorübergehend ausgelastet ist, verwaltet Kueue auf intelligente Weise eine Warteliste. Die Funktion dient der Aufrechterhaltung von Fairness und Effizienz, damit Anfragen nicht willkürlich abgelehnt werden und eine Monopolisierung der Ressourcen verhindert wird.
Effektive automatische Skalierung mit KEDA
Kueue und KEDA (Kubernetes Event-driven Autoscaling) arbeiten zusammen, um die Ressourcennutzung durch automatisiertes Hoch- und Herunterskalieren zu optimieren.
Automatisiertes vertikales Skalieren: KEDA überwacht die Metriken von Kueue, insbesondere die Länge der GPU-Jobwarteschlange. Anhand dieses Backlogs kann KEDA das proaktive Hochskalieren neuer GPU-Nodes initiieren. Das heißt, dass neue Ressourcen bereitgestellt werden, bevor die aktuelle Kapazität durch die Nachfrage überlastet wird, was zu hoher Verfügbarkeit und verbesserter Kosteneffizienz führt. Diese Integration transformiert die Kueue-Warteschlange in ein wichtiges Skalierungssignal und ermöglicht eine proaktive, bedarfsgesteuerte Ressourcenverwaltung.
Automatisiertes Herunterskalieren: KEDA erleichtert die automatische Freigabe von Kontingenten, indem sie von im Leerlauf befindlichen Workloads angefordert werden. Wenn eine Workload (wie etwa ein RayCluster) ihre Aufgabe beendet, aber nicht gelöscht wird, meldet eine benutzerdefinierte Metrik (bereitgestellt beispielsweise über Prometheus) seinen Leerlaufstatus. KEDA überwacht diese Leerlaufmetrik und löst über ein ScaledObject den Autoscaler aus, um die Worker-Komponenten der Leerlauf-Workload auf 0 Replikate herunterzuskalieren. Dadurch lassen sich die Betriebskosten erheblich senken.
Ähnliche Methoden können auf Inferenz-Cluster angewendet werden, wobei KEDA verwendet wird, um KServe-Komponenten während Leerlaufzeiten auf 0 zu skalieren. Durch das Herunterskalieren von Worker-Komponenten werden zugrunde liegende Knotenressourcen freigegeben. Das Kueue-Workload-Objekt und seine reservierte Quote bleiben erhalten, sodass Teams ihre Quotenreservierung für den nächsten Job ohne vollständigen erneuten Warteschlangenprozess beibehalten können, während gleichzeitig die Verschwendung teurer, ungenutzter Rechenressourcen reduziert wird.
Beobachtbarkeitsgesteuerte Optimierung
Eine kontinuierliche Überwachung ist entscheidend, um die Effizienz zu verbessern und den ROI für Ihre GPUaaS zu maximieren. Admins müssen den Zustand, die Temperatur und die Nutzungsraten der GPU kontinuierlich überwachen.
Mit dem integrierten Prometheus/Grafana-Stack von OpenShift AI können Administrationsteams benutzerdefinierte Dashboards erstellen, um die GPU-Auslastung zu verfolgen, aufgeschlüsselt nach Mandant, pro Projekt und pro GPU. Diese Metriken werden in das System zurückgeführt, sodass Administrationsteams GPU-Quotas optimieren, von Kueue durchgesetzte Richtlinien zur gerechten Freigabe anpassen und die ROI-Maximierung bestätigen können.
Fazit
GPUaaS auf OpenShift AI sorgt für direkte Geschäftsvorteile. Sie profitieren von Kosteneinsparungen durch dynamische GPU-Zuweisung, verbesserter Governance durch die von Kueue-Warteschlangen und -Kontingenten erzwungene Mandantenfähigkeit und verbesserter Skalierbarkeit durch integrierte automatische Skalierung für Ihre gesamten KI-Workloads.
Red Hat OpenShift AI ist die unternehmensfähige Lösung, die teure, oft nicht ausgelastete GPU-Hardware in eine hocheffiziente, mandantenfähige GPUaaS-Plattform verwandelt. Besuchen Sie die Seite über OpenShift AI, um mehr zu erfahren.
Ressource
Das adaptive Unternehmen: KI-Bereitschaft heißt Disruptionsbereitschaft
Über die Autoren
Ana Biazetti is a senior architect at Red Hat Openshift AI product organization, focusing on Model Customization, Fine Tuning and Distributed Training.
Lindani Phiri is a Senior Principal Engineer and Architect for the OpenShift AI Core Platform.
Ähnliche Einträge
Resilient model training on Red Hat OpenShift AI with Kubeflow Trainer
Red Hat to acquire Chatterbox Labs: Frequently Asked Questions
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen