GPUs (Graphics Processing Units) sind sowohl für generative als auch für prädiktive KI von entscheidender Bedeutung. Data Scientists, Machine Learning Engineers und KI-Engineers sind beim Trainieren, Abstimmen und Bereitstellen von KI-Modellen auf GPUs angewiesen. Das Management dieser wichtigen Ressourcen kann jedoch komplex sein und bremst häufig Entwicklung und Innovation aus.
Ihr Unternehmen sollte nicht durch Infrastrukturbeschränkungen behindert werden. Ihr Team muss sich auf das Entwickeln, Optimieren und Verwenden von KI-Modellen konzentrieren können und nicht auf das Verwalten komplexer GPU-Infrastrukturen. Aus diesem Grund spielen ITOps (Information Technology Operations) eine entscheidende Rolle für eine schnelle KI-Entwicklung und Inferenz, indem sie einen On-Demand GPU-Zugriff ermöglichen, der auch als GPU as a Service bezeichnet wird.
Die GPU-Herausforderung: Ein vielschichtiges Problem für ITOps
Das Einrichten einer effizienten GPU-Infrastruktur für KI-Workloads ist nicht trivial und ITOps-Teams stehen vor mehreren großen Herausforderungen:
- GPU-Knappheit und Kostenbeschränkungen: Der Zugang zu GPUs kann aufgrund des begrenzten Angebots, Beschränkungen in der Cloud und des internen Wettbewerbs schwierig sein. Dies kann durch einen Mangel an Wahlmöglichkeiten und Kontrolle der Kunden über die zugrunde liegende Beschleuniger-Architektur noch verstärkt werden. GPUs sind bereits mit hohen Kosten verbunden, einschließlich Anschaffungs- und Betriebskosten, und werden häufig nicht ausreichend genutzt.
- Mangelnder GPU-Zugang führt zu Schatten-IT: Wenn Data Scientists, ML-Engineers und KI-Engineers bei Bedarf nicht ohne Weiteres auf GPUs zugreifen können, wenden sie sich möglicherweise an die „Schatten-IT“. Dies kann die Nutzung von Drittanbieter-Services bedeuten, die möglicherweise sensible Unternehmensdaten offenlegen oder GPU-Ressourcen unabhängig von verschiedenen Cloud-Anbietern beschaffen, was zu erhöhten Kosten und Sicherheitsrisiken führt. Dies führt zu einem Verlust der Kontrolle über Ressourcennutzung, Datensicherheit und Compliance.
- Fragmentierte GPU-Infrastruktur: GPU-Ressourcen sind häufig über lokale Rechenzentren, mehrere Public Clouds und sogar Edge-Standorte verteilt. Diese heterogene Umgebung mit unterschiedlichen Beschleunigertypen – einschließlich GPUs, KI-Beschleunigern und Architekturen – macht das Management komplex und behindert eine effiziente Ressourcenzuweisung, wodurch die Effizienz verringert und die Kosten erhöht werden.
- Black Box der GPU-Auslastung: Unternehmen haben oft Schwierigkeiten, die GPU-Nutzung im gesamten Unternehmen zu verfolgen, wodurch die Maximierung der Kapitalrendite (ROI) und die Identifizierung ungenutzter Ressourcen erschwert werden. In einer Situation mit mehreren Mandanten wird es schwierig, gerechte Nutzungsrichtlinien festzulegen, Ressourcen genau zuzuweisen und Kosten zuzuordnen.
- Erreichen einer sicheren GPU-Mandantenfähigkeit: Die Stärkung der Datensicherheit in mandantenfähigen Systemen ist komplex und umfasst die Isolierung des Netzwerkverkehrs der Mandanten, um unbefugten Zugriff und Datenverluste zu verhindern. Zudem müssen sensible Daten vor unbefugtem Zugriff oder Diebstahl geschützt und gesetzliche Vorschriften eingehalten werden, wobei der Nachweis der Compliance zu erbringen ist.
Die Lösung von Red Hat: Beheben des GPU-Problems mit GPU as a Service
Red Hat bietet eine umfassende Strategie zur Bewältigung dieser Herausforderungen. Unser Ansatz konzentriert sich auf die Konsolidierung und Vereinfachung der zugrunde liegenden GPU-Infrastruktur. Durch das Pooling von Beschleunigern – einschließlich verschiedener GPU-Typen, -Größen und -Standorte – aus lokalen, Cloud- und Edge-Umgebungen können Unternehmen die GPU-Verwaltung und -Orchestrierung über eine einzige, einheitliche Plattform vereinfachen.
Die Plattform von Red Hat AI optimiert Performance und Effizienz durch intelligentes Abstimmen von Workloads auf die am besten geeigneten GPU-Ressourcen und maximiert die Auslastung durch effiziente Planung und Platzierung. Für mehr Transparenz und Kontrolle bieten wir außerdem GPU-Überwachung in Echtzeit. So können Unternehmen Engpässe erkennen und die Ressourcenzuweisung verbessern. Kontinuierliche Erweiterungen verfolgen die Nutzung und ihre Muster, um die Kostenoptimierung zu unterstützen.
Dieses System ermöglicht außerdem geschützte und effiziente GPU-Mandantenfähigkeit. Es isoliert Mandantenumgebungen mit robuster Netzwerksicherheit und Datenisolierung. Mit dieser Lösung werden granulare Zugangskontrollen und Ressourcen-Quotas für die einzelnen Mandanten implementiert, was die Compliance vereinfacht und Audit Trails für Sicherheit und Governance verwaltet.
Zentrale Komponenten für die Bereitstellung von GPU as a Service
Red Hat nutzt leistungsstarke Open Source-Technologien für die Bereitstellung seines GPU as a Service-Angebots, hauptsächlich in Red Hat OpenShift und Red Hat OpenShift AI.
Kueue ist ein intelligenter Open Source Workload Scheduler für Kubernetes, der Jobs priorisiert und vorwegnimmt, sodass kritische Workloads zuerst ausgeführt und den Jobs mit niedrigerer Priorität bei Bedarf vorgezogen werden. Er verwaltet Quotas für eine gerechte Ressourcenzuweisung zwischen den Teams und optimiert die Ressourcennutzung, um Engpässe zu vermeiden und die Effizienz zu maximieren. Kueue arbeitet mit Job-Dispatching, -Queuing und -Planung.
Die Möglichkeit, GPUs zu partitionieren, ermöglicht eine effizientere GPU-Freigabe, indem diese in kleinere, virtuelle GPUs aufgeteilt und Ressourcen dynamisch zugewiesen werden. Dies erleichtert die gemeinsame Nutzung von Ressourcen, sodass mehrere Nutzende eine einzelne physische GPU teilen können, wodurch die Ressourcennutzung verbessert und die GPU-Nutzung maximiert werden.
Die Lösung von Red Hat verwendet zudem zahlreiche Open Source-Technologien, um den KI-Lifecycle zu optimieren – vom Training über Fine Tuning bis hin zur Inferenz. Für Training und Fine Tuning umfasst der Stack Technologien wie PyTorch, Ray, Kubeflow Trainer und KubeRay. Er verwendet CodeFlare für die Verteilung von Jobs und Kueue für Warteschlangen und Planung.
Für Inferenzen nutzt Red Hat AI vLLM für eine speichereffiziente Bereitstellung von LLMs (Large Language Models) und KServe für eine umfassendere Modellbereitstellung. Die Lösung unterstützt auch Frameworks wie PyTorch, Hugging Face TGI und ONNX.
Zudem bietet Red Hat OpenShift AI robuste Managementfunktionen für Beschleuniger und GPUs. Dazu gehören Idle Culling für Workbenches und die Möglichkeit, verfügbare GPU-Slices zu konfigurieren, was zur Optimierung der Ressourcenzuweisung beiträgt. Die Plattform bietet auch Out of the Box-Images mit den erforderlichen Libraries für die Unterstützung von Beschleunigern. Außerdem umfasst sie Beobachtbarkeitstools zur Überwachung des Workload-Status einzelner Nutzender, des gesamten Workload-Status, der Warteschlangen sowie der GPU-Nutzung.
Red Hat: Ihr Partner bei der KI-Innovation
Red Hat, der weltweit führende Anbieter von Open Source-Softwarelösungen für Unternehmen, unterstützt Sie bei der Einrichtung Ihres GPU as a Service-Systems. Durch die Bereitstellung von On-Demand-GPUs für KI-Workloads mit einem starken Fokus auf Sicherheit und Datenschutz hilft Red Hat Ihren Data Scientists, ML-Engineers und KI-Engineers, sich auf die KI zu konzentrieren, anstatt auf die Infrastruktur.
Erfahren Sie mehr über unsere KI-Lösungen unter Red Hat AI und sprechen Sie jetzt mit Red Hat.
Über den Autor
My entrepreneurial spirit led me to co-found an AI startup. This experience, combined with my work driving key go-to-market initiatives at Red Hat and building strategic partnerships, has shaped my ability to translate complex technologies into effective market strategies. I enjoy sharing these insights, whether speaking at UC Berkeley and Stanford or engaging with C-level executives. My background in AI research, including a collaboration between the Royal Institute of Technology and Stanford (with findings presented at SSDL 2017), continues to inform my passion for innovation.
Ähnliche Einträge
Eine Partner-Community statt vieler Einzelkämpfer
How Red Hat OpenShift AI simplifies trust and compliance
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen