Kosten und Komplexität von KI-Inferenz in großem Umfang vermeiden

21. Oktober 2025Brian Stevens3 Minuten (Lesedauer)

Die Operationalisierung von KI-Modellen in großem Umfang ist eine entscheidende Herausforderung für IT-Marktführer. Die anfänglichen Kosten für das Training eines LLM (Large Language Model) können zwar erheblich sein, die tatsächlichen und oft unterschätzten Ausgaben hängen jedoch mit der Inferenz zusammen.

KI-Inferenz – der Prozess, bei dem ein trainiertes Modell zur Generierung einer Ausgabe verwendet wird – ist der ressourcenintensivste und kostspieligste Teil einer KI-Anwendung, insbesondere weil er während der Produktion ständig erfolgt. Ineffiziente Inferenz kann den potenziellen ROI (Return on Investment) eines KI-Projekts beeinträchtigen und sich durch hohe Latenz negativ auf das Kundenerlebnis auswirken.

Der Full Stack-Ansatz für KI-Performance

Für die effektive Bereitstellung von LLMs in großem Umfang ist ein strategischer Full Stack-Ansatz erforderlich, der sowohl das Modell selbst als auch die Bereitstellungslaufzeit berücksichtigt. Ein einziger Ansatz reicht nicht. Um hohe Performance und Kosteneffizienz zu erreichen, ist ein doppelter Fokus erforderlich: Management des Ressourcenverbrauchs und Maximierung des Durchsatzes.

Optimieren des KI-Modells

Ein strategischer Teil dieses Ansatzes ist die Modellkomprimierung, die die Größe und den Ressourcenbedarf eines Modells reduziert, ohne die Genauigkeit zu beeinträchtigen.

Die Quantisierung ist eine zentrale Technik für die Modelloptimierung. Sie reduziert die Präzision der numerischen Werte eines Modells – wie etwa Gewichtungen und Aktivierungen – vom standardmäßigen 16-Bit-Format auf niedrigere Formate wie 8-Bit oder 4-Bit. Dies reduziert den Speicherbedarf des Modells erheblich, sodass es auf weniger Hardware ausgeführt werden kann.

Sparsity ist eine weitere effektive Methode, die Modelle effizienter macht, indem unnötige Verbindungen (Gewichte) entfernt werden. So wird das Netz kleiner und schneller, mit minimalen Auswirkungen auf die Genauigkeit.

Optimieren der Inferenzlaufzeit

Genauso wichtig ist die Optimierung der Bereitstellungslaufzeit. Einfache Laufzeiten haben häufig mit ineffizienter GPU-Speichernutzung und langsamer Token-Generierung zu kämpfen, was zu ungenutzten GPUs und hoher Latenz führt. Eine leistungsstarke Runtime maximiert die Nutzung teurer GPU-Hardware und reduziert die Latenz.

Das Open Source-Projekt vLLM ist zu einem Branchenstandard für Hochleistungs-Inferenz geworden, da es diese Laufzeitbeschränkungen mit auf Effizienz optimierten Techniken umgeht.

Kontinuierliches Batching minimiert die GPU-Leerlaufzeit durch gleichzeitiges Verarbeiten von Token aus mehreren Anforderungen. Anstatt jeweils eine einzelne Anfrage zu verarbeiten, werden Token aus verschiedenen Sequenzen in Batches gruppiert. Dieser Ansatz verbessert die GPU-Auslastung und den Inferenzdurchsatz erheblich.
PagedAttention ist ein weiteres Beispiel. Diese neuartige Strategie zur Speicherverwaltung ermöglicht eine effiziente Verwaltung umfangreicher KV-Caches (Key Value), mehr gleichzeitige Anfragen und längere Sequenzen und reduziert gleichzeitig Speicherengpässe.

Ermöglichen von verteilter KI in großem Umfang

Für Unternehmen mit Anwendungen mit hohem Datenverkehr sind Deployments mit einzelnen Servern oft unzureichend. Das Open Source-Projekt llm-d baut auf den Funktionen von vLLM auf, um eine verteilte Inferenz mit mehreren Knoten zu ermöglichen. So können Unternehmen KI-Workloads auf mehreren Servern skalieren, um steigende Anforderungen und größere Modelle zu bewältigen und gleichzeitig eine vorhersehbare Performance und Kosteneffizienz beizubehalten.

llm-d ist eine Open Source Control Plane, die Kubernetes um spezifische Funktionen erweitert, die für KI-Workloads benötigt werden. Das Projekt konzentriert sich auf Funktionen, die sich auf Performance und Effizienz der Inferenz auswirken, darunter:

Semantisches Routing: llm-d verwendet Echtzeitdaten zur intelligenten Weiterleitung von Inferenzanforderungen an die optimalste Instanz. Dies verbessert die effiziente Ressourcennutzung und reduziert eine kostspielige Überprovisionierung.
Workload-Disaggregation: Sie trennt die Prefill- und Decodierphase, sodass die optimale Ressource für die richtige Aufgabe verwendet wird.
Support für erweiterte Architekturen: llm-d wurde für neue Modellarchitekturen wie Mixture of Experts (MoE) entwickelt, die Orchestrierung und Parallelverarbeitung über mehrere Knoten hinweg erfordern.

Mit der Entwicklung einer flexiblen Control Plane, die in verschiedener Hardware und Umgebungen funktioniert, arbeitet die llm-d-Community an der Etablierung eines Standards für Unternehmens-KI in großem Umfang.

Wie Red Hat KI in großem Umfang vereinfacht

Bei der Einführung von KI auf Unternehmensebene geht es um mehr als nur die Auswahl eines Modells. Sie benötigen eine Strategie für die Entwicklung, das Deployment und die Verwaltung in einer Hybrid Cloud-Infrastruktur. Red Hat bietet ein Portfolio unternehmensgerechter Produkte zur Vereinfachung und Beschleunigung dieses Prozesses – von der anfänglichen Modellentwicklung bis hin zu Inferenz in großem Umfang.

Red Hat AI

Das KI-Portfolio von Red Hat bietet einen Full Stack-Ansatz zur KI-Optimierung. Dieses integrierte Angebot umfasst Red Hat Enterprise Linux AI (RHEL AI), Red Hat OpenShift AI und Red Hat AI Inference Server.

RHEL AI bietet eine Basis für die KI-Entwicklung und paketiert RHEL mit wichtigen Open Source-Komponenten wie den Granite-Modellen von IBM und Libraries wie PyTorch. Die Plattform ist portierbar und kann lokal, in der Public Cloud oder am Netzwerkrand ausgeführt werden.
Red Hat OpenShift AI basiert auf Red Hat OpenShift und ist für das Management des gesamten KI-Lifecycles konzipiert. Es bietet eine konsistente Umgebung für die Zusammenarbeit von Data Scientists, Entwicklungs- und IT-Teams. Weiterhin skaliert es KI-Workloads in Hybrid Cloud-Umgebungen und vereinfacht das Management von Hardwarebeschleunigern.
Red Hat AI Inference Server optimiert die Inferenz durch das Bereitstellen einer unterstützten Distribution von vLLM, die für Performance mit hohem Durchsatz und geringer Latenz entwickelt wurde. Die Lösung wird als Container bereitgestellt, ist in verschiedene Infrastrukturen portierbar und enthält ein Tool zur Modellkomprimierung, mit dem sich der Rechenaufwand reduzieren lässt. Für die Skalierung über einen einzelnen Server hinaus arbeitet Red Hat AI Inference Server mit dem Open Source-Projekt llm-d.

Für IT-Führungskräfte ist die Implementierung einer Full Hybrid Cloud-KI-Strategie der effektivste Weg, um KI in großem Umfang zu operationalisieren. Red Hat AI bietet eine konsistente Basis, mit der Unternehmen vom KI-Experiment zu einer umfassenden, produktionsfähigen KI übergehen können, die auf unserer Vision „Beliebige Modelle, beliebige Beschleuniger, beliebige Clouds“ basiert.

Mehr erfahren

Sehen Sie sich die auf der Red Hat AI Website verfügbaren Ressourcen an, um Ihr Unternehmen auf den Weg zu vereinfachter, skalierbarer KI zu bringen.

Über den Autor

Brian Stevens

SVP and AI CTO

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

Read full bio

Mehr erfahren

Nach Thema durchsuchen

Entdecken Sie alle Themen

Kosten und Komplexität von KI-Inferenz in großem Umfang vermeiden

Der Full Stack-Ansatz für KI-Performance

Optimieren des KI-Modells

Optimieren der Inferenzlaufzeit

Ermöglichen von verteilter KI in großem Umfang

Wie Red Hat KI in großem Umfang vereinfacht

Red Hat AI

Mehr erfahren

Über den Autor

Brian Stevens

Ähnliche Einträge

Mehr erfahren

Nach Thema durchsuchen

Plattformen

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links