Heute stellen wir llm-d als Sandbox-Projekt für die Cloud Native Computing Foundation (CNCF) zur Verfügung.

Dabei handelt es sich nicht nur um eine einfache Übergabe von Code. Wir verpflichten uns damit, hochleistungsfähige KI-Bereitstellung zu einer portierbaren Kernfunktion des cloudnativen Stacks zu machen. Mit der Einführung von llm-d im Mai 2025 wollten wir die enorme Lücke bei den Funktionen zwischen KI-Experimenten und geschäftskritischer Produktionsinferenz in großem Umfang schließen. Durch die Integration von llm-d in die CNCF erweitern wir das Ziel einer Koalition aus mehreren Anbietern – einschließlich CoreWeave, IBM, Google und NVIDIA –, um den offenen Standard für verteilte Inferenz zu entwickeln.

Inferenz als treibende Kraft im Zeitalter der Agenten

Mit dem Eintritt in eine von Agenten geprägte Zukunft steht die KI-Inferenz, die weite Bereiche von Unternehmensagenten unterstützt, vor einer rasanten Expansion. Es wird entscheidend sein, dass die Kosten und die Komplexität der Inferenz den geschäftlichen Mehrwert der Agenten selbst nicht übersteigen. Inferenz kann jedoch sehr kostspielig sein, da sie große Mengen an spezialisierten Beschleunigern verbraucht. In großem Umfang können die Kosten noch weiter steigen. Die fortschrittlichen Funktionen von llm-d adressieren dies direkt und erfüllen Service Level Objectives für Unternehmen bei gleichzeitiger Maximierung der Infrastruktureffizienz. Darüber hinaus benötigen Unternehmen die Flexibilität, Inferenz dort bereitzustellen, wo es sinnvoll ist – im Rechenzentrum, in der Cloud oder am Edge – auf der Hardware ihrer Wahl. Diese Flexibilität ist nur möglich, wenn das zugrunde liegende IT-Ökosystem auf Open Source und offenen Standards basiert.

Die Lücke in der cloudnativen Landschaft schließen

Kubernetes ist zwar der Industriestandard für die Orchestrierung, wurde aber ursprünglich nicht für die besonderen, zustandsbehafteten Anforderungen der Inferenz von Large Language Models (LLM) entwickelt. Bei einem herkömmlichen Microservice ist eine Anfrage eine Anfrage – jedes Replikat kann jede Anfrage gleich gut verarbeiten. Bei generativer KI variieren die Kosten einer Anfrage stark je nach Länge der Prompt- und Ausgabetoken, Modellgröße und -architektur, Cache-Lokalität und ob sich das Modell in der Prefill-Phase (rechengebunden) oder Decode-Phase (speichergebunden) befindet.

Das standardmäßige Service-Routing berücksichtigt diese Dynamiken nicht, was zu einer ineffizienten Platzierung und unvorhersehbaren Latenzzeiten führt. Hier schließt llm-d die Lücke. Die Lösung fungiert als spezialisierte Data Plane-Orchestrierungsschicht zwischen übergeordneten Control Planes wie KServe und untergeordneten Engines wie vLLM. Mit Kubernetes-nativen Primitiven wie Gateway API und LeaderWorkerSet (LWS) transformiert die Lösung komplexe verteilte Inferenz in verwaltbare, beobachtbare cloudnative Workloads.

Das IT-Ökosystem durch Beiträge stärken

Indem wir llm-d zur CNCF beitragen, etablieren wir Well-lit Paths – replizierbare Blueprints, die fragmentierte KI-Komponenten in modulare, interoperable Microservices verwandeln. Bei diesem Beitrag geht es um mehr als ein einzelnes Projekt. Wir reichern die gesamte cloudnative Landschaft so an, dass Inferenz zu einem gleichwertigen Bestandteil derselben Umgebung wird wie traditionelle containerbasierte Anwendungen.

Ein zentraler Bestandteil dieser Arbeit ist der Endpoint Picker (EPP). llm-d fungiert als primäre Implementierung für die Kubernetes Gateway API Inference Extension (GAIE), und der EPP ermöglicht ein programmierbares, inferenzfähiges Routing. Das System trifft Routing-Entscheidungen auf Basis des tatsächlichen Zustands der Engine und optimiert im Hinblick auf KV-Cache-Trefferquoten und die Eigenschaften von Hardwarebeschleunigern. Dies ist eine grundlegende Voraussetzung für einen dauerhaften Durchsatz unter strikten Service Level Objectives.

llm-d ergänzt und erweitert die bestehende Landschaft innerhalb der CNCF:

  • Kubernetes: Stellt die primäre Infrastrukturplattform für KI-Workloads bereit.
  • Gateway API: Fördert die Upstream-Ausrichtung für KI-spezifisches Routing und stellt sicher, dass das Datenverkehrsmanagement eine offene Kernkomponente bleibt.
  • KServe: Fungiert als übergeordnete Control Plane, die llm-d integriert, um erweiterte Funktionen wie disaggregiertes Serving und Präfix-Caching zu unterstützen.
  • LeaderWorkerSet: Nutzt Kubernetes-native Primitive zur Orchestrierung komplexer Multi-Node-Replikate und Expertenparallelität und wandelt Engines wie vLLM in verwaltbare cloudnative Workloads um.
  • Prometheus und Grafana: Exportiert spezielle Metriken wie TTFT (Time to First Token), um eine unternehmensgerechte Beobachtbarkeit für generative KI zu ermöglichen.

Gemeinsam die Zukunft der Inferenz skalieren

Zusammenarbeit ist von Anfang an der zentrale Aspekt von llm-d. Als wir llm-d letztes Jahr auf dem Red Hat Summit ankündigten, war Red Hat nicht nur wegen der Einführung von llm-d stolz auf die gemeinsamen Anstrengungen der Gründungsmitwirkenden, Branchenführenden und akademischen Unterstützenden des Projekts, sondern auch für den Aufbau einer zukunftsfähigen, kollaborativen Basis. In den vergangenen 10 Monaten wurde llm-d sowohl für private MaaS-Lösungen in der Unternehmens-KI als auch für umfangreiche KI-Initiativen eingeführt. Noch wichtiger ist, dass sich die offenen Wurzeln des Projekts durch ein wachsendes Netzwerk aus Mitwirkenden und Partnern vertiefen. Entwickelnde und Unternehmen setzen ihr Vertrauen in llm-d. Der Beitrag des Projekts zur CNCF wird eine offene Zukunft unterstützen und aufrechterhalten. Der Weg zu erfolgreichen Open Source-Innovationen im Bereich KI ist lang, aber gemeinsam bauen wir die Infrastruktur auf, um dieses Ziel zu erreichen.


Über den Autor

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

UI_Icon-Red_Hat-Close-A-Black-RGB

Nach Thema durchsuchen

automation icon

Automatisierung

Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen

AI icon

Künstliche Intelligenz

Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen

open hybrid cloud icon

Open Hybrid Cloud

Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.

security icon

Sicherheit

Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren

edge icon

Edge Computing

Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen

Infrastructure icon

Infrastruktur

Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen

application development icon

Anwendungen

Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen

Virtualization icon

Virtualisierung

Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen