Warum wir llm-d zur CNCF beitragen: Die Zukunft der KI standardisieren

24. März 2026Brian Stevens3 Minuten (Lesedauer)

Heute stellen wir llm-d als Sandbox-Projekt für die Cloud Native Computing Foundation (CNCF) zur Verfügung.

Dabei handelt es sich nicht nur um eine einfache Übergabe von Code. Wir verpflichten uns damit, hochleistungsfähige KI-Bereitstellung zu einer portierbaren Kernfunktion des cloudnativen Stacks zu machen. Mit der Einführung von llm-d im Mai 2025 wollten wir die enorme Lücke bei den Funktionen zwischen KI-Experimenten und geschäftskritischer Produktionsinferenz in großem Umfang schließen. Durch die Integration von llm-d in die CNCF erweitern wir das Ziel einer Koalition aus mehreren Anbietern – einschließlich CoreWeave, IBM, Google und NVIDIA –, um den offenen Standard für verteilte Inferenz zu entwickeln.

Inferenz als treibende Kraft im Zeitalter der Agenten

Mit dem Eintritt in eine von Agenten geprägte Zukunft steht die KI-Inferenz, die weite Bereiche von Unternehmensagenten unterstützt, vor einer rasanten Expansion. Es wird entscheidend sein, dass die Kosten und die Komplexität der Inferenz den geschäftlichen Mehrwert der Agenten selbst nicht übersteigen. Inferenz kann jedoch sehr kostspielig sein, da sie große Mengen an spezialisierten Beschleunigern verbraucht. In großem Umfang können die Kosten noch weiter steigen. Die fortschrittlichen Funktionen von llm-d adressieren dies direkt und erfüllen Service Level Objectives für Unternehmen bei gleichzeitiger Maximierung der Infrastruktureffizienz. Darüber hinaus benötigen Unternehmen die Flexibilität, Inferenz dort bereitzustellen, wo es sinnvoll ist – im Rechenzentrum, in der Cloud oder am Edge – auf der Hardware ihrer Wahl. Diese Flexibilität ist nur möglich, wenn das zugrunde liegende IT-Ökosystem auf Open Source und offenen Standards basiert.

Die Lücke in der cloudnativen Landschaft schließen

Kubernetes ist zwar der Industriestandard für die Orchestrierung, wurde aber ursprünglich nicht für die besonderen, zustandsbehafteten Anforderungen der Inferenz von Large Language Models (LLM) entwickelt. Bei einem herkömmlichen Microservice ist eine Anfrage eine Anfrage – jedes Replikat kann jede Anfrage gleich gut verarbeiten. Bei generativer KI variieren die Kosten einer Anfrage stark je nach Länge der Prompt- und Ausgabetoken, Modellgröße und -architektur, Cache-Lokalität und ob sich das Modell in der Prefill-Phase (rechengebunden) oder Decode-Phase (speichergebunden) befindet.

Das standardmäßige Service-Routing berücksichtigt diese Dynamiken nicht, was zu einer ineffizienten Platzierung und unvorhersehbaren Latenzzeiten führt. Hier schließt llm-d die Lücke. Die Lösung fungiert als spezialisierte Data Plane-Orchestrierungsschicht zwischen übergeordneten Control Planes wie KServe und untergeordneten Engines wie vLLM. Mit Kubernetes-nativen Primitiven wie Gateway API und LeaderWorkerSet (LWS) transformiert die Lösung komplexe verteilte Inferenz in verwaltbare, beobachtbare cloudnative Workloads.

Das IT-Ökosystem durch Beiträge stärken

Indem wir llm-d zur CNCF beitragen, etablieren wir Well-lit Paths – replizierbare Blueprints, die fragmentierte KI-Komponenten in modulare, interoperable Microservices verwandeln. Bei diesem Beitrag geht es um mehr als ein einzelnes Projekt. Wir reichern die gesamte cloudnative Landschaft so an, dass Inferenz zu einem gleichwertigen Bestandteil derselben Umgebung wird wie traditionelle containerbasierte Anwendungen.

Ein zentraler Bestandteil dieser Arbeit ist der Endpoint Picker (EPP). llm-d fungiert als primäre Implementierung für die Kubernetes Gateway API Inference Extension (GAIE), und der EPP ermöglicht ein programmierbares, inferenzfähiges Routing. Das System trifft Routing-Entscheidungen auf Basis des tatsächlichen Zustands der Engine und optimiert im Hinblick auf KV-Cache-Trefferquoten und die Eigenschaften von Hardwarebeschleunigern. Dies ist eine grundlegende Voraussetzung für einen dauerhaften Durchsatz unter strikten Service Level Objectives.

llm-d ergänzt und erweitert die bestehende Landschaft innerhalb der CNCF:

Kubernetes: Stellt die primäre Infrastrukturplattform für KI-Workloads bereit.
Gateway API: Fördert die Upstream-Ausrichtung für KI-spezifisches Routing und stellt sicher, dass das Datenverkehrsmanagement eine offene Kernkomponente bleibt.
KServe: Fungiert als übergeordnete Control Plane, die llm-d integriert, um erweiterte Funktionen wie disaggregiertes Serving und Präfix-Caching zu unterstützen.
LeaderWorkerSet: Nutzt Kubernetes-native Primitive zur Orchestrierung komplexer Multi-Node-Replikate und Expertenparallelität und wandelt Engines wie vLLM in verwaltbare cloudnative Workloads um.
Prometheus und Grafana: Exportiert spezielle Metriken wie TTFT (Time to First Token), um eine unternehmensgerechte Beobachtbarkeit für generative KI zu ermöglichen.

Gemeinsam die Zukunft der Inferenz skalieren

Zusammenarbeit ist von Anfang an der zentrale Aspekt von llm-d. Als wir llm-d letztes Jahr auf dem Red Hat Summit ankündigten, war Red Hat nicht nur wegen der Einführung von llm-d stolz auf die gemeinsamen Anstrengungen der Gründungsmitwirkenden, Branchenführenden und akademischen Unterstützenden des Projekts, sondern auch für den Aufbau einer zukunftsfähigen, kollaborativen Basis. In den vergangenen 10 Monaten wurde llm-d sowohl für private MaaS-Lösungen in der Unternehmens-KI als auch für umfangreiche KI-Initiativen eingeführt. Noch wichtiger ist, dass sich die offenen Wurzeln des Projekts durch ein wachsendes Netzwerk aus Mitwirkenden und Partnern vertiefen. Entwickelnde und Unternehmen setzen ihr Vertrauen in llm-d. Der Beitrag des Projekts zur CNCF wird eine offene Zukunft unterstützen und aufrechterhalten. Der Weg zu erfolgreichen Open Source-Innovationen im Bereich KI ist lang, aber gemeinsam bauen wir die Infrastruktur auf, um dieses Ziel zu erreichen.

Über den Autor

Brian Stevens

SVP and AI CTO

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

Read full bio

Nach Thema durchsuchen

Entdecken Sie alle Themen

Warum wir llm-d zur CNCF beitragen: Die Zukunft der KI standardisieren

Inferenz als treibende Kraft im Zeitalter der Agenten

Die Lücke in der cloudnativen Landschaft schließen

Das IT-Ökosystem durch Beiträge stärken

Gemeinsam die Zukunft der Inferenz skalieren

Über den Autor

Brian Stevens

Ähnliche Einträge

Nach Thema durchsuchen

Plattformen

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links