Ihr Proof of Concept (PoC) für Large Language Model (LLM) war ein Erfolg. Was nun? Beim Wechsel von einem einzelnen Server zu produktionsgerechter, verteilter KI-Inferenz stoßen die meisten Unternehmen an ihre Grenzen. Die Infrastruktur, die Sie so weit gebracht hat, kann einfach nicht mithalten.
Wie in einer aktuellen Folge des Technically Speaking Podcasts erläutert, beginnen die meisten Unternehmen ihre KI-Einführung und Proof of Concepts (PoCs) zunächst mit dem Deployment eines Modells auf einem einzigen Server – eine bewältigbare Aufgabe. Jedoch erfordert der nächste Schritt oft einen großen Sprung hin zu einer verteilten, produktionsgerechten KI-Inferenz. Dazu müssen unserer Meinung nach nicht einfach weitere Maschinen hinzugefügt werden. Dazu ist eine neue Art von Intelligenz in der Infrastruktur erforderlich: eine KI-fähige Control Plane, die die Komplexität dieser speziellen und dynamischen Workloads bewältigt.
Die neue Herausforderung: Verteilte KI-Inferenz
Das Deployment von LLMs in großem Umfang bringt eine Reihe von Herausforderungen mit sich. Die herkömmliche Infrastruktur ist für deren Bewältigung nicht ausgelegt. Ein standardmäßiger Webserver verarbeitet beispielsweise einheitliche Anforderungen. Im Gegensatz dazu kann eine KI-Inferenzanfrage unvorhersehbar und ressourcenintensiv sein, mit unterschiedlichen Anforderungen an Rechenleistung, Speicher und Netzwerke.
Man kann sich das wie eine moderne Logistik vorstellen. Der Transport eines kleinen Pakets von einer Stadt in eine andere ist unkompliziert. Jedoch erfordert die Koordination einer globalen Lieferkette ein intelligentes Logistikmanagement. Dieses System kann Tausende von Sendungen verfolgen, verschiedene Arten von Gütern dynamisch routen und die Planung so optimieren, dass die Waren pünktlich ankommen. Ohne diese Intelligenz und sorgfältige Koordination bricht das gesamte System zusammen. Ebenso wird die Skalierung von KI ohne eine intelligente Infrastrukturschicht ineffizient, kostspielig und unzuverlässig.
Die Komplexität dieser Workloads hängt mit den Prefill- und Decodierphasen der LLM-Inferenz zusammen. Die Prefill-Phase verarbeitet die gesamte Eingabeaufforderung auf einmal und ist eine rechenintensive Aufgabe, während die Decode-Phase die Ausgabetoken einzeln generiert und stärker von der Speicherbandbreite abhängig ist.
Bei den meisten Einzelserver-Bereitstellungen werden diese beiden Phasen auf derselben Hardware zusammengeführt. Dies kann zu Engpässen und einer schlechten Performance führen, insbesondere bei Workloads mit hohem Volumen und verschiedenen Anforderungsmustern. Die eigentliche Herausforderung besteht darin, die Time-to-First-Token (aus der Prefill-Phase) und die Latenz zwischen den Token (aus der Decodierphase) zu optimieren, um den Durchsatz zu maximieren, die meisten gleichzeitigen Anforderungen zu verarbeiten und – entscheidend für die Nutzung in Unternehmen – konsistent definierte Service Level Objectives (SLOs) zu erfüllen.
Eine gemeinsame Vision für ein gemeinsames Problem
Die Leistungsfähigkeit von Open Source bei der Bewältigung dieser komplexen, branchenweiten Herausforderung liegt auf der Hand. Wenn Hardwareanbieter, Cloud-Anbieter und Plattformentwickler ein Problem teilen, ist die effektivste Lösung normalerweise eine kollaborative Lösung. Anstatt dass Dutzende von Organisationen unabhängig voneinander an der Lösung desselben Problems arbeiten, beschleunigt ein gemeinsames Open Source-Projekt Innovationen und trägt dazu bei, einen gemeinsamen Standard zu etablieren.
Das llm-d-Projekt ist ein typisches Beispiel dieser Zusammenarbeit in der Praxis. Dem von Red Hat und IBM Research initiierten Projekt schloss sich schnell eine Koalition branchenführender Unternehmen an, darunter Google und NVIDIA, die alle an einer gemeinsam entwickelten Vision arbeiteten.
Die Technologie llm-d bietet einen klaren, bewährten Ansatz für das Management von KI-Inferenz in großem Umfang. Anstatt alles von Grund auf neu zu entwickeln, konzentriert sich die Community auf die Optimierung und Standardisierung der operativen Herausforderungen bei der Ausführung von KI-Workloads in großem Umfang.
llm-d: Ein Blueprint für produktionsreife KI
Das llm-d-Projekt entwickelt eine Open Source Control Plane, die Kubernetes um spezifische Funktionen erweitert, die für KI-Workloads benötigt werden. Es ersetzt nicht Kubernetes, fügt jedoch eine spezialisierte intelligente Schicht hinzu und erweitert die Laufzeitleistung von vLLM auf eine verteilte Schicht.
Die llm-d-Community konzentriert sich auf die Entwicklung von Funktionen, die sich direkt auf die Performance und Effizienz von KI-Inferenz auswirken, darunter:
- Semantisches Routing: Der Scheduler von llm-d kennt die speziellen Ressourcenanforderungen jeder Inferenzanforderung. Er kann intelligentere Entscheidungen darüber treffen, wo Workloads ausgeführt werden, wodurch teure Ressourcen effizienter genutzt und eine kostspielige Überversorgung verhindert werden. Dies geht über das herkömmliche Load Balancing hinaus, indem Echtzeitdaten, wie die Auslastung des KV-Cache (Key-Value) eines Modells, verwendet werden, um Anforderungen an die optimalste Instanz weiterzuleiten.
- Workload-Disaggregation: llm-d trennt komplexe Inferenzaufgaben in kleinere, verwaltbare Teile, insbesondere die Prefill- und Dekodierungsphasen. Dies ermöglicht eine detaillierte Kontrolle und den Einsatz heterogener Hardware. So wird die passende Ressource für die jeweilige Aufgabe genutzt, was zur Senkung der Gesamtbetriebskosten beiträgt. Beispielsweise kann ein Prefill-Pod für rechenintensive Aufgaben optimiert werden, während ein Decode-Pod auf eine effiziente Speicherbandbreite zugeschnitten ist. Dies ermöglicht eine detaillierte Optimierung, die mit einem monolithischen Ansatz nicht möglich ist.
- Unterstützung für erweiterte Architekturen: llm-d ist für den Umgang mit neuen Modellarchitekturen konzipiert, wie z. B. Mixture of Experts (MoE), die komplexe Orchestrierung und Parallelverarbeitung über mehrere Knoten hinweg erfordern. Durch die Unterstützung einer breiten Parallelverarbeitung ermöglicht llm-d die effiziente Nutzung dieser Sparse-Modelle, die leistungsfähiger und kosteneffektiver sind als ihre Dense-Modelle, aber in großem Umfang schwieriger bereitzustellen sind.
Die llm-d-Community nutzt wichtige Ideen aus Bereichen wie High-Performance Computing (HPC) und großskalige verteilte Systeme, um die starren, spezialisierten Setups zu vermeiden, die die Nutzung erschweren können. Dabei führt es offene Technologien – wie vLLM für die Modellbereitstellung und das Inferenz-Gateway für die Zeitplanung – strategisch zusammen, um ein einheitliches Framework zu schaffen.
Dieser Fokus auf Operationalisierung und Flexibilität ist ein zentrales Designprinzip und das Projekt unterstützt mehrere Hardware-Beschleuniger von Anbietern wie NVIDIA, AMD und Intel. Durch die Entwicklung einer flexiblen Control Plane, die über verschiedene Hardware und Umgebungen hinweg funktioniert, möchte llm-d einen starken, dauerhaften Standard für die Zukunft der Unternehmens-KI etablieren.
Zusammenfassung
Für IT-Führungskräfte, die sich heute auf die Operationalisierung von KI konzentrieren, geht der Wert des llm-d-Projekts über die Community hinaus. Die Arbeit in dieser Open Source-Koalition, insbesondere die Entwicklung einer intelligenten, KI-fähigen Control Plane, ist eine direkte Antwort auf die Produktionsherausforderungen, mit denen viele Unternehmen heutzutage konfrontiert sind.
Die Vorteile von llm-d liegen auf der Hand:
- Mehr als nur einen Server: Bei der Skalierung von LLMs geht es nicht um das Hinzufügen weiterer Rechner. Es geht hier um die Implementierung einer strategischen Infrastrukturschicht, mit der Sie verteilte Workloads intelligent verwalten, mit komplexer Hardware umgehen und Kosten sowie die Performance optimieren können.
- Nutzung offener Standards: Robuste Lösungen entstehen durch kollaborative Open Source-Projekte, nicht durch proprietäre Silos. Die Einführung einer Plattform, die auf diese offenen Standards ausgerichtet ist, kann einen Vendor Lock-in verhindern und eine flexiblere, zukunftssichere Umgebung für KI-Initiativen bieten.
- Operationalisierung mit einem vertrauenswürdigen Partner: Sie müssen kein Experte für verteilte Systeme sein oder direkt zum llm-d-Projekt beitragen, um von dessen Innovation zu profitieren. Die in der Community geschaffenen Werte werden in unterstützte Unternehmensplattformen wie Red Hat AI integriert, die eine konsistente und zuverlässige Basis für die Bereitstellung und Verwaltung von KI in großem Umfang bietet.
Die Zukunft der unternehmensfähigen KI hängt von einer soliden Infrastrukturbasis ab. Die Arbeit der llm-d-Community ist der Aufbau dieser Basis, und eine Plattform wie Red Hat AI kann Sie bei der praktischen Anwendung unterstützen.
Ressource
Das adaptive Unternehmen: KI-Bereitschaft heißt Disruptionsbereitschaft
Über den Autor
Chris Wright is senior vice president and chief technology officer (CTO) at Red Hat. Wright leads the Office of the CTO, which is responsible for incubating emerging technologies and developing forward-looking perspectives on innovations such as artificial intelligence, cloud computing, distributed storage, software defined networking and network functions virtualization, containers, automation and continuous delivery, and distributed ledger.
During his more than 20 years as a software engineer, Wright has worked in the telecommunications industry on high availability and distributed systems, and in the Linux industry on security, virtualization, and networking. He has been a Linux developer for more than 15 years, most of that time spent working deep in the Linux kernel. He is passionate about open source software serving as the foundation for next generation IT systems.
Ähnliche Einträge
Feature store: The front-end for all of your AI data pipelines
Smarter troubleshooting with the new MCP server for Red Hat Enterprise Linux (now in developer preview)
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen