Was ist llm-d?

URL kopieren

llm-d ist ein Kubernetes-natives Open Source Framework, das die verteilte LLM-Inferenz (Large Language Model) in großem Umfang beschleunigt. 

Das heißt, wenn ein KI-Modell komplizierte Anfragen mit vielen Daten erhält, bietet llm-d ein Framework, das die Verarbeitung beschleunigt. 

llm-d wurde von Google, NVIDIA, IBM Research und CoreWeave entwickelt. Die Open Source Community trägt mit Updates zur Verbesserung der Technologie bei.

Wie Red Hat AI die Inferenz beschleunigt

Warum Sie sich mit Inferenz befassen sollten

LLM-Prompts können komplex und uneinheitlich sein. Sie benötigen in der Regel umfangreiche Rechenressourcen und Storage, um große Datenmengen zu verarbeiten. 

llm-d verfügt über eine modulare Architektur, die den steigenden Ressourcenanforderungen anspruchsvoller und größerer Reasoning-Modelle wie LLMs gerecht wird. 

Dank einer modularen Architektur können die verschiedenen Teile der KI-Workload je nach den Anforderungen des Modells entweder zusammen oder separat arbeiten. So kann die Modellinferenz beschleunigt werden.

Sie können sich llm-d wie einen Marathonlauf vorstellen: Die einzelnen Teilnehmenden bestimmen jeweils ihr eigenes Tempo. Vielleicht überqueren Sie die Ziellinie nicht zur gleichen Zeit wie andere, aber schließlich kommen alle ins Ziel, wenn sie so weit sind. Wenn alle gleichzeitig die Ziellinie überqueren müssten, wären Sie an die unterschiedlichen individuellen Bedürfnisse der anderen Läuferinnen und Läufer gebunden, wie etwa bezüglich Ausdauer, Trinkpausen oder Trainingszeit. Das würde das Ganze komplizieren. 

Durch eine modulare Architektur können Teile des Inferenzprozesses in ihrem eigenen Tempo arbeiten, um so schnell wie möglich das beste Ergebnis zu erzielen. Dadurch lassen sich auch bestimmte Prozesse einfacher unabhängig voneinander korrigieren oder aktualisieren.

Durch diese spezielle Art der Modellverarbeitung kann llm-d die Anforderungen der LLM-Inferenz in großem Umfang bewältigen. Zudem können Nutzende über Einzel-Server-Deployments hinweg generative KI-Inferenz (gen KI) im gesamten Unternehmen nutzen.

Wie funktioniert verteilte Inferenz?  

Die modulare Architektur von llm-d besteht aus den folgenden Komponenten: 

  • Kubernetes: eine quelloffene Container-Orchestrierungsplattform, mit der viele manuelle Prozesse automatisiert werden können, die mit dem Deployment, dem Management und der Skalierung containerisierter Anwendungen einhergehen.
  • vLLM: ein Open Source-Inferenzserver, der die Ausgabe von gen KI-Anwendungen beschleunigt.
  • Inferenz-Gateway (IGW): eine Erweiterung der Kubernetes-Gateway-API, die Features wie Modell-Routing, Bereitstellungspriorität und „smartes“ Load Balancing bietet. 

Dank der zugänglichen, modularen Architektur eignet sich llm-d ideal als Plattform für verteilte LLM-Inferenz in großem Umfang.

Was ist operationalisierte KI?

4 wichtige Überlegungen zur Implementierung von KI-Technologie

Well-lit Paths sind spezifische Blueprints oder Strategien, um mit llm-d verteilte Inferenz in großem Umfang zu realisieren. Well-lit Paths sind von der Open Source Community von llm-d getestet und replizierbar. Sie werden wie folgt definiert:

  • Intelligenter Inferenz-Scheduler: Intelligentes Inferenz-Scheduling übernimmt nuancierte Entscheidungen zum Token Routing. Seine Funktionen für tokenbasiertes Routing (auch als „smartes“ Load Balancing bezeichnet) berücksichtigen den KV-Cache (Key Value, Schlüsselwert) des Modells, die Latenz, die modulare Funktionalität und die Beobachtbarkeit, um Bewertungs- und Filteralgorithmen zu implementieren, die die Inferenz beschleunigen.
  • Disaggregierte Prefill- und Decode-Services: Prefill-Services (Prompt-Verarbeitung) und Decode-Services (Token-Generierung) stellen unterschiedliche Anforderungen an die Rechenleistung von Inferenzservern. Wenn die beiden Vorgänge disaggregiert (getrennt) werden, können sie unabhängig voneinander ausgeführt und skaliert werden. Dadurch wird verhindert, dass isolierte Probleme, wie etwa Latenzengpässe, sämtliche Modelle gleichzeitig beeinträchtigen.
  • Weitreichende „Expert“-Parallelisierung: MoE-Modelle (Mixture of Experts) lassen sich in spezifisch qualifizierte Modelle unterteilen, die Prompts individuell bearbeiten können. Anstelle eines einzigen, dichten Modells, das sich zur Bearbeitung einzelner Prompts auf seine gesamte Datenbank stützt, identifiziert llm-d ein „Expertenmodell”, das für die Bearbeitung des Prompts am besten geeignet ist. Dies lässt sich mit der Suchfunktion vergleichen, mit der man ein Wort in einem Dokument findet, anstatt den gesamten Text zu lesen. Mit diesem Ansatz lässt sich die Inferenz beschleunigen und die GPUs lassen sich effizienter nutzen.

Zusätzlich zu Well-lit Paths verwendet llm-d intelligente Inferenztools, um die Inferenzeffizienz zu steigern:

  • Tokenbasiertes Routing: Die unterschiedlichen Rechenanforderungen eines Tokens lösen während der Inferenz dessen spezifische Route aus. Der Inferenzdatenverkehr wird basierend auf Token-Länge, Wartezeit und Cache-Treffer-Prognosen weitergeleitet, um die Latenz zu reduzieren und lange Unterbrechungen zu vermeiden. 

    Um bei unserer Analogie zum Wettlauf zu bleiben: Eine langsamere Person (komplexes Modell) wählt möglicherweise eine Strecke mit weniger Steigungen (smartes Load Balancing), um so schnell wie möglich die Ziellinie (Inferenz) zu erreichen.

    Warum Sie sich mit Inferenz befassen sollten

  • Gemeinsamer KV-Cache und Wiederverwendung: Der gemeinsam genutzte KV-Cache erkennt sich wiederholende Tokens, um die Zeit für die Decodierung der einzelnen Schlüsselwerte zu verkürzen. 

    Beispielsweise muss ein Prompt für die Hauptstadt von Arizona in 2 Tokens decodiert werden: „Was ist die Hauptstadt“ und „von Arizona“. Wenn das Modell nach der Hauptstadt eines anderen US-Bundesstaates gefragt wird („Was ist die Hauptstadt von Alaska?“), weiß es, wie es das erste Token („Was ist die Hauptstadt“) verarbeiten muss, da es zuvor berechnet wurde. Dadurch werden redundante Prefill-Berechnungen vermieden und die Inferenz beschleunigt, da weniger GPU-Storage für die Bearbeitung einzelner Prompts benötigt wird.
  • Modulares Deployment und Beobachtbarkeit: Überwachen, skalieren und aktualisieren Sie modulare Modelle unabhängig voneinander. Anstelle einer „Black Box“, die die Transparenz einschränkt, bietet modulare Flexibilität Insights in die einzelnen Teile des Frameworks. Dadurch lassen sich Modelle schneller anpassen und KI-Workloads an die typischen DevOps- und GitOps-Praktiken von heute anpassen. 

 

Da llm-d von der Open Source Community entwickelt wurde, hängt seine Funktionalität von verschiedenen Komponenten und deren Zusammenspiel ab. Zu den Kernkomponenten gehören: 

  • Kubernetes-natives Framework: llm-d ist für die Ausführung innerhalb einer Kubernetes-Plattform konzipiert und nutzt sämtliche Vorteile dieser Plattform. Um das llm-d-Framework zugänglich zu machen, wurde es für Kubernetes-basierte verteilte Plattformen (wie Red Hat® OpenShift®) entwickelt. Dieser Kubernetes-native Ansatz bietet die Richtlinien-, Sicherheits- und Beobachtbarkeitsschicht, die für die Anwendung von gen KI-Inferenz in einem Unternehmen erforderlich ist.
  • Verteilte LLM-Inferenz: Verteilte Inferenz weist eine komplexe Inferenzanforderung mehreren Servern und Edge-Geräten zu. Von dort aus arbeiten die einzelnen Funktionen parallel, um eine Ausgabe zu erstellen. Dies führt zu schnelleren und skalierbareren KI-gestützten Services. llm-d nutzt Open Source Community-Projekte wie Envoy, vLLM und Kserve, um verteilte Inferenz zu erreichen.
  • Von der Community unterstütztes Open Source-Projekt: Open Source Communities sorgen dafür, dass gute Ideen unabhängig von ihrer Herkunft umgesetzt werden können, und verbessern Technologien, die frei zugänglich sind. Dieses Open Source-Projekt stützt sich auf Ideen von branchenführenden Unternehmen wie Google, IBM, CoreWeave, NVIDIA und Red Hat.

Mit diesen Komponenten können Unternehmen llm-d nutzen, um Use Cases für gen KI zu skalieren, ohne sich um Latenz, Komplexität oder hohe Kosten sorgen zu müssen.

Was ist Unternehmens-KI? 

Typische KI-Modell-Prompts folgen einem bestimmten Muster: Sie sind oft kurz und werden repliziert. Daher erhalten die einzelnen Prompts dieselbe Unterstützung und dieselben Ressourcen, was manchmal als Load Balancing nach dem Round-Robin-Verfahren bezeichnet wird. 

LLMs unterscheiden sich jedoch von herkömmlichen Workloads. LLMs führen lange Decodierungsphasen durch, sind auf die Wiederverwendung von Prefix Caches angewiesen und haben unterschiedliche Rechen- und Speicheranforderungen. Deshalb wird das typische Load Balancing von Kubernetes den komplexen Anforderungen von LLM nicht gerecht. 

Darüber hinaus setzen die meisten Unternehmen LLMs mit geringer Transparenz ein, was die Kontrolle über ihre KI-Workloads einschränkt. Dies führt zu einer unzureichenden GPU-Auslastung, Latenz und unflexiblen Architekturen, die sich nur schwer skalieren lassen. Generische LLM-basierte Inferenzsysteme ignorieren möglicherweise die Prompt-Struktur, die Token-Anzahl und den Cache-Status, was zu einer Verschwendung von Ressourcen führt. 

Wie funktioniert das Zusammenspiel von LLM-Berechnungen, Tokens und KV-Cache? 

Beispielsweise erfordern RAG-Prompts (Retrieval-Augmented Generation) ein anderes Load Balancing als Prompts, die auf Denken oder Reasoning basieren. Wenn die Workloads durch verschiedene Prompts überlastet werden, die ein besonderes Load Balancing erfordern, verlangsamt sich der Inferenzprozess.

Sie können sich das so vorstellen: Ihre örtliche Bäckerei backt hervorragenden Kuchen. Sie backt täglich zuverlässig Apfel- und Blaubeerkuchen sowie Nusskuchen. Wenn die Bäckerei jedoch Bestellungen für Croissants, Fudge oder Hochzeitstorten erhält, sind ihre Arbeitsabläufe ineffizient. Sie bearbeiten weniger Aufträge, und Aufgaben bleiben unerledigt. Was Ihre Bäckerei braucht, ist eine Bäckermeisterin oder -meister, die bzw. der Aufgaben delegieren kann, um sowohl die Aufträge für komplizierte Backwaren als auch für die üblichen Kuchen zu erfüllen. Diese Person kann die komplexen Arbeitsabläufe koordinieren, um Aufträge – ob Kuchen oder andere Produkte – auf möglichst effiziente Weise zu erfüllen. 

Wenn es um die Konfiguration Ihrer KI-Technologie geht, ist llm-d Ihr Bäckermeister. 

llm-d bietet eine KI-Inferenzplattform, die LLM-fähig ist, das heißt, sie ist auf die hohen Abweichungen bei den LLM-Prompt-Anforderungsmerkmalen vorbereitet. Mit dem Open Source Framework lassen sich die Performance vorhersehbar überwachen, die Kosten optimieren und die Erwartungen der Nutzenden erfüllen. llm-d transformiert die LLM-Inferenz in eine Kubernetes-native Architektur für ein verwaltbares Inferenz-Framework, ähnlich wie bei einem Microservice.  

Wenn Nutzende nicht unkompliziert Inferenzen in großem Umfang durchführen können, verlängert sich die Markteinführungszeit und es wird schwieriger, im gesamten Unternehmen Use Cases für gen KI anzuwenden. 

Weitere Use Cases für gen KI ansehen

Mit llm-d lassen sich disaggregierte Modelle leichter skalieren, sodass Teams mit weniger Ressourcen in kürzerer Zeit komplexere KI-Ziele erreichen können.

  • Modellqualität und -Performance: llm-d nutzt Tools wie intelligentes Load Balancing, um die Reaktionszeiten der LLM-Inferenz zu beschleunigen. Das llm-d-Framework beseitigt typische LLM-Inferenzengpässe wie sich wiederholende Inferenz-Token und Black Box-Störungen. Die Beseitigung dieser Hindernisse verbessert die Modell-Performance und die Entwicklungsproduktivität.
  • Kosteneffektivität: Aufgrund seiner Modularität ermöglicht llm-d mehr Nutzenden den gleichzeitigen Zugriff auf KI-Workloads und schnellere Ergebnisse. So können Engineers und Entwicklungsteams das Bestmögliche aus ihren Modellen herausholen und GPUs effektiver nutzen. Durch die verbesserte Zugänglichkeit und Geschwindigkeit können Teams Zeit und Ressourcen anderweitig einsetzen.
  • Kontrolle: llm-d verwendet disaggregierte Bereitstellung, wodurch für die LLM-Inferenz ein neues Maß an Flexibilität entsteht. Durch Trennen der verschiedenen Phasen der Inferenz – Prefill und Decode – können die einzelnen Komponenten unabhängig voneinander und gleichzeitig arbeiten, was die Inferenz beschleunigt.

Red Hat AI priorisiert die Verbesserung des Zugangs zu skalierbarer gen KI-Inferenz. 

Unsere KI-Plattform nutzt vLLM, um den Anforderungen zunehmend komplexer Inferenzprozesse und Unternehmenserwartungen gerecht zu werden. 

Red Hat AI stützt sich auf llm-d, um KI-Workloads in Unternehmen in großem Umfang besser zu unterstützen. Mithilfe der bewährten Orchestrierungsfunktionen von Kubernetes integriert llm-d fortschrittliche Inferenzfunktionen in unsere bestehende KI-Infrastruktur für Unternehmen. 

llm-d ist nicht nur eine weitere Open Source Success Story, sondern entspricht auch der Vision von Red Hat: beliebige Modelle, beliebige Beschleuniger, beliebige Clouds.

Mehr über Red Hat AI erfahren

Blogbeitrag

Was ist llm-d und warum brauchen wir es?

Wir beobachten einen deutlichen Trend: Immer mehr Unternehmen bauen ihre LLM-Infrastruktur (Large Language Model) intern auf.

Das adaptive Unternehmen: KI-Bereitschaft heißt Disruptionsbereitschaft

Dieses E-Book, verfasst von Michael Ferris, COO und CSO von Red Hat, befasst sich mit dem Tempo des Wandels und den technologischen Umbrüchen durch KI, mit denen IT-Führungskräfte aktuell konfrontiert sind.

Weiterlesen

Prädiktive KI vs. Generative KI: KI-Typen im Vergleich

Was ist der Unterschied zwischen prädiktiver und generativer KI? Erfahren Sie alles über Funktionsweisen, Vorteile und Use Cases beider KI-Technologien.

LoRA vs. QLoRA: Parametereffizientes Fine Tuning erklärt

LoRA und QLoRA ermöglichen LLM-Anpassungen mit minimalen Ressourcen. Erfahren Sie mehr über Speicherersparnis, Quantisierung und die Wahl der richtigen Technik.

Was ist MLOps? Machine Learning Operations einfach erklärt

MLOps optimiert den Lifecycle von ML-Modellen (Machine Learning). Erfahren Sie alles über Workflow-Praktiken, Automatisierung und den Unterschied zu DevOps.

Ressourcen zu KI/ML

Ausgewähltes Produkt

  • Red Hat AI

    Flexible Lösungen, die die Entwicklung und Bereitstellung von KI-Lösungen in Hybrid Cloud-Umgebungen beschleunigen.

Verwandte Artikel