An diesem Punkt ist das transformative Potenzial eines Large Language Model (LLM) klar, aber die effiziente Bereitstellung dieser leistungsstarken Modelle in der Produktion kann eine Herausforderung darstellen.

Diese Herausforderung ist nicht neu. In einer aktuellen Folge des Podcasts Technically Speaking sprach Chris Wright mit Nick Hill, einem leitenden Software-Ingenieur bei Red Hat, der an der Kommerzialisierung des ursprünglichen IBM Watson „Jeopardy!“ Systems mitgearbeitet hat. Hill merkte an, dass sich diese frühen Bemühungen darauf konzentrierten, Watson von einem Raum voller Server auf einen einzelnen Rechner zu optimieren und zu beweisen, dass Engineering auf Systemebene der Schlüssel für die praktische Umsetzung leistungsstarker KI ist.

Wright und Hill sprachen auch darüber, wie dieses Prinzip auf moderne LLMs und das Open Source-Projekt vLLM anzuwenden ist, das die KI-Inferenz revolutioniert, indem es KI in großem Umfang praktischer und leistungsfähiger macht.

Was ist vLLM?

vLLM ist ein Inferenzserver, der sich direkt mit den Herausforderungen in Bezug auf Effizienz und Skalierbarkeit befasst, die bei der Arbeit mit generativer KI (gen KI) auftreten. Durch die maximierte Nutzung teurer GPU-Ressourcen macht vLLM leistungsstarke KI leichter zugänglich und praktischer.

Red Hat ist als wichtiger kommerzieller Mitwirkender am vLLM-Projekt beteiligt. Wir haben eine gehärtete, unterstützte und unternehmensgerechte Version von vLLM in Red Hat AI Inference Server integriert. Dieses Produkt ist als containerisiertes Standalone-Angebot oder als Schlüsselkomponente des größeren Red Hat AI Portfolios verfügbar, einschließlich  Red Hat Enterprise Linux AI (RHEL AI) und Red Hat OpenShift AI. Unsere Zusammenarbeit mit der vLLM-Community ist ein wichtiger Bestandteil unserer umfassenden Open Source-KI-Strategie.

Warum vLLM für die LLM-Inferenz wichtig ist

LLM-Inferenz ist der Prozess, bei dem ein KI-Modell sein Training auf neue Daten oder Abfragen anwendet. Dieser Prozess weist einige inhärente Engpässe auf. Herkömmliche Inferenzmethoden können aufgrund der sequenziellen Tokengenerierung und der geringen GPU-Auslastung ineffizient sein, was zu hohen Latenzzeiten unter Load, unflexiblen Architekturen, die nicht skaliert werden können, und Einschränkungen der Speicherbandbreite führt.

LLM bietet einen optimierten Ansatz. Das Hauptziel ist die Maximierung der GPU-Auslastung und des Durchsatzes, was durch eine Reihe wichtiger Optimierungen erreicht wird.

  • PagedAttention: Diese zentrale Innovation verwendet ein Konzept, das dem virtuellen Speicher eines Computers ähnelt, um den Key-Value-Cache (KV) effizient zu verwalten. Beim KV-Cache handelt es sich um die Zwischendaten, die sich ein Modell von einem Token zum nächsten merken muss.
  • Kontinuierliches Batching: Diese Technik ermöglicht es dem Inferenzserver, neue eingehende Anforderungen effizient zu verarbeiten, während bereits ein Batch verarbeitet wird. Dadurch werden Leerlaufzeiten reduziert und der Gesamtdurchsatz erhöht.
  • Weitere wichtige Optimierungen: vLLM nutzt auch Techniken wie das spekulative Dekodieren, das ein kleineres, schnelleres Modell zur Vorhersage der nächsten Token verwendet, sowie optimierte CUDA-Kernel, um die Performance auf spezifischer Hardware zu maximieren.

vLLM fungiert als Schnittstellenschicht, die bei der Verwaltung des gesamten Datenflusses, der Batch-Verarbeitung und der Planung hilft, sodass LLMs in eine Vielzahl von Hardware- und Anwendungsbereichen integriert werden können.

Strategische Vorteile für Unternehmens-KI

vLLM ist zwar technisch interessant, bietet aber auch wichtige strategische Vorteile für IT-Führungskräfte. Mit vLLM können Sie Kosten verwalten, effektiver skalieren und Ihren Technologie-Stack besser kontrollieren.

KI demokratisieren, Kosten optimieren

Mit vLLM kann Ihre Organisation die vorhandene Hardware besser nutzen. Durch die deutlich höhere GPU-Auslastung lässt sich die erforderliche Hardware für die Ausführung Ihrer Workloads reduzieren, was wiederum Kosten senkt. Dadurch werden fortschrittliche KI-Funktionen für mehr Unternehmen zugänglicher.

Sichere Skalierung von KI-Anwendungen

Die verbesserte GPU-Auslastung und die schnelleren Reaktionszeiten unterstützen das Deployment größerer Modell- und Anwendungen. Ihr Unternehmen kann mehr Nutzende bedienen und komplexere KI-Workloads ohne Performanceeinbußen bewältigen. Dies trägt zu einer unternehmensgerechten Skalierbarkeit bei, die für die Migration von KI-Projekten von der Proof-of-Concept-Umgebung zur Produktionsumgebung unerlässlich ist.

Hardwareflexibilität und -auswahl

Der Open Source-Charakter von vLLM und die umfassende Unterstützung verschiedener Hardware-Beschleuniger von Unternehmen wie NVIDIA, AMD und Intel – zusammen mit führenden Modellen von Anbietern wie Meta, Mistral und IBM sind ein entscheidender strategischer Vorteil. Dies gibt Ihrem Unternehmen mehr Flexibilität bei der Auswahl von Hardwarelösungen. Gleichzeitig können Sie Beschleuniger wählen, die am besten für Ihre speziellen Anforderungen geeignet sind, auch wenn diese dynamisch sind.

Mehr Innovation und mehr Community-Effekte

Die aktive Open Source Community von vLLM bietet einen enormen Wert. Die Community ist aktiv und wächst weiter, was zu einer schnellen Integration neuer Forschungen und Fortschritte führt. Diese schnelle Entwicklung und Innovation hat dazu beigetragen, vLLM als Standard für LLM-Inferenz zu etablieren, und Ihr Unternehmen kann kontinuierlich von den neuesten Innovationen profitieren.

Unternehmensfähige KI mit vLLM

Die Vision von Red Hat ist, KI in der gesamten Hybrid Cloud praktikabel, transparent und zugänglich zu machen. vLLM ist ein Eckpfeiler dieser Strategie und ein Schlüsselfaktor unserer Leitvision „Beliebige Modelle, beliebige Beschleuniger, beliebige Clouds“.

Red Hat AI Inference Server

Wir haben vLLM in Red Hat AI Inference Server integriert, eine gehärtete, unterstützte und unternehmensgerechte Distribution von vLLM. Zusätzlich zu unserem Repository an optimierten und validierten Drittanbietermodellen bieten wir Tools wie LLM Compressor an, mit denen Sie schnelle und kostengünstigere Deployments in Ihren Hybrid Cloud-Umgebungen bereitstellen können.

Ebenso wie Red Hat dazu beigetragen hat, die fragmentierte Linux-Landschaft zu vereinheitlichen, bietet der Red Hat AI Inference Server, der auf vLLM basiert, eine ähnliche vereinheitlichende Ebene für KI-Inferenz. Dies vereinfacht komplexe Deployments für Unternehmen, die eine konsistente und zuverlässige Methode zur Ausführung von KI-Workloads benötigen.

Vereinheitlichung der KI-Infrastruktur

Red Hat AI Inference Server ist als containerisiertes Standalone-Angebot verfügbar. Zudem spielt Red Hat AI Inference Server eine zentrale Rolle im gesamten Red Hat KI-Portfolio.

  • Die Kernkomponenten sind in Red Hat Enterprise Linux AI (RHEL AI) enthalten, das eine Basisplattform für die Entwicklung, das Testen und die Bereitstellung von LLM bietet.
  • Es ist eine Schlüsselkomponente von Red Hat OpenShift AI, einer integrierten MLOps-Plattform zur Verwaltung des gesamten Lifecycles von KI-Modellen in großem Umfang.
  • Darüber hinaus bietet unser Hugging Face Repository mit optimierten Modellen Zugriff auf validierte Drittanbietermodelle, die für die effiziente Ausführung auf vLLM voroptimiert sind, darunter Llama, Mistral, Qwen und Granite.

Wir setzen uns kontinuierlich für die Open Source Community ein. Neben unserem Engagement in der vLLM-Community haben wir kürzlich das llm-d project ins Leben gerufen, ein Kubernetes-natives, hochleistungsfähiges verteiltes LLM-Inferenz-Framework, das vLLM integriert. Diese neue Initiative, an der auch andere Mitwirkende wie Google und NVIDIA beteiligt sind, soll dazu beitragen, gen KI in großem Umfang auszuführen und dabei für die meisten Modelle auf verschiedenen Hardwarebeschleunigern eine wettbewerbsfähige Leistung zu erzielen.

Wie Red Hat helfen kann

Red Hat AI bietet eine komplette unternehmensgerechte KI-Plattform für Modelltraining und Inferenz, die mehr Effizienz, ein vereinfachtes IT-Erlebnis und die Flexibilität für eine standortunabhängige Bereitstellung in einer Hybrid Cloud-Umgebung bietet. Unsere Vision ist es, KI praktikabel, transparent und zugänglich zu machen. Unser Portfolio ist darauf ausgelegt, Sie bei der Entwicklung und Ausführung von KI-Lösungen zu unterstützen, die Ihrem Unternehmen vom ersten Experiment bis zur vollständigen Produktion dienen.

Mit unserem Hybrid Cloud-Ansatz können Sie KI auf beliebige Weise implementieren - ob Sie nun vorhandene Anwendungen modernisieren oder neue entwickeln möchten. Wir bieten auch KI-Training und -Zertifizierungen an, einschließlich der kostenlosen Kurse Red Hat AI Foundations, mit denen Sie Ihre Teams dabei unterstützen können, die KI-Kompetenzen zu entwickeln, die Ihre Organisation so dringend benötigt.


Über den Autor

The Technically Speaking team is answering one simple question: What’s next for enterprise IT? But they can’t answer that question alone. They speak to tech experts and industry leaders who are working on innovative tools. Tune in to their show for a front-row seat to the industry’s visions for the future of technology.

UI_Icon-Red_Hat-Close-A-Black-RGB

Nach Thema durchsuchen

automation icon

Automatisierung

Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen

AI icon

Künstliche Intelligenz

Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen

open hybrid cloud icon

Open Hybrid Cloud

Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.

security icon

Sicherheit

Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren

edge icon

Edge Computing

Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen

Infrastructure icon

Infrastruktur

Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen

application development icon

Anwendungen

Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen

Virtualization icon

Virtualisierung

Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen