An diesem Punkt ist das transformative Potenzial eines Large Language Model (LLM) klar, aber die effiziente Bereitstellung dieser leistungsstarken Modelle in der Produktion kann eine Herausforderung darstellen.
Diese Herausforderung ist nicht neu. In einer aktuellen Folge des Podcasts Technically Speaking sprach Chris Wright mit Nick Hill, einem leitenden Software-Ingenieur bei Red Hat, der an der Kommerzialisierung des ursprünglichen IBM Watson „Jeopardy!“ Systems mitgearbeitet hat. Hill merkte an, dass sich diese frühen Bemühungen darauf konzentrierten, Watson von einem Raum voller Server auf einen einzelnen Rechner zu optimieren und zu beweisen, dass Engineering auf Systemebene der Schlüssel für die praktische Umsetzung leistungsstarker KI ist.
Wright und Hill sprachen auch darüber, wie dieses Prinzip auf moderne LLMs und das Open Source-Projekt vLLM anzuwenden ist, das die KI-Inferenz revolutioniert, indem es KI in großem Umfang praktischer und leistungsfähiger macht.
Was ist vLLM?
vLLM ist ein Inferenzserver, der sich direkt mit den Herausforderungen in Bezug auf Effizienz und Skalierbarkeit befasst, die bei der Arbeit mit generativer KI (gen KI) auftreten. Durch die maximierte Nutzung teurer GPU-Ressourcen macht vLLM leistungsstarke KI leichter zugänglich und praktischer.
Red Hat ist als wichtiger kommerzieller Mitwirkender am vLLM-Projekt beteiligt. Wir haben eine gehärtete, unterstützte und unternehmensgerechte Version von vLLM in Red Hat AI Inference Server integriert. Dieses Produkt ist als containerisiertes Standalone-Angebot oder als Schlüsselkomponente des größeren Red Hat AI Portfolios verfügbar, einschließlich Red Hat Enterprise Linux AI (RHEL AI) und Red Hat OpenShift AI. Unsere Zusammenarbeit mit der vLLM-Community ist ein wichtiger Bestandteil unserer umfassenden Open Source-KI-Strategie.
Warum vLLM für die LLM-Inferenz wichtig ist
LLM-Inferenz ist der Prozess, bei dem ein KI-Modell sein Training auf neue Daten oder Abfragen anwendet. Dieser Prozess weist einige inhärente Engpässe auf. Herkömmliche Inferenzmethoden können aufgrund der sequenziellen Tokengenerierung und der geringen GPU-Auslastung ineffizient sein, was zu hohen Latenzzeiten unter Load, unflexiblen Architekturen, die nicht skaliert werden können, und Einschränkungen der Speicherbandbreite führt.
LLM bietet einen optimierten Ansatz. Das Hauptziel ist die Maximierung der GPU-Auslastung und des Durchsatzes, was durch eine Reihe wichtiger Optimierungen erreicht wird.
- PagedAttention: Diese zentrale Innovation verwendet ein Konzept, das dem virtuellen Speicher eines Computers ähnelt, um den Key-Value-Cache (KV) effizient zu verwalten. Beim KV-Cache handelt es sich um die Zwischendaten, die sich ein Modell von einem Token zum nächsten merken muss.
- Kontinuierliches Batching: Diese Technik ermöglicht es dem Inferenzserver, neue eingehende Anforderungen effizient zu verarbeiten, während bereits ein Batch verarbeitet wird. Dadurch werden Leerlaufzeiten reduziert und der Gesamtdurchsatz erhöht.
- Weitere wichtige Optimierungen: vLLM nutzt auch Techniken wie das spekulative Dekodieren, das ein kleineres, schnelleres Modell zur Vorhersage der nächsten Token verwendet, sowie optimierte CUDA-Kernel, um die Performance auf spezifischer Hardware zu maximieren.
vLLM fungiert als Schnittstellenschicht, die bei der Verwaltung des gesamten Datenflusses, der Batch-Verarbeitung und der Planung hilft, sodass LLMs in eine Vielzahl von Hardware- und Anwendungsbereichen integriert werden können.
Strategische Vorteile für Unternehmens-KI
vLLM ist zwar technisch interessant, bietet aber auch wichtige strategische Vorteile für IT-Führungskräfte. Mit vLLM können Sie Kosten verwalten, effektiver skalieren und Ihren Technologie-Stack besser kontrollieren.
KI demokratisieren, Kosten optimieren
Mit vLLM kann Ihre Organisation die vorhandene Hardware besser nutzen. Durch die deutlich höhere GPU-Auslastung lässt sich die erforderliche Hardware für die Ausführung Ihrer Workloads reduzieren, was wiederum Kosten senkt. Dadurch werden fortschrittliche KI-Funktionen für mehr Unternehmen zugänglicher.
Sichere Skalierung von KI-Anwendungen
Die verbesserte GPU-Auslastung und die schnelleren Reaktionszeiten unterstützen das Deployment größerer Modell- und Anwendungen. Ihr Unternehmen kann mehr Nutzende bedienen und komplexere KI-Workloads ohne Performanceeinbußen bewältigen. Dies trägt zu einer unternehmensgerechten Skalierbarkeit bei, die für die Migration von KI-Projekten von der Proof-of-Concept-Umgebung zur Produktionsumgebung unerlässlich ist.
Hardwareflexibilität und -auswahl
Der Open Source-Charakter von vLLM und die umfassende Unterstützung verschiedener Hardware-Beschleuniger von Unternehmen wie NVIDIA, AMD und Intel – zusammen mit führenden Modellen von Anbietern wie Meta, Mistral und IBM sind ein entscheidender strategischer Vorteil. Dies gibt Ihrem Unternehmen mehr Flexibilität bei der Auswahl von Hardwarelösungen. Gleichzeitig können Sie Beschleuniger wählen, die am besten für Ihre speziellen Anforderungen geeignet sind, auch wenn diese dynamisch sind.
Mehr Innovation und mehr Community-Effekte
Die aktive Open Source Community von vLLM bietet einen enormen Wert. Die Community ist aktiv und wächst weiter, was zu einer schnellen Integration neuer Forschungen und Fortschritte führt. Diese schnelle Entwicklung und Innovation hat dazu beigetragen, vLLM als Standard für LLM-Inferenz zu etablieren, und Ihr Unternehmen kann kontinuierlich von den neuesten Innovationen profitieren.
Unternehmensfähige KI mit vLLM
Die Vision von Red Hat ist, KI in der gesamten Hybrid Cloud praktikabel, transparent und zugänglich zu machen. vLLM ist ein Eckpfeiler dieser Strategie und ein Schlüsselfaktor unserer Leitvision „Beliebige Modelle, beliebige Beschleuniger, beliebige Clouds“.
Red Hat AI Inference Server
Wir haben vLLM in Red Hat AI Inference Server integriert, eine gehärtete, unterstützte und unternehmensgerechte Distribution von vLLM. Zusätzlich zu unserem Repository an optimierten und validierten Drittanbietermodellen bieten wir Tools wie LLM Compressor an, mit denen Sie schnelle und kostengünstigere Deployments in Ihren Hybrid Cloud-Umgebungen bereitstellen können.
Ebenso wie Red Hat dazu beigetragen hat, die fragmentierte Linux-Landschaft zu vereinheitlichen, bietet der Red Hat AI Inference Server, der auf vLLM basiert, eine ähnliche vereinheitlichende Ebene für KI-Inferenz. Dies vereinfacht komplexe Deployments für Unternehmen, die eine konsistente und zuverlässige Methode zur Ausführung von KI-Workloads benötigen.
Vereinheitlichung der KI-Infrastruktur
Red Hat AI Inference Server ist als containerisiertes Standalone-Angebot verfügbar. Zudem spielt Red Hat AI Inference Server eine zentrale Rolle im gesamten Red Hat KI-Portfolio.
- Die Kernkomponenten sind in Red Hat Enterprise Linux AI (RHEL AI) enthalten, das eine Basisplattform für die Entwicklung, das Testen und die Bereitstellung von LLM bietet.
- Es ist eine Schlüsselkomponente von Red Hat OpenShift AI, einer integrierten MLOps-Plattform zur Verwaltung des gesamten Lifecycles von KI-Modellen in großem Umfang.
- Darüber hinaus bietet unser Hugging Face Repository mit optimierten Modellen Zugriff auf validierte Drittanbietermodelle, die für die effiziente Ausführung auf vLLM voroptimiert sind, darunter Llama, Mistral, Qwen und Granite.
Wir setzen uns kontinuierlich für die Open Source Community ein. Neben unserem Engagement in der vLLM-Community haben wir kürzlich das llm-d project ins Leben gerufen, ein Kubernetes-natives, hochleistungsfähiges verteiltes LLM-Inferenz-Framework, das vLLM integriert. Diese neue Initiative, an der auch andere Mitwirkende wie Google und NVIDIA beteiligt sind, soll dazu beitragen, gen KI in großem Umfang auszuführen und dabei für die meisten Modelle auf verschiedenen Hardwarebeschleunigern eine wettbewerbsfähige Leistung zu erzielen.
Wie Red Hat helfen kann
Red Hat AI bietet eine komplette unternehmensgerechte KI-Plattform für Modelltraining und Inferenz, die mehr Effizienz, ein vereinfachtes IT-Erlebnis und die Flexibilität für eine standortunabhängige Bereitstellung in einer Hybrid Cloud-Umgebung bietet. Unsere Vision ist es, KI praktikabel, transparent und zugänglich zu machen. Unser Portfolio ist darauf ausgelegt, Sie bei der Entwicklung und Ausführung von KI-Lösungen zu unterstützen, die Ihrem Unternehmen vom ersten Experiment bis zur vollständigen Produktion dienen.
Mit unserem Hybrid Cloud-Ansatz können Sie KI auf beliebige Weise implementieren - ob Sie nun vorhandene Anwendungen modernisieren oder neue entwickeln möchten. Wir bieten auch KI-Training und -Zertifizierungen an, einschließlich der kostenlosen Kurse Red Hat AI Foundations, mit denen Sie Ihre Teams dabei unterstützen können, die KI-Kompetenzen zu entwickeln, die Ihre Organisation so dringend benötigt.
Über den Autor
The Technically Speaking team is answering one simple question: What’s next for enterprise IT? But they can’t answer that question alone. They speak to tech experts and industry leaders who are working on innovative tools. Tune in to their show for a front-row seat to the industry’s visions for the future of technology.
Ähnliche Einträge
A 5-step playbook for unified automation and AI
AI ambitions meet automation reality: The case for a unified automation platform
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen