Wie vLLM die KI-Inferenz beschleunigt: 3 Use Cases für Unternehmen

URL kopieren

vLLM ist ein Inferenzserver, der in Large Language Models (LLM) durch optimierte Storage- und GPU-Nutzung (Graphic Processing Unit) für beschleunigte gen KI-Inferenz sorgt. 

Durch den effizienteren Einsatz von GPUs können LLMs Berechnungen schneller und in großem Umfang durchführen. Dieser Aspekt gewinnt zunehmend an Bedeutung, wenn Unternehmen Echtzeitanwendungen wie Chatbots oder multimodale Workflows benötigen. 

Dieser Artikel enthält 3 Beispiele aus der Praxis, wie bekannte Unternehmen vLLM erfolgreich einsetzen.

Ausführlicher Überblick über vLLM

Bei Inferenz kommen in LLMs Key Values (Schlüsselwerte) zum Einsatz, die in kurzer Zeit eine hohe Rechenleistung erbringen. 

LLMs verwenden Key Values, um Tokens (Begriffen oder Phrasen) einen numerischen Wert zuzuweisen, damit Sprache verstanden und Antworten berechnet werden können. Die einzelnen Token (Schlüssel) entsprechen also Zahlen (Werten), die es dem LLM ermöglicht, eine Antwort zu berechnen. 

Bei KI-Inferenz kommen in den 2 Hauptphasen Schlüsselwerte zum Einsatz: 

  • Prefill ist die Phase, in der das Modell den Eingabe-Prompt verarbeitet. Die Schlüsselwerte der einzelnen Token bilden den KV-Cache (Key Value), der dem Modell als Kurzzeitspeicher dient.
  • Decode ist die Phase, in der das Modell neue Tokens generiert. Es verwendet den bestehenden KV-Cache, um die Schlüsselwerte einer Antwort zu berechnen. 

LLMs speichern Schlüsselwerte für jedes verarbeitete Token im KV-Cache. Da der Cache entsprechend der Promptlänge und Ausgabegenerierung wächst, beansprucht er einen großen Teil des LLM-Storage. Traditionelle LLM-Speichermanagementsysteme führen Berechnungen weder organisiert durch noch verwenden sie ihren Speicher optimal. Dadurch werden die LLMs verlangsamt. 

vLLM setzt eine Speichermanagementtechnik ein, die die Funktionalität von KV-Caches bei Inferenz nachvollziehen kann. Der Abruf der Cache-Daten erfolgt auf eine Art und Weise, bei der repetitive Schlüsselwerte erkannt werden, wodurch Speicherfragmentierung vermieden und zusätzlicher Aufwand für das LLM reduziert werden können. So wird der GPU-Speicher effizienter genutzt und die LLM-Inferenz beschleunigt. 

Warum Sie sich mit KI-Inferenz befassen sollten

4 wichtige Überlegungen zur Implementierung von KI-Technologie

Bei vLLM kommen unterschiedliche Technologien und Techniken zum Einsatz, um Storage zu reduzieren und Inferenz zu beschleunigen: 

  • Kontinuierliches Batching: LLMs beginnen den Inferenzprozess für den nächsten Batch von Tokens bereits dann, wenn die Berechnungen eines vorherigen Tokens noch nicht abgeschlossen sind. (vLLM ist multitaskingfähig.)
  • PagedAttention: Dabei handelt es sich um eine bahnbrechende Technologie, die den KV-Cache verwendet, um sich an vorherige Tokens zu erinnern und mittels seiner Erinnerungsfähigkeit GPU-Storage einzusparen.
  • Spekulatives Decoding: Dabei kommt ein kleineres, schnelleres Modell zur Token-Prädiktion zum Einsatz für eine verkürzte Prefill-Phase mit gesteigerter Effizienz.
  • Quantisierung: Bei diesem Prozess werden größere Modellparameter in kleinere Formate umgewandelt und so Storage-Bedarf reduziert, ohne Abstriche bei der Genauigkeit machen zu müssen. Es gibt verschiedene Quantisierungsmethoden zur individuellen Modellanpassung.

Es mag zunächst belanglos erscheinen, dass eine reduzierte Anzahl von Tokens verarbeitet oder eine Antwort ein paar Sekunden schneller generiert wird. Wenn allerdings Unternehmen diese Technik zur Speicherersparnis anwenden – bei Tausenden von Berechnungen von KI-Workloads, GPUs und Inferenzservern – können sie erheblich Zeit, Geld und Ressourcen einsparen. 

Das ist ein Gamechanger für Unternehmen, die KI-Skalierung auf Unternehmensebene anstreben. 

Mehr über beschleunigte KI durch verteilte Inferenz in großem Umfang erfahren

Unternehmen verwenden KI-Inferenz bei hochvariablen Workloads mit großem Volumen. Aber ein konsistentes Deployment von LLMs in großem Umfang erfordert viel Rechenleistung, Ressourcen und spezielle operative Kompetenzen

vLLM kann diese Herausforderungen bewältigen, indem es die zur Unterstützung der KI-Inferenz in Unternehmen erforderliche Hardware effizienter nutzt. Daher ist vLLM besonders attraktiv für Branchen, für die neben Geschwindigkeit auch Flexibilität und Kontrolle wichtig sind. 

Mehr über die Vorteile der KI-Skalierung erfahren 

Als Open Source-Lösung bietet vLLM Unternehmen folgende Vorteile: 

  • Besitz und Verwaltung ihrer GPUs
  • Kontrolle ihrer Daten
  • Möglichkeit, mit neuen Modellen unmittelbar nach deren Release zu experimentieren

Diese Freiheiten sind mit geringeren Kosten pro Token und weniger Bedenken hinsichtlich des Datenschutzes verbunden. 

vLLM kann auf einer Vielzahl von Hardwareangeboten bereitgestellt werden, darunter NVIDIA- und AMD-GPUs, Google-TPUs, Intel Gaudi und AWS Neuron. vLLM ist auch nicht auf bestimmte Hardware beschränkt, sondern funktioniert gleichermaßen in der Cloud, im Rechenzentrum oder am Netzwerkrand.

vLLM im Vergleich zu Ollama: Anwendungsbereiche der jeweiligen Frameworks

Von Recruiting-Maßnahmen bis zu Online-Spielen – Skalieren von Inferenz kann schnell komplex werden. 

Die nachfolgenden Beispiele zeigen, wie Unternehmen das Open Source-Projekt vLLM einsetzen. Diese Unternehmen sind keine Kunden von Red Hat, sondern profitieren von der umfassenderen vLLM Community und der daraus hervorgehenden Technologie. 

Wie setzt Roblox vLLM ein?

Bei Roblox handelt es sich um eine Plattform für Online-Spiele, die über Millionen von Nutzende weltweit verfügt. Nutzende können dort eigene Spiele kreieren und Spiele von anderen spielen. 

Das neueste Feature, Assistant (ein KI-Chatbot zur Unterstützung beim Erstellen von Inhalten), hat die Anzahl der verarbeiteten Tokens auf mehr als 1 Milliarde pro Woche gesteigert. Weitere Features wie KI-Chat-Übersetzungen in Echtzeit und das Sprachsicherheitsmodell haben die Inferenzkomplexität zusätzlich erhöht. Diese Multimodalität zwischen Millionen von Nutzendeninteraktionen führt zu mehr zu verarbeitenden Tokens, die noch mehr Inferenzressourcen beanspruchen. 

Um dem steigenden Verarbeitungsbedarf gerecht zu werden, hat Roblox vLLM als primäre Inferenz-Engine eingeführt. Roblox nutzt für seine globale Kundenbasis insbesondere die vLLM-Funktionen für spekulatives Decoding für Sprachaufgaben. Seit der vLLM-Einführung verzeichnet Roblox beim Verarbeiten von 4 Milliarden Tokens pro Woche eine um 50 % geringere Latenz. 

vLLM ermöglicht es Roblox, zu skalieren und dem durch die wachsende Plattform steigenden Bedarf der Nutzenden gerecht zu werden. Roblox hat sich für vLLM entschieden, weil es als Open Source-Projekt seiner Philosophie, derartige Technologien zu unterstützen, entspricht. 

Hören Sie sich in den vLLM Office Hours von Red Hat an, wie Roblox vLLM genau einsetzt. 

Mehr über Roblox und vLLM erfahren 

Wie setzt LinkedIn vLLM ein?

LinkedIn hat vLLM eingeführt, um die große Bandbreite an Use Cases für gen KI zu unterstützen, die auf sein großes und aktives Publikum ausgerichtet sind. 

LinkedIn gehört zu den größten professionellen Networking-Websites weltweit und verfügt über mehr als 1 Milliarde Mitglieder in über 200 Ländern. vLLM ermöglicht es LinkedIn nun, mehr als 50 Use Cases für gen KI zu unterstützen, wie beispielsweise LinkedIn Hiring Assistant

Anhand komplexer Berechnungen zur Klassifizierung filtert LinkedIn Hiring Assistant die Qualifikationen von Bewerberinnen und Bewerbern beispielsweise nach Jahren Berufserfahrung, Kompetenzen und früheren Anstellungen. So ist es für Recruiter einfacher, für Bewerberinnen und Bewerber den Job zu finden, der am besten zu ihnen passt. 

Aber die Verarbeitung dieser vielfältigen Klassifikationen erfordert viele Tokens (durchschnittlich 1.000 pro Person), und manchmal gibt es für eine Stelle Tausende von Bewerberinnen und Bewerbern. 

Mehr als 50 % der Bewerbungen verfügen über die gleichen Prefix-Tokens (bei den Qualifikationen gibt es Ähnlichkeiten). Das macht LinkedIn Hiring Assistant zu einem perfekten Use Case für die PagedAttention-Technologie und das kontinuierliche Batching von vLLM. Beide Funktionen verringern die Latenz, erhöhen den Durchsatz und entlasten den GPU-Storage. 

TPOT (Time per Output Token) gibt die durchschnittliche Zeit an, die ein Modell braucht, um jedes individuelle Token zu generieren. Bis jetzt konnte LinkedIn mithilfe von vLLM seine TPOT um 7 % verbessern. 

Mehr über LinkedIn und vLLM erfahren 

Wie setzt Amazon vLLM ein?

Rufus, der gen KI-Einkaufsassistent von Amazon, soll das Kundenerlebnis verbessern, indem er für weniger Entscheidungsmüdigkeit sorgt. Rufus hat 2025 250 Millionen Kunden unterstützt – und diese Zahl wächst weiter. 

Da viele Kunden den gen KI-Einkaufsassistenten verwendeten, nahm die Inferenzkomplexität zu. Amazon erkannte, dass kein einzelner Chip beziehungsweise keine einzelne Instanz über ausreichend Speicher verfügte, um Rufus problemlos ausführen zu können. 

Für Amazon war das Vorhandensein skalierbarer Inferenzfunktionen mit mehreren Knoten ausschlaggebend, bei denen eine erhöhte Geschwindigkeit und verringerte Latenz nicht auf Kosten der Genauigkeit gehen. Die Lösung war eine kombinierte Architektur mit mehreren Knoten, die für problemlose und schnelle Inferenz mit vLLM integriert wurde. 

Durch den Einsatz der Technik für kontinuierliches Batching von vLLM, konnte die Inferenzverarbeitung in der Architektur mit mehreren Knoten intelligent geplant werden, sodass das Tokenvolumen weder die Latenz noch die Performance beeinträchtigte. 

Mit vLLM für eine höhere Effizienz und einen verbesserten Durchsatz der LLMs kann Amazon gen KI-Projekte wie Rufus skalieren, die mit den Kunden weiter wachsen und sich weiterentwickeln werden.

Mehr über Amazon und vLLM erfahren 

vLLM wird aufgrund seiner Kernfunktionen auch in Zukunft die Basis für KI-Inferenz bilden: 

  • Geschwindigkeit: Die Inferenzfunktionen werden immer besser. Die Hardware- und Modellanbieter von vLLM arbeiten direkt an dem Projekt mit, um sowohl die Geschwindigkeit als auch die Modelleffizienz zu optimieren.
  • Community: vLLM verfügt über eine große Open Source Community, die kontinuierlich wächst. Sämtliche der 10 am Modell mitwirkenden Hauptparteien – wie Deepseek, NVIDIA, Meta und Google – entwerfen aufgrund der Effizienz für vLLM vorgefertigte Modelle.
  • Flexibilität: vLLM kann auf fast jeder KI-Hardware bereitgestellt werden, darunter NVIDIA- und AMD-GPUs, Google-TPUs, Intel Gaudi, AWS Neuron und andere Beschleuniger wie MetaX, Rebellions und so weiter. Dieser vielfältige Hardware-Support bietet Unternehmen die nötige Flexibilität, damit sie mit bereits vorhandenen Ressourcen Ergebnisse liefern können.
  • Day 0-Support: Wenn beliebte Modellentwicklungsunternehmen wie Meta oder Google ein neues Modell veröffentlichen, ist vLLM bereits mit seinen bestehenden Architekturen vertraut. So kann vLLM für neue Modelle Day 0-Support (unmittelbaren Support) anbieten. vLLM ist also eine zugängliche, sofort einsatzbereite Lösung für Unternehmen, die Modelle zeitnah bereitstellen und die Kosten senken möchten. 

vLLM beinhaltet auch llm-d, ein Framework für verteilte Inferenz zum Verwalten von LLMs in großem Umfang in der Hybrid Cloud.

Mehr über die vLLM Community auf GitHub erfahren

Red Hat® AI ist eine Plattform mit Produkten und Services, die Ihr Unternehmen in den verschiedenen Phasen der KI-Einführung unterstützen kann – unabhängig davon, ob Sie gerade erst beginnen oder schon skalierungsbereit sind. Die Lösungen können sowohl generative als auch prädiktive KI-Initiativen für die spezifischen Use Cases Ihres Unternehmens unterstützen.

Mit Red Hat AI erhalten Sie Zugriff auf Red Hat AI Inference Server, mit dem Sie die Modellinferenz in der gesamten Hybrid Cloud optimieren und so schnellere und kosteneffiziente Deployments erzielen können. Der auf vLLM basierende Inferenzserver maximiert die GPU-Nutzung und ermöglicht schnellere Reaktionszeiten.

Mehr über Red Hat AI Inference Server erfahren 

Red Hat AI Inference Server umfasst das Repository von Red Hat AI, eine Sammlung validierter und optimierter Drittanbietermodelle, die mehr Modellflexibilität und teamübergreifende Konsistenz ermöglicht. Durch den Zugriff auf das Repository von Drittanbietermodellen können Unternehmen die Markteinführungszeit verkürzen und finanzielle Hindernisse für eine erfolgreiche KI-Implementierung abbauen.

Mehr über validierte Modelle von Red Hat AI erfahren

Blogbeitrag

Wie souverän ist Ihre Strategie? Einführung in das Red Hat Digital Sovereignty Readiness Assessment Tool

Das Red Hat Sovereignty Readiness Assessment Tool ist eine webbasierte Self Service-Bewertung, die eine klare, objektive Grundlage für die digitale Kontrolle Ihres Unternehmens in 7 kritischen Bereichen bietet.

Erste Schritte mit KI für Unternehmen: Ein Guide für den Einsatz

In diesem Guide für den Einstieg erfahren Sie, wie Red Hat OpenShift AI und Red Hat Enterprise Linux AI die KI-Einführung beschleunigen können.

Weiterlesen

Prädiktive KI vs. Generative KI: KI-Typen im Vergleich

Was ist der Unterschied zwischen prädiktiver und generativer KI? Erfahren Sie alles über Funktionsweisen, Vorteile und Use Cases beider KI-Technologien.

LoRA vs. QLoRA: Parametereffizientes Fine Tuning erklärt

LoRA und QLoRA ermöglichen LLM-Anpassungen mit minimalen Ressourcen. Erfahren Sie mehr über Speicherersparnis, Quantisierung und die Wahl der richtigen Technik.

Was ist MLOps? Machine Learning Operations einfach erklärt

MLOps optimiert den Lifecycle von ML-Modellen (Machine Learning). Erfahren Sie alles über Workflow-Praktiken, Automatisierung und den Unterschied zu DevOps.

Ressourcen zu KI/ML

Ausgewähltes Produkt

  • Red Hat AI

    Flexible Lösungen, die die Entwicklung und Bereitstellung von KI-Lösungen in Hybrid Cloud-Umgebungen beschleunigen.

Verwandte Artikel