Warum Sie sich mit KI-Inferenz befassen sollten

Einfach ausgedrückt: Ohne Inferenz gibt es keine KI.

Inferenz ist der Kern generativer KI. Doch wenn große Modelle immer umfangreichere Strategien umsetzen sollen, kann es zu Komplikationen kommen.

Deshalb analysieren wir die Herausforderungen und Chancen, die mit KI-Inferenz verbunden sind – von der Modelloptimierung mit vLLM bis hin zu den aktuellsten verteilten Open Source Frameworks wie llm-d.

Roter Würfel in der Mitte, verbunden mit einem Netzwerk aus grauen Knotenpunkten

Die Bedeutung von Inferenz

Inferenz ist der letzte Schritt in einem langen und komplexen Machine Learning-Prozess, bei dem ein Modell die gewünschte Ausgabe bereitstellt.

Vor allem aber ist sie eine für die erfolgreiche Anwendung von KI notwendige Funktion.

Deshalb können Hardware und Software, die Ihre Inferenzfunktionen unterstützen, über Erfolg oder Misserfolg Ihrer KI-Strategie entscheiden.

Das 1x1 der KI-Inferenz

Was passiert nach dem Prompt?

KI-Skalierung mit Open Source

Erste Schritte mit KI-Inferenz

Grafik mit grauen und roten Blöcken, die einen Würfel mit funkelnden KI-Elementen bilden

Hindernisse bei der Skalierung

Aufgrund der immer größer werdenden Modelle gerät die Inferenz unter erheblichen Druck. Je komplexer die Modelle werden, desto langsamer wird die Inferenz.

Für erfolgreiche Inferenz müssen KI-Modelle viele Berechnungen in kurzer Zeit durchführen. Daher können Faktoren wie Modellgröße, hohes Nutzervolumen und Latenz die Performance einschränken.

Wenn Modelle mehr Daten und Speicher benötigen, können Hardware und Beschleuniger nur schwer mithalten.

Überwinden von Grenzen der LLM-Inferenz mit Marlin

Wie KI-Beschleuniger die Inferenz stärken

Schnellere Inferenz mit spekulativer Decodierung

Deployment eines schlanken KI-Modells

66 %

der KI-Rechenressourcen werden voraussichtlich im Jahr 2026 für Inferenzzwecke genutzt werden, ein gestiegener Bedarf im Vergleich zu 33 % im Jahr 2023 und 50 % im Jahr 2025.¹

Verbesserte Inferenz

Durch Optimieren der Inferenz können KI-Modelle schneller und intelligenter ausgeführt werden.

Zu den Optimierungsmethoden gehören eine effizientere Nutzung von GPUs, spekulative Dekodierung, Sparsity, die Komprimierung von Modellen mit Quantisierungstechniken und verteilte Inferenz.

Tools wie LLM Compressor nutzen die aktuellsten Erkenntnisse aus der Forschung zur Modellkomprimierung, um LLMs kleiner, energieeffizienter und schneller zu machen. So lassen sich die Hardwareanforderungen reduzieren und die Effizienz steigern – ohne Verlust an Genauigkeit.

Dank solcher Optimierungen bleibt die KI-Inferenz kosteneffizient und kann so mit Ihren Teams nach und nach skaliert werden.

LLM Compressor: Optimierte LLMs für Deployments mit geringer Latenz

Die Wirtschaftlichkeit von LLM Compressor

LLM Compressor in Produktion

Open Source-Projekt ansehen

> 99 %

Genauigkeit bei Optimierungen mit LLM Compressor²

2-mal

mehr Rechenleistung durch komprimierte Modelle, ohne Verlust an Genauigkeit³

50 %

Kosteneinsparungen ohne Performance-Einbußen bei der Modelloptimierung mit LLM Compressor⁴

Inferenzoptimierung durch vLLM

Das Optimieren von Modellen allein reicht nicht aus. Sie benötigen außerdem eine leistungsstarke Inferenz-Engine. Hier kann vLLM weiterhelfen.

Traditionelle LLM-Speicherverwaltungssysteme organisieren den Speicher nicht besonders effizient. Das führt zur Verlangsamung von LLMs. vLLM nutzt PagedAttention, eine Speicherverwaltungstechnik, die sich wiederholende Schlüsselwerte identifiziert, um den LLMs zusätzliche Arbeit zu ersparen.

So kann vLLM den GPU-Speicher besser nutzen und die generative KI-Inferenz beschleunigen. Dadurch lässt sich der Durchsatz (die Anzahl der pro Sekunde verarbeiteten Tokens) maximieren, um viele Nutzende gleichzeitig zu unterstützen.

Durch den effizienteren Einsatz von Beschleunigern können Modelle mehr Berechnungen in kürzerer Zeit durchführen, sodass Teams mehr Nutzende und Agenten schneller unterstützen können.

Was ist vLLM?

Optimierung von Inferenzen mit vLLM

vLLM: 3 Use Cases aus der Praxis

Effizientere KI mit vLLM

50 %

weniger Parameter bei Verwendung einer Sparsity-Struktur⁵

2,1-fache

Verringerung der Inferenzlatenz durch spekulative Dekodierungstechniken⁶

24-fach

höhere Durchsatz-Performance mit vLLM im Vergleich zu Mitbewerbern⁷

Gründe für die zunehmende Verbreitung von vLLM

vLLM hat dazu beigetragen, die Kernprobleme im Zusammenhang mit einer effizienten GPU-Nutzung zu lösen und niedrigere Kosten pro Token sowie eine stabile Latenz in großem Umfang zu erzielen, und zwar mit einem offenen, portierbaren Deployment-Ansatz.

Deshalb ist die vLLM-Community so aktiv und lebendig. Beiträge stammen von engagierten Unternehmen wie Hugging Face, UC Berkeley, NVIDIA, Red Hat und vielen anderen. Die Community testet und verbessert die Software im Open Source-Projekt kontinuierlich.

Mit Day 0-Support für sämtliche wichtigen Modelle und Beschleuniger ist diese Art der Zugänglichkeit sowohl für die Branche als auch für die Wissenschaft attraktiv.

An der vLLM Community teilnehmen

Für ein vLLM Meetup registrieren

vLLM Office Hours

* Commits sind Aktualisierungen, Änderungen und Speichervorgänge, die am Open Source-Projekt vorgenommen werden, wenn Mitwirkende vLLM an ihre Use Cases anpassen.

über 10.000

vLLM GitHub Commits* – ein Anstieg von über 200 % – im Jahr 2025

Aktueller Stand der vLLM Community

über 500.000

GPUs rund um die Uhr im Einsatz⁸

über 200.000

verschiedene Beschleunigertypen⁹

über 500.000

unterstützte Modellarchitekturen⁹

über 2.200

einzelne Mitwirkende⁹

Einsatzbereiche verteilter Inferenz

Verteilte Inferenz sorgt dafür, dass KI-Modelle die Inferenzarbeit auf eine Gruppe miteinander verbundener Geräte aufteilen können.

Wenn ein Modell verschiedene Anforderungen gleichzeitig erfüllen kann, reduziert dies den Hardwarebedarf erheblich und erhöht die Inferenzeffizienz.

Verteilte Inferenz nutzt Techniken wie Tensorparallelität, intelligente Inferenzplanung und Disaggregation. Durch die Kombination mit vLLM verwandelt sich Inferenz in eine äußerst effiziente Multitasking-Maschine.

So bleibt Inferenz beobachtbar, skalierbar und konsistent.

Was ist verteilte Inferenz?

Einführung in die verteilte Inferenz

3,9-mal

höherer Token-Durchsatz durch Tensorparallelität, eine verteilte Inferenzarchitektur¹⁰

Gibt es dafür eine Open Source Community?

Ja, sie heißt llm-d.

llm-d ist ein Open Source Framework, das Entwicklungsteams einen Blueprint für das Entwickeln verteilter Inferenz in großem Umfang bietet.

Die modulare Architektur unterstützt die komplexen Ressourcenanforderungen anspruchsvoller LLMs und ersetzt manuelle, fragmentierte Prozesse durch integrierte Well-lit Paths, wodurch die Zeit vom Pilotprojekt bis zur Produktion verkürzt wird.

llm-d integriert Inferenz in Kubernetes und bietet ein standardisiertes Toolkit, mit dem Sie verteilte Inferenz auf Ihre individuellen Unternehmensanwendungen anwenden können.

Was ist llm-d?

Mehr zu verteilter Inferenz und llm-d

Warum brauchen wir llm-d?

Schneller Einstieg mit den Well-lit Paths von llm-d

2-fache

QPS (Baseline of Queries Per Second), unterstützt von llm-d¹¹

Weitere KI-Ressourcen

Für Entscheidungstragende

E-Book

Die Fachkräfte von Red Hat AI über Inferenz

E-Book

Agentische KI-Systeme mit Red Hat AI

Blog

Intelligentere KI durch Skalierung der Inferenzzeit

Podcast

Build more efficient AI with vLLM

Artikel

Was ist generative KI?

Artikel

KI-Skalierung im Unternehmen

Blog

Gründe für kostengünstigere Inferenz durch komprimierte Modelle

Für Fachleute

Produkt

Mehr über Red Hat AI Inference Server erfahren

Blog

Kubernetes-native verteilte Inferenz

Blog

Ollama im Vergleich zu vLLM

Video

Build on vLLM with llm-d

PODCAST

Platform engineering for AI agents

Blog

Automatische Skalierung von vLLM mit OpenShift AI

Podcast

Build a production- ready AI toolbox

Blog

Weitere Schritte zur effektiven KI-Einführung in Irland

Podcast

Driving healthcare discoveries with AI

Red Hat AI Inference Server

Beschleunigen Sie die Umsetzung Ihrer LLMs vom Code zur Produktion.

Unsere auf vLLM basierende Inferenz-Engine für Unternehmen ermöglicht schnellere Inferenz ohne Einbußen bei der Performance.

Skalieren Sie Ihre Hybrid Cloud mit Ihrem bevorzugten und optimierten gen KI-Modell, auf beliebigen KI-Beschleunigern und in beliebigen Cloud-Umgebungen.