Red Hat AI Inference Server

Red Hat AI Inference Server optimiert Inferenz in der Hybrid Cloud für schnellere, kostengünstigere Modellbereitstellungen.

Jetzt testen

Sprechen Sie mit Red Hat

Entdecken Sie das aktuelle Release

Was ist ein Inferenzserver?

Ein Inferenzserver ist die Software, die es KI-Anwendungen ermöglicht, mit LLMs (Large Language Models) zu kommunizieren und auf der Grundlage von Daten eine Antwort zu generieren. Dieser Prozess wird als Inferenz bezeichnet. Dies ist der Punkt, an dem das zu liefernde Ergebnis und damit der geschäftliche Mehrwert entstehen.

Für eine effiziente Funktion benötigen LLMs viel Speicherplatz, Arbeitsspeicher und eine umfassende Infrastruktur, um Inferenzen in großem Umfang zu ermöglichen. Daher kann dies den Großteil Ihres Budgets in Anspruch nehmen.

Als Teil der Red Hat AI Plattform optimiert Red Hat AI Inference Server die Inferenzfunktionen, um die ansonsten hohen Kosten und die umfangreiche Infrastruktur zu reduzieren.

Mehr über KI-Inferenz erfahren

Schnelle, kostengünstige KI-Inferenz mit Red Hat AI Inference Server. Dauer des Videos: 2:28

Bildschirmfoto einer interaktiven Demo mit einer Befehlszeile und folgendem Prompt: „Diese Modelle sind für die Ausführung auf Red Hat AI Inference Server optimiert. Sie können sie nach Bedarf mit einer standardisierten API bereitstellen, unabhängig davon, ob es sich um Red Hat Produkte, von Red Hat unabhängiges Kubernetes oder Linux-Umgebungen handelt.“

Einführung zu Red Hat AI Inference Server

Wie funktioniert Red Hat AI Inference Server?

Red Hat AI Inference Server ermöglicht schnelle und kostengünstige Inferenzen in großem Umfang. Dank des Open Source-Charakters werden beliebige gen KI-Modelle (generative KI) auf verschiedenen KI-Beschleunigern und in beliebigen Cloud-Umgebungen unterstützt.

Der auf vLLM basierende Inferenzserver maximiert die GPU-Nutzung und ermöglicht schnellere Reaktionszeiten. In Kombination mit LLM Compressor wird die Inferenzeffizienz ohne Einbußen bei der Performance gesteigert. Durch die plattformübergreifende Anpassungsfähigkeit und eine wachsende Mitwirkung der Community entwickeln sich vLLMs zum Linux® im Bereich der gen KI-Inferenz.

3 reale Use Cases für vLLM ansehen

50 %

Einige Kunden, die LLM Compressor eingesetzt haben, konnten 50 % der Kosten einsparen, ohne Abstriche bei der Performance hinnehmen zu müssen.*

* Zelenović, Saša. „Das volle Potenzial von LLMs ausschöpfen: Optimieren Sie die Performance mit vLLM.“ Red Hat Blog, 27. Feb. 2025

Ihre Modelle – Ihre Wahl

Red Hat AI Inference Server unterstützt führende Open Source-Modelle und gewährleistet eine flexible GPU-Portabilität. Sie erhalten die Flexibilität, beliebige gen KI-Modelle zu verwenden und aus unserer optimierten Sammlung von validierten Open Source-Modellen von Drittanbietern auszuwählen.

Darüber hinaus ist Red Hat AI Inference Server als Teil von Red Hat AI für die Produkte von Red Hat zertifiziert. Es kann auch auf anderen Linux- und Kubernetes-Plattformen eingesetzt werden, die im Rahmen der Support-Richtlinie für Drittanbieter von Red Hat unterstützt werden.

Mehr über das Modell-Repository auf Hugging Face erfahren

Features und Vorteile

Produktdokumentation anfordern | Datenblatt herunterladen

Gesteigerte Effizienz mit vLLM

vLLM ermöglicht effiziente Modellinferenz durch effiziente Speicherverwendung und optimierte GPU-Nutzung. Optimieren Sie mit vLLM die Bereitstellung verschiedener gen KI-Modelle auf beliebigen KI-Beschleunigern.

LLM Compressor

Komprimieren Sie Modelle beliebiger Größe, um die Auslastung von Rechnern und die damit verbundenen Kosten zu reduzieren und gleichzeitig eine hohe Modellgenauigkeit beizubehalten.

Flexibilität der Hybrid Cloud

Behalten Sie die Portabilität über verschiedene GPUs hinweg bei und führen Sie Modelle vor Ort, in der Cloud oder am Netzwerkrand aus.

Red Hat AI Repository

Validierte und optimierte Modelle von Drittanbietern sind für ein Deployment von Inferenzen bereit und erreichen so eine schnellere Wertschöpfung und geringere Kosten.

Red Hat AI Repository auf Hugging Face

Red Hat AI Support

Als einer der größten kommerziellen Mitwirkenden an vLLM verfügen wir über ein umfassendes Verständnis dieser Technologie. Unsere KI-Consultants verfügen über die vLLM-Expertise, um Sie beim Erreichen der KI-Ziele in Ihrem Unternehmen unterstützen zu können.

Mehr zu Red Hat AI Consulting

Erwerben

Red Hat AI Inference Server ist als Standalone-Produkt oder als Teil von Red Hat AI verfügbar. Die Software ist in Red Hat Enterprise Linux® AI und in Red Hat OpenShift® AI enthalten.

Sprechen Sie mit Red Hat

Deployment mit Partnern

Fachleute und Technologien werden zusammengeführt, damit unsere Kunden mit KI mehr erreichen können. Sehen Sie sich die Partner an, die mit Red Hat zusammenarbeiten, um ihre Kompatibilität mit unseren Lösungen zu zertifizieren.

Red Hat AI Partner anzeigen

Weitere KI Success Stories vom Red Hat Summit und AnsibleFest 2025

Informieren Sie sich über die Highlights des Summit 2025

Turkish Airlines verdoppelte die Geschwindigkeit der Bereitstellung durch unternehmensweiten Zugang zu Daten.

JCCM konnte die Prozesse zur Umweltverträglichkeitsprüfung (UVP) in der Region mithilfe von KI verbessern.

Die Denizbank verkürzte die Markteinführungszeiten von Tagen auf wenige Minuten.

Hitachi hat KI in seinem gesamten Unternehmen mit Red Hat OpenShift AI operationalisiert.

Häufig gestellte Fragen

Muss ich Red Hat Enterprise Linux AI oder Red Hat OpenShift AI erwerben, um Red Hat AI Inference Server verwenden zu können?

Nein. Sie können Red Hat AI Inference Server als ein Standalone-Produkt von Red Hat erwerben.

Muss ich Red Hat AI Inference Server erwerben, um Red Hat Enterprise Linux AI verwenden zu können?

Nein. Red Hat AI Inference Server ist beim Kauf von Red Hat Enterprise Linux AI und Red Hat OpenShift AI enthalten.

Kauf von Red Hat Enterprise Linux AI

Kann Red Hat AI Inference Server unter Red Hat Enterprise Linux oder Red Hat OpenShift ausgeführt werden?

Ja, das ist möglich. Im Rahmen unserer Vereinbarung mit Drittanbietern kann es auch auf Linux-Umgebungen von Drittanbietern ausgeführt werden.

Welche Kosten fallen für Red Hat AI Inference Server an?

Die Kosten werden pro Beschleuniger berechnet.

Individuelle KI-Lösungen für Ihre Anforderungen

Generative KI

Neue Inhalte wie Text und Softwarecode produzieren

Mit Red Hat AI können Sie die generativen KI-Modelle Ihrer Wahl schneller, mit weniger Ressourcen und geringeren Inferenzkosten ausführen.

Mehr über generative KI mit Red Hat AI erfahren

Prädiktive KI

Muster erkennen und zukünftige Ergebnisse prognostizieren

Mit Red Hat AI können Unternehmen prädiktive Modelle entwickeln, trainieren, bereitstellen und überwachen und dabei die Konsistenz in der Hybrid Cloud wahren.

Mehr über prädiktive KI mit Red Hat AI erfahren

Operationalisierte KI

Systeme entwickeln, die die Wartung und Bereitstellung von KI in großem Umfang unterstützen

Mit Red Hat AI können Sie den Lifecycle von KI-fähigen Anwendungen managen und überwachen, gleichzeitig Ressourcen einsparen und die Compliance mit Datenschutzbestimmungen sicherstellen.

Erfahren Sie mehr über operationalisierte KI mit Red Hat AI

Agentische KI

Entwickeln Sie Workflows, die komplexe Aufgaben unter eingeschränkter Überwachung ausführen.

Red Hat AI bietet einen flexiblen Ansatz und eine stabile Basis für die Entwicklung, Verwaltung und Bereitstellung agentischer KI-Workflows in vorhandenen Anwendungen.

Mehr über agentische KI mit Red Hat AI erfahren