Red Hat und NVIDIA: Standards für leistungsstarke KI-Inferenz setzen

2. April 20263 Minuten (Lesedauer)AI inference, KI/ML, Partner

Senior Manager, Software Engineering

Red Hat präsentiert branchenführende Ergebnisse der neuesten MLPerf Inference v6.0 Benchmarks, die durch eine enge technische Zusammenarbeit mit NVIDIA entstanden sind. Diese Ergebnisse zeigen: Wenn Sie die führende Position von Red Hat im Bereich Open Source mit der führenden KI-Infrastruktur von NVIDIA kombinieren, erhalten Sie eine vielseitige, bewährte Plattform. Diese ist für die meisten Inferenz-Workloads in Unternehmen bereit – von Bild- und Spracherkennung bis hin zu komplexem Reasoning.

Unsere neuesten Beiträge konzentrierten sich darauf, das Potenzial der Systeme NVIDIA HGX H200 und NVIDIA HGX B200 zu maximieren. Sie belegen, dass die Softwareoptimierung für das Erreichen eines hohen ROI ebenso entscheidend ist wie die reine Rechenleistung.

Ergebnisse auf einen Blick

Über Sprach-, Bildverarbeitungs- und Audiomodelle hinweg lieferte der Stack von Red Hat auf der NVIDIA KI-Infrastruktur erstklassige Ergebnisse bei Durchsatz und Latenz.

Modellkategorie	Modell	GPU-Konfiguration	Szenario	Führende Ergebnisse
Vision	Qwen3-VL-235B	8× NVIDIA B200	Server	67,9 Samples/Sek.
Reasoning	GPT-OSS-120B	8× NVIDIA B200	Offline	93.071 Token/Sek.
Speech	Whisper-Large-v3	8× NVIDIA H200	Offline	36.396 Token/Sek.

Qwen3-VL-235B (multimodales Vision-Modell)

Das Modell Qwen3-VL-235B, ein umfangreiches multimodales Vision-Language-Modell mit 235 Milliarden Parametern, stellt Inferenz-Engines aufgrund stark variierender Bildauflösungen vor große Herausforderungen. Durch den Einsatz von NVIDIA Blackwell-GPUs auf Red Hat Enterprise Linux (RHEL) mit vLLM und NVIDIA Dynamo erzielten wir den höchsten Offline-Durchsatz in dieser Klasse. Bemerkenswert ist, dass unser Blackwell-Beitrag den des nächsten Top-Performers im Server-Szenario um 50 % übertraf.

Wichtige technische Erfolge:

Triton-basierte Verbesserungen: Optimierungen am Vision Encoder führten zu einer 30 bis 40 % schnelleren ViT-Verarbeitung.
FlashInfer Mixture of Experts (MoE)- Kernels: Diese spezialisierten Kernel verarbeiteten die MoE-Architektur mit extremer Effizienz.
FP8 Multimodal Attention: Nutzung der fortschrittlichen Datenformate von NVIDIA zur Senkung der Kosten pro Token, ohne an Genauigkeit einzubüßen.

GPT-OSS-120B

Unser Beitrag für GPT-OSS-120B markiert das erste Mal, dass ein Modell dieser Größenordnung auf einer Kubernetes-Infrastruktur für MLPerf getestet wurde. Durch die Nutzung von Red Hat OpenShift AI und dem llm-d Scheduler haben wir demonstriert, dass verteilte Inferenz auf NVIDIA KI-Infrastrukturen (H200- und B200-GPUs) effektiv skaliert und gleichzeitig strenge Latenzanforderungen einhält.

Wir haben eine zweigleisige Strategie eingeführt, um die Inferenzperformance zu optimieren. Erstens identifizierte unsere auf Bayes’scher Optimierung basierende Hyperparameter-Tuning-Pipeline auf OpenShift eine optimale Konfiguration für ein einzelnes Replikat. Diese reduzierte die P99 Time-to-First-Token (TTFT) von 3,4 Sekunden auf 2,1 Sekunden (~38 % Verbesserung) und erfüllte damit das Ziel von unter 3 Sekunden.

Zweitens optimierten wir die Performance von Multi-Replikaten, indem wir unsere Load-Balancing- und Scoring-Strategie verfeinerten. Durch die Analyse der Verteilung von Anfragen auf Replikate verbesserten wir die Auslastung und minimierten die Tail-Latenz, was eine konsistentere Skalierung unter Last ermöglicht.

Whisper large-V3 (Speech-to-Text)

Wir haben Whisper-large-v3-Ergebnisse auf NVIDIA H200- und NVIDIA L40S-GPUs eingereicht, auf denen jeweils Red Hat Enterprise Linux (RHEL) und vLLM ausgeführt werden.

8x H200 offline: 36.396 Token pro Sekunde, das führende H200-Ergebnis, 13 % schneller als der nächstbeste Beitrag
2x L40S offline: 3.647 Token pro Sekunde, der erste und einzige L40S-Beitrag für Whisper in MLPerf Inference v6.0

Diese Ergebnisse wurden durch eine systematische Ablationsstudie über Konfigurationsparameter hinweg erzielt, um die Optimierungen zu identifizieren, die für die Whisper-Inferenz am wichtigsten sind. Die Optimierung der Batch-Größe lieferte eine Steigerung des Durchsatzes um 40 % durch Maximierung der GPU-Auslastung. Die asynchrone Planung trug weitere 12,8 % durch Eliminierung von CPU-GPU-Synchronisierungsstopps bei und CUDA Graphs sorgten für zusätzliche 6 %. Da L40S in kostensensiblen Umgebungen weit verbreitet ist, zeigen unsere Ergebnisse, dass ein Open Source-Inferenz-Stack eine erstklassige Spracherkennungs-Performance sowohl auf High-End- als auch auf kosteneffizienter Hardware bietet.

Steigerung der Effizienz und des ROI

Der Software-Stack von Red Hat nutzt die NVIDIA-Inferenzsoftware Dynamo sowie vLLM und llm-d von Red Hat AI, um deutliche Effizienzsteigerungen auf der Accelerated Computing-Infrastruktur von NVIDIA zu erzielen. Durch die Optimierung jeder Schicht des Stacks – vom RHEL-Kernel bis hin zu den Inferenz-Engines – unterstützen wir Unternehmen dabei, ihre Kosten pro Token zu senken und den Gesamt-ROI ihrer NVIDIA-Investitionen zu verbessern. Unabhängig davon, ob Sie On-Premises oder in der Cloud bereitstellen, Red Hat bietet eine bewährte, leistungsstarke Basis für die nächste Generation agentischer und multimodaler KI.

Möchten Sie unsere Ergebnisse replizieren? Wir zeigen Ihnen, wie: Repo

Sehen Sie sich die vollständigen Ergebnisse von MLPerf Inference v6.0 unter mlcommons.org an und erfahren Sie mehr über Red Hat AI.

Über den Autor

Ashish Kamra

Senior Manager, Software Engineering

Ashish Kamra is an accomplished engineering leader with over 15 years of experience managing high-performing teams in AI, machine learning, and cloud computing. He joined Red Hat in March 2017, where he currently serves as the Senior Manager of AI Performance at Red Hat. In this role, Ashish heads up initiatives to optimize performance and scale of Red Hat OpenShift AI - an end to end platform for MLOps, specifically focusing on large language model inference and training performance.

Prior to Red Hat, Ashish held leadership positions at Dell EMC, where he drove the development and integration of enterprise and cloud storage solutions and containerized data services. He also has a strong academic background, having earned a Ph.D. in Computer Engineering from Purdue University in 2010. His research focused on database intrusion detection and response, and he has published several papers in renowned journals and conferences.

Passionate about leveraging technology to drive business impact, Ashish is pursuing a Part-time Global Online MBA at Warwick Business School to complement his technical expertise. In his free time, he enjoys playing table tennis, exploring global cuisines, and traveling the world.

Nach Thema durchsuchen

Entdecken Sie alle Themen

Red Hat und NVIDIA: Standards für leistungsstarke KI-Inferenz setzen

Ergebnisse auf einen Blick

Qwen3-VL-235B (multimodales Vision-Modell)

GPT-OSS-120B

Whisper large-V3 (Speech-to-Text)

Steigerung der Effizienz und des ROI

Über den Autor

Ashish Kamra

Ähnliche Einträge

Nach Thema durchsuchen

Plattformen

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Sprache auswählen

Red Hat legal and privacy links

Red Hat legal and privacy links