Red Hat präsentiert branchenführende Ergebnisse der neuesten MLPerf Inference v6.0 Benchmarks, die durch eine enge technische Zusammenarbeit mit NVIDIA entstanden sind. Diese Ergebnisse zeigen: Wenn Sie die führende Position von Red Hat im Bereich Open Source mit der führenden KI-Infrastruktur von NVIDIA kombinieren, erhalten Sie eine vielseitige, bewährte Plattform. Diese ist für die meisten Inferenz-Workloads in Unternehmen bereit – von Bild- und Spracherkennung bis hin zu komplexem Reasoning.

Unsere neuesten Beiträge konzentrierten sich darauf, das Potenzial der Systeme NVIDIA HGX H200 und NVIDIA HGX B200 zu maximieren. Sie belegen, dass die Softwareoptimierung für das Erreichen eines hohen ROI ebenso entscheidend ist wie die reine Rechenleistung.

Ergebnisse auf einen Blick

Über Sprach-, Bildverarbeitungs- und Audiomodelle hinweg lieferte der Stack von Red Hat auf der NVIDIA KI-Infrastruktur erstklassige Ergebnisse bei Durchsatz und Latenz.

Modellkategorie

Modell

GPU-Konfiguration

Szenario

Führende Ergebnisse

Vision

Qwen3-VL-235B

8× NVIDIA B200

Server

67,9 Samples/Sek. 

Reasoning

GPT-OSS-120B

8× NVIDIA B200

Offline

93.071 Token/Sek.

Speech

Whisper-Large-v3

8× NVIDIA H200

Offline

36.396 Token/Sek. 

Qwen3-VL-235B (multimodales Vision-Modell)

Das Modell Qwen3-VL-235B, ein umfangreiches multimodales Vision-Language-Modell mit 235 Milliarden Parametern, stellt Inferenz-Engines aufgrund stark variierender Bildauflösungen vor große Herausforderungen. Durch den Einsatz von NVIDIA Blackwell-GPUs auf Red Hat Enterprise Linux (RHEL) mit vLLM und NVIDIA Dynamo erzielten wir den höchsten Offline-Durchsatz in dieser Klasse. Bemerkenswert ist, dass unser Blackwell-Beitrag den des nächsten Top-Performers im Server-Szenario um 50 % übertraf.

Wichtige technische Erfolge:

  • Triton-basierte Verbesserungen: Optimierungen am Vision Encoder führten zu einer 30 bis 40 % schnelleren ViT-Verarbeitung.
  • FlashInfer Mixture of Experts (MoE)- Kernels: Diese spezialisierten Kernel verarbeiteten die MoE-Architektur mit extremer Effizienz.
  • FP8 Multimodal Attention: Nutzung der fortschrittlichen Datenformate von NVIDIA zur Senkung der Kosten pro Token, ohne an Genauigkeit einzubüßen.

GPT-OSS-120B

Unser Beitrag für GPT-OSS-120B markiert das erste Mal, dass ein Modell dieser Größenordnung auf einer Kubernetes-Infrastruktur für MLPerf getestet wurde. Durch die Nutzung von Red Hat OpenShift AI und dem llm-d Scheduler haben wir demonstriert, dass verteilte Inferenz auf NVIDIA KI-Infrastrukturen (H200- und B200-GPUs) effektiv skaliert und gleichzeitig strenge Latenzanforderungen einhält.

Wir haben eine zweigleisige Strategie eingeführt, um die Inferenzperformance zu optimieren. Erstens identifizierte unsere auf Bayes’scher Optimierung basierende Hyperparameter-Tuning-Pipeline auf OpenShift eine optimale Konfiguration für ein einzelnes Replikat. Diese reduzierte die P99 Time-to-First-Token (TTFT) von 3,4 Sekunden auf 2,1 Sekunden (~38 % Verbesserung) und erfüllte damit das Ziel von unter 3 Sekunden.

Zweitens optimierten wir die Performance von Multi-Replikaten, indem wir unsere Load-Balancing- und Scoring-Strategie verfeinerten. Durch die Analyse der Verteilung von Anfragen auf Replikate verbesserten wir die Auslastung und minimierten die Tail-Latenz, was eine konsistentere Skalierung unter Last ermöglicht.

Whisper large-V3 (Speech-to-Text)

Wir haben Whisper-large-v3-Ergebnisse auf NVIDIA H200- und NVIDIA L40S-GPUs eingereicht, auf denen jeweils Red Hat Enterprise Linux (RHEL) und vLLM ausgeführt werden.

  • 8x H200 offline: 36.396 Token pro Sekunde, das führende H200-Ergebnis, 13 % schneller als der nächstbeste Beitrag                                           
  • 2x L40S offline: 3.647 Token pro Sekunde, der erste und einzige L40S-Beitrag für Whisper in MLPerf Inference v6.0

Diese Ergebnisse wurden durch eine systematische Ablationsstudie über Konfigurationsparameter hinweg erzielt, um die Optimierungen zu identifizieren, die für die Whisper-Inferenz am wichtigsten sind. Die Optimierung der Batch-Größe lieferte eine Steigerung des Durchsatzes um 40 % durch Maximierung der GPU-Auslastung. Die asynchrone Planung trug weitere 12,8 % durch Eliminierung von CPU-GPU-Synchronisierungsstopps bei und CUDA Graphs sorgten für zusätzliche 6 %. Da L40S in kostensensiblen Umgebungen weit verbreitet ist, zeigen unsere Ergebnisse, dass ein Open Source-Inferenz-Stack eine erstklassige Spracherkennungs-Performance sowohl auf High-End- als auch auf kosteneffizienter Hardware bietet.

Steigerung der Effizienz und des ROI

Der Software-Stack von Red Hat nutzt die NVIDIA-Inferenzsoftware Dynamo sowie vLLM und llm-d von Red Hat AI, um deutliche Effizienzsteigerungen auf der Accelerated Computing-Infrastruktur von NVIDIA zu erzielen. Durch die Optimierung jeder Schicht des Stacks – vom RHEL-Kernel bis hin zu den Inferenz-Engines – unterstützen wir Unternehmen dabei, ihre Kosten pro Token zu senken und den Gesamt-ROI ihrer NVIDIA-Investitionen zu verbessern. Unabhängig davon, ob Sie On-Premises oder in der Cloud bereitstellen, Red Hat bietet eine bewährte, leistungsstarke Basis für die nächste Generation agentischer und multimodaler KI.

Möchten Sie unsere Ergebnisse replizieren? Wir zeigen Ihnen, wie: Repo

Sehen Sie sich die vollständigen Ergebnisse von MLPerf Inference v6.0 unter mlcommons.org an und erfahren Sie mehr über Red Hat AI.


Über den Autor

Ashish Kamra is an accomplished engineering leader with over 15 years of experience managing high-performing teams in AI, machine learning, and cloud computing. He joined Red Hat in March 2017, where he currently serves as the Senior Manager of AI Performance at Red Hat. In this role, Ashish heads up initiatives to optimize performance and scale of Red Hat OpenShift AI - an end to end platform for MLOps, specifically focusing on large language model inference and training performance.

Prior to Red Hat, Ashish held leadership positions at Dell EMC, where he drove the development and integration of enterprise and cloud storage solutions and containerized data services. He also has a strong academic background, having earned a Ph.D. in Computer Engineering from Purdue University in 2010. His research focused on database intrusion detection and response, and he has published several papers in renowned journals and conferences.

Passionate about leveraging technology to drive business impact, Ashish is pursuing a Part-time Global Online MBA at Warwick Business School to complement his technical expertise. In his free time, he enjoys playing table tennis, exploring global cuisines, and traveling the world.

UI_Icon-Red_Hat-Close-A-Black-RGB

Nach Thema durchsuchen

automation icon

Automatisierung

Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen

AI icon

Künstliche Intelligenz

Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen

open hybrid cloud icon

Open Hybrid Cloud

Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.

security icon

Sicherheit

Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren

edge icon

Edge Computing

Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen

Infrastructure icon

Infrastruktur

Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen

application development icon

Anwendungen

Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen

Virtualization icon

Virtualisierung

Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen