Red Hat präsentiert branchenführende Ergebnisse der neuesten MLPerf Inference v6.0 Benchmarks, die durch eine enge technische Zusammenarbeit mit NVIDIA entstanden sind. Diese Ergebnisse zeigen: Wenn Sie die führende Position von Red Hat im Bereich Open Source mit der führenden KI-Infrastruktur von NVIDIA kombinieren, erhalten Sie eine vielseitige, bewährte Plattform. Diese ist für die meisten Inferenz-Workloads in Unternehmen bereit – von Bild- und Spracherkennung bis hin zu komplexem Reasoning.
Unsere neuesten Beiträge konzentrierten sich darauf, das Potenzial der Systeme NVIDIA HGX H200 und NVIDIA HGX B200 zu maximieren. Sie belegen, dass die Softwareoptimierung für das Erreichen eines hohen ROI ebenso entscheidend ist wie die reine Rechenleistung.
Ergebnisse auf einen Blick
Über Sprach-, Bildverarbeitungs- und Audiomodelle hinweg lieferte der Stack von Red Hat auf der NVIDIA KI-Infrastruktur erstklassige Ergebnisse bei Durchsatz und Latenz.
Modellkategorie | Modell | GPU-Konfiguration | Szenario | Führende Ergebnisse |
Vision | Qwen3-VL-235B | 8× NVIDIA B200 | Server | 67,9 Samples/Sek. |
Reasoning | GPT-OSS-120B | 8× NVIDIA B200 | Offline | 93.071 Token/Sek. |
Speech | Whisper-Large-v3 | 8× NVIDIA H200 | Offline | 36.396 Token/Sek. |
Qwen3-VL-235B (multimodales Vision-Modell)
Das Modell Qwen3-VL-235B, ein umfangreiches multimodales Vision-Language-Modell mit 235 Milliarden Parametern, stellt Inferenz-Engines aufgrund stark variierender Bildauflösungen vor große Herausforderungen. Durch den Einsatz von NVIDIA Blackwell-GPUs auf Red Hat Enterprise Linux (RHEL) mit vLLM und NVIDIA Dynamo erzielten wir den höchsten Offline-Durchsatz in dieser Klasse. Bemerkenswert ist, dass unser Blackwell-Beitrag den des nächsten Top-Performers im Server-Szenario um 50 % übertraf.
Wichtige technische Erfolge:
- Triton-basierte Verbesserungen: Optimierungen am Vision Encoder führten zu einer 30 bis 40 % schnelleren ViT-Verarbeitung.
- FlashInfer Mixture of Experts (MoE)- Kernels: Diese spezialisierten Kernel verarbeiteten die MoE-Architektur mit extremer Effizienz.
- FP8 Multimodal Attention: Nutzung der fortschrittlichen Datenformate von NVIDIA zur Senkung der Kosten pro Token, ohne an Genauigkeit einzubüßen.
GPT-OSS-120B
Unser Beitrag für GPT-OSS-120B markiert das erste Mal, dass ein Modell dieser Größenordnung auf einer Kubernetes-Infrastruktur für MLPerf getestet wurde. Durch die Nutzung von Red Hat OpenShift AI und dem llm-d Scheduler haben wir demonstriert, dass verteilte Inferenz auf NVIDIA KI-Infrastrukturen (H200- und B200-GPUs) effektiv skaliert und gleichzeitig strenge Latenzanforderungen einhält.
Wir haben eine zweigleisige Strategie eingeführt, um die Inferenzperformance zu optimieren. Erstens identifizierte unsere auf Bayes’scher Optimierung basierende Hyperparameter-Tuning-Pipeline auf OpenShift eine optimale Konfiguration für ein einzelnes Replikat. Diese reduzierte die P99 Time-to-First-Token (TTFT) von 3,4 Sekunden auf 2,1 Sekunden (~38 % Verbesserung) und erfüllte damit das Ziel von unter 3 Sekunden.
Zweitens optimierten wir die Performance von Multi-Replikaten, indem wir unsere Load-Balancing- und Scoring-Strategie verfeinerten. Durch die Analyse der Verteilung von Anfragen auf Replikate verbesserten wir die Auslastung und minimierten die Tail-Latenz, was eine konsistentere Skalierung unter Last ermöglicht.
Whisper large-V3 (Speech-to-Text)
Wir haben Whisper-large-v3-Ergebnisse auf NVIDIA H200- und NVIDIA L40S-GPUs eingereicht, auf denen jeweils Red Hat Enterprise Linux (RHEL) und vLLM ausgeführt werden.
- 8x H200 offline: 36.396 Token pro Sekunde, das führende H200-Ergebnis, 13 % schneller als der nächstbeste Beitrag
- 2x L40S offline: 3.647 Token pro Sekunde, der erste und einzige L40S-Beitrag für Whisper in MLPerf Inference v6.0
Diese Ergebnisse wurden durch eine systematische Ablationsstudie über Konfigurationsparameter hinweg erzielt, um die Optimierungen zu identifizieren, die für die Whisper-Inferenz am wichtigsten sind. Die Optimierung der Batch-Größe lieferte eine Steigerung des Durchsatzes um 40 % durch Maximierung der GPU-Auslastung. Die asynchrone Planung trug weitere 12,8 % durch Eliminierung von CPU-GPU-Synchronisierungsstopps bei und CUDA Graphs sorgten für zusätzliche 6 %. Da L40S in kostensensiblen Umgebungen weit verbreitet ist, zeigen unsere Ergebnisse, dass ein Open Source-Inferenz-Stack eine erstklassige Spracherkennungs-Performance sowohl auf High-End- als auch auf kosteneffizienter Hardware bietet.
Steigerung der Effizienz und des ROI
Der Software-Stack von Red Hat nutzt die NVIDIA-Inferenzsoftware Dynamo sowie vLLM und llm-d von Red Hat AI, um deutliche Effizienzsteigerungen auf der Accelerated Computing-Infrastruktur von NVIDIA zu erzielen. Durch die Optimierung jeder Schicht des Stacks – vom RHEL-Kernel bis hin zu den Inferenz-Engines – unterstützen wir Unternehmen dabei, ihre Kosten pro Token zu senken und den Gesamt-ROI ihrer NVIDIA-Investitionen zu verbessern. Unabhängig davon, ob Sie On-Premises oder in der Cloud bereitstellen, Red Hat bietet eine bewährte, leistungsstarke Basis für die nächste Generation agentischer und multimodaler KI.
Möchten Sie unsere Ergebnisse replizieren? Wir zeigen Ihnen, wie: Repo
Sehen Sie sich die vollständigen Ergebnisse von MLPerf Inference v6.0 unter mlcommons.org an und erfahren Sie mehr über Red Hat AI.
Über den Autor
Ashish Kamra is an accomplished engineering leader with over 15 years of experience managing high-performing teams in AI, machine learning, and cloud computing. He joined Red Hat in March 2017, where he currently serves as the Senior Manager of AI Performance at Red Hat. In this role, Ashish heads up initiatives to optimize performance and scale of Red Hat OpenShift AI - an end to end platform for MLOps, specifically focusing on large language model inference and training performance.
Prior to Red Hat, Ashish held leadership positions at Dell EMC, where he drove the development and integration of enterprise and cloud storage solutions and containerized data services. He also has a strong academic background, having earned a Ph.D. in Computer Engineering from Purdue University in 2010. His research focused on database intrusion detection and response, and he has published several papers in renowned journals and conferences.
Passionate about leveraging technology to drive business impact, Ashish is pursuing a Part-time Global Online MBA at Warwick Business School to complement his technical expertise. In his free time, he enjoys playing table tennis, exploring global cuisines, and traveling the world.
Ähnliche Einträge
Agentische KI erfordert einen neuen Infrastruktur-Stack: AMD und Red Hat bieten eine Lösung
IT-Stack vereinheitlichen: VMs, Cloud und KI vereint
Technically Speaking | Inside open source AI strategy
Technically Speaking | Build a production-ready AI toolbox
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen