Red Hat et NVIDIA : établir les normes pour l'inférence d'IA haute performance

2 avril 2026Ashish Kamra3 minutes (temps de lecture)

Red Hat annonce avec fierté les résultats des derniers tests de performance MLPerf Inference v6.0, obtenus grâce à une étroite collaboration d’ingénierie avec NVIDIA. Ces résultats démontrent que l'association du leadership de Red Hat en matière d'open source avec l'infrastructure d'IA de NVIDIA permet de créer une plateforme polyvalente et éprouvée, prête pour toutes les charges de travail d'inférence en entreprise, de la vision à la reconnaissance vocale en passant par le raisonnement complexe.

Nos dernières contributions visaient à maximiser le potentiel des systèmes NVIDIA HGX H200 et NVIDIA HGX B200, prouvant que l'optimisation logicielle s'avère aussi cruciale que la puissance brute pour atteindre un ROI optimal.

Aperçu des résultats

Pour les modèles de langage, de vision et de reconnaissance vocale, la pile logicielle de Red Hat a produit d'excellents résultats en matière de débit et de latence sur l'infrastructure d'IA NVIDIA.

Catégorie de modèle	Modèle	Configuration du GPU	Scénario	Principaux résultats
Vision	Qwen3-VL-235B	8 × NVIDIA B200	Serveur	67,9 échantillons/s
Raisonnement	GPT-OSS-120B	8 × NVIDIA B200	Hors ligne	93 071 tokens/s
Reconnaissance vocale	Whisper-Large-v3	8 × NVIDIA H200	Hors ligne	36 396 tokens/s

Qwen3-VL-235B (modèle de vision multimodal)

Le modèle Qwen3-VL-235B, un modèle de langage de vision multimodal de 235 milliards de paramètres, représente un défi de taille pour les moteurs d'inférence en raison de la résolution très variable des images. Grâce aux GPU NVIDIA Blackwell exécutés sur Red Hat Enterprise Linux (RHEL) avec vLLM et NVIDIA Dynamo, nous avons atteint un débit hors ligne de premier plan. Notre configuration Blackwell a surpassé de 50 % le deuxième meilleur résultat dans le scénario Serveur.

Succès clés de l'ingénierie :

Améliorations basées sur Triton : L'optimisation de l'encodeur de vision a permis d'accélérer le traitement ViT de 30 à 40 %.
Noyaux FlashInfer Mixture-of-Experts (MoE) : Ces noyaux spécialisés ont géré l'architecture MoE avec une grande efficacité.
Attention multimodale FP8 : L'exploitation des formats de données avancés de NVIDIA permet de réduire le coût par token sans sacrifier la précision.

GPT-OSS-120B

Notre configuration GPT-OSS-120B marque la première évaluation MLPerf d’un modèle de cette envergure sur une infrastructure Kubernetes. En utilisant Red Hat OpenShift AI et l'ordonnanceur llm-d, nous avons démontré que l'inférence distribuée peut évoluer efficacement sur l'infrastructure d'IA NVIDIA (GPU H200 et B200) tout en respectant des exigences de latence strictes.

Nous avons adopté une stratégie à deux volets pour optimiser les performances d'inférence. Premièrement, notre pipeline de réglage des hyperparamètres basé sur l'optimisation bayésienne sur OpenShift a identifié une configuration optimale pour un réplica unique. Cela a réduit le délai du premier token (TTFT) P99 de 3,4 secondes à 2,1 secondes (une amélioration d'environ 38 %), atteignant ainsi l'objectif de moins de 3 s.

Deuxièmement, nous avons optimisé les performances multi-réplicas en affinant notre stratégie d'équilibrage de charge et d'évaluation. L'analyse de la distribution des requêtes entre les réplicas a permis d'améliorer l'utilisation et de minimiser la latence de fin de distribution, favorisant une mise à l'échelle plus cohérente sous charge.

Whisper large-V3 (reconnaissance vocale)

Nous avons soumis les résultats de Whisper-large-v3 sur les GPU NVIDIA H200 et NVIDIA L40S, tous deux exécutant Red Hat Enterprise Linux (RHEL) et vLLM.

8x H200 hors ligne : 36 396 tokens par seconde, soit le meilleur résultat pour le H200, dépassant de 13 % la soumission suivante.
2x L40S hors ligne : 3 647 tokens par seconde, ce qui constitue la première et l'unique soumission L40S pour Whisper dans MLPerf Inference v6.0.

Une étude d'ablation systématique des paramètres de configuration a permis d'obtenir ces résultats en identifiant les optimisations les plus importantes pour l'inférence Whisper. L'ajustement de la taille des lots a généré un gain de débit de 40 % en maximisant l'utilisation du GPU, l'ordonnancement asynchrone a contribué à hauteur de 12,8 % supplémentaires en éliminant les blocages de synchronisation CPU-GPU, et la fonctionnalité CUDA Graphs ont apporté 6 % de plus. Comme le modèle L40S est largement déployé dans des environnements soucieux des coûts, nos résultats démontrent qu'une pile d'inférence open source offre des performances de reconnaissance vocale de premier plan sur du matériel haut de gamme comme sur du matériel plus rentable.

Amélioration de l'efficacité et du ROI

La pile logicielle de Red Hat utilise le logiciel d'inférence NVIDIA Dynamo ainsi que vLLM et llm-d de Red Hat AI pour réaliser des gains d'efficacité significatifs sur l'infrastructure de calcul accéléré NVIDIA. L'optimisation de chaque couche de la pile logicielle, du noyau RHEL aux moteurs d'inférence, aide les entreprises à réduire leur coût par token et à améliorer le ROI global de leurs investissements NVIDIA. Que vous effectuiez vos déploiements sur site ou dans le cloud, Red Hat fournit une base éprouvée et performante pour la prochaine génération d'IA agentique et multimodale.

Souhaitez-vous reproduire nos résultats ? Voici la procédure à suivre : Repo

Consultez les résultats complets de MLPerf Inference v6.0 sur mlcommons.org et découvrez Red Hat AI.

À propos de l'auteur

Ashish Kamra

Senior Manager, Software Engineering

Ashish Kamra is an accomplished engineering leader with over 15 years of experience managing high-performing teams in AI, machine learning, and cloud computing. He joined Red Hat in March 2017, where he currently serves as the Senior Manager of AI Performance at Red Hat. In this role, Ashish heads up initiatives to optimize performance and scale of Red Hat OpenShift AI - an end to end platform for MLOps, specifically focusing on large language model inference and training performance.

Prior to Red Hat, Ashish held leadership positions at Dell EMC, where he drove the development and integration of enterprise and cloud storage solutions and containerized data services. He also has a strong academic background, having earned a Ph.D. in Computer Engineering from Purdue University in 2010. His research focused on database intrusion detection and response, and he has published several papers in renowned journals and conferences.

Passionate about leveraging technology to drive business impact, Ashish is pursuing a Part-time Global Online MBA at Warwick Business School to complement his technical expertise. In his free time, he enjoys playing table tennis, exploring global cuisines, and traveling the world.

Read full bio