Red Hat e NVIDIA: definição de padrões para inferência de IA de alto desempenho

2 de abril de 20263 minutos (tempo de leitura)AI inference, Inteligência artificial, Parceiros

Senior Manager, Software Engineering

A Red Hat tem o prazer de anunciar resultados líderes do setor nos benchmarks MLPerf Inference v6.0 mais recentes, alcançados por meio de um co-projeto de engenharia profunda com a NVIDIA. Esses resultados demonstram que, ao combinar a liderança em open source da Red Hat com a infraestrutura de IA líder da NVIDIA, o resultado é uma plataforma versátil e comprovada, pronta para qualquer carga de trabalho de inferência empresarial: desde visão e fala até raciocínio complexo.

Nossas submissões mais recentes se concentraram em maximizar o potencial dos sistemas NVIDIA HGX H200 e NVIDIA HGX B200, provando que a otimização de software é tão crítica quanto a potência bruta para alcançar o ROI máximo.

Resultados gerais

Em modelos de linguagem, visão e fala, o stack da Red Hat entregou resultados de throughput e latência de alto nível na infraestrutura de IA da NVIDIA.

Categoria do modelo	Modelo	Configuração de GPU	Cenário	Resultados líderes
Visão	Qwen3-VL-235B	8× NVIDIA B200	Server	67,9 amostras/seg
Raciocínio	GPT-OSS-120B	8× NVIDIA B200	offline	93.071 tokens/seg
Fala	Whisper-Large-v3	8× NVIDIA H200	offline	36.396 tokens/seg

Qwen3-VL-235B (modelo de visão multimodal)

O modelo Qwen3-VL-235B, um enorme modelo de linguagem de visão multimodal de 235 bilhões de parâmetros, representa um desafio significativo para mecanismos de inferência devido às resoluções de imagem altamente variáveis. Ao utilizar GPUs NVIDIA Blackwell executadas no Red Hat Enterprise Linux (RHEL) com o vLLM e o NVIDIA Dynamo, alcançamos a maior taxa de transferência offline da nossa categoria. Notavelmente, nossa submissão do Blackwell excedeu o próximo melhor desempenho em 50% no cenário Server.

Melhorias baseadas no Triton:

Melhorias baseadas no Triton: otimizações no codificador de visão resultaram em um processamento de ViT 30-40% mais rápido.
Kernels FlashInfer Mixture-of-Experts (MoE): esses kernels especializados processaram a arquitetura MoE com extrema eficiência.
FP8 Multimodal Attention: aproveite os formatos de dados avançados da NVIDIA para reduzir o custo por token sem sacrificar a precisão.

GPT-OSS-120B

Nossa submissão para o GPT-OSS-120B marca a primeira vez que um modelo dessa escala é avaliado em infraestrutura Kubernetes para o MLPerf. Ao usar o Red Hat OpenShift AI e o scheduler llm-d, demonstramos que a inferência distribuída pode escalar de forma eficaz na infraestrutura de Red Hat AI (GPUs H200 e B200) mantendo requisitos rigorosos de latência.

Adotamos uma estratégia de duas frentes para otimizar o desempenho da inferência. Primeiro, nosso pipeline de ajuste de hiperparâmetros baseado em otimização bayesiana no OpenShift identificou uma configuração ideal para uma única réplica. Isso reduziu o tempo para o primeiro token (TTFT) P99 de 3,4 segundos para 2,1 segundos (melhoria de ~38%), atingindo a meta de sub-3s.

Segundo, otimizamos o desempenho de múltiplas réplicas ao refinar nossa estratégia de balanceamento de carga e pontuação. Ao analisar a distribuição de solicitações entre as réplicas, melhoramos a utilização e minimizamos a latência de cauda, o que permitiu um escalonamento mais consistente sob carga.

Whisper large-V3 (speech-to-text)

Enviamos os resultados do Whisper-large-v3 em GPUs NVIDIA H200 e NVIDIA L40S, ambas executando Red Hat Enterprise Linux (RHEL) e vLLM.

8x H200 offline: 36.396 tokens por segundo, o principal resultado do H200, 13% mais rápido que a submissão seguinte
2x L40S offline: 3.647 tokens por segundo, a primeira e única submissão de L40S para Whisper no MLPerf Inference v6.0

Esses resultados foram impulsionados por um estudo de ablação sistemático em parâmetros de configuração para identificar as otimizações mais importantes para a inferência do Whisper. O ajuste do tamanho do lote gerou um ganho de 40% na taxa de transferência ao maximizar a utilização da GPU. O agendamento assíncrono contribuiu com mais 12,8% ao eliminar interrupções de sincronização CPU-GPU, e o CUDA Graphs forneceu 6% adicionais. Com a L40S amplamente implementada em ambientes sensíveis a custos, nossos resultados comprovam que um stack de inferência open source oferece desempenho de reconhecimento de fala de classe mundial em hardwares avançados e econômicos.

Aumente a eficiência e o ROI

O stack de software da Red Hat utiliza o software de inferência NVIDIA Dynamo, o vLLM da Red Hat AI e o llm-d para entregar ganhos significativos de eficiência na infraestrutura de computação acelerada da NVIDIA. Ao otimizar cada camada do stack — do kernel do RHEL aos mecanismos de inferência — auxiliamos as empresas a reduzir o custo por token e a melhorar o ROI geral em seus investimentos na NVIDIA. Independentemente de a implementação ser on-premises ou na nuvem, a Red Hat oferece uma base comprovada e de alto desempenho para a próxima geração de IA de agentes e multimodal.

Quer replicar nossos resultados? Veja como… Repo

Confira os resultados completos do MLPerf Inference v6.0 em mlcommons.org e saiba mais sobre o Red Hat AI.

Sobre o autor

Ashish Kamra

Senior Manager, Software Engineering

Ashish Kamra is an accomplished engineering leader with over 15 years of experience managing high-performing teams in AI, machine learning, and cloud computing. He joined Red Hat in March 2017, where he currently serves as the Senior Manager of AI Performance at Red Hat. In this role, Ashish heads up initiatives to optimize performance and scale of Red Hat OpenShift AI - an end to end platform for MLOps, specifically focusing on large language model inference and training performance.

Prior to Red Hat, Ashish held leadership positions at Dell EMC, where he drove the development and integration of enterprise and cloud storage solutions and containerized data services. He also has a strong academic background, having earned a Ph.D. in Computer Engineering from Purdue University in 2010. His research focused on database intrusion detection and response, and he has published several papers in renowned journals and conferences.

Passionate about leveraging technology to drive business impact, Ashish is pursuing a Part-time Global Online MBA at Warwick Business School to complement his technical expertise. In his free time, he enjoys playing table tennis, exploring global cuisines, and traveling the world.