A Red Hat tem o prazer de anunciar resultados líderes do setor nos benchmarks MLPerf Inference v6.0 mais recentes, alcançados por meio de um co-projeto de engenharia profunda com a NVIDIA. Esses resultados demonstram que, ao combinar a liderança em open source da Red Hat com a infraestrutura de IA líder da NVIDIA, o resultado é uma plataforma versátil e comprovada, pronta para qualquer carga de trabalho de inferência empresarial: desde visão e fala até raciocínio complexo.

Nossas submissões mais recentes se concentraram em maximizar o potencial dos sistemas NVIDIA HGX H200 e NVIDIA HGX B200, provando que a otimização de software é tão crítica quanto a potência bruta para alcançar o ROI máximo.

Resultados gerais

Em modelos de linguagem, visão e fala, o stack da Red Hat entregou resultados de throughput e latência de alto nível na infraestrutura de IA da NVIDIA.

Categoria do modelo

Modelo

Configuração de GPU

Cenário

Resultados líderes

Visão

Qwen3-VL-235B

8× NVIDIA B200

Server

67,9 amostras/seg 

Raciocínio

GPT-OSS-120B

8× NVIDIA B200

offline

93.071 tokens/seg

Fala

Whisper-Large-v3

8× NVIDIA H200

offline

36.396 tokens/seg 

Qwen3-VL-235B (modelo de visão multimodal)

O modelo Qwen3-VL-235B, um enorme modelo de linguagem de visão multimodal de 235 bilhões de parâmetros, representa um desafio significativo para mecanismos de inferência devido às resoluções de imagem altamente variáveis. Ao utilizar GPUs NVIDIA Blackwell executadas no Red Hat Enterprise Linux (RHEL) com o vLLM e o NVIDIA Dynamo, alcançamos a maior taxa de transferência offline da nossa categoria. Notavelmente, nossa submissão do Blackwell excedeu o próximo melhor desempenho em 50% no cenário Server.

Melhorias baseadas no Triton:

  • Melhorias baseadas no Triton: otimizações no codificador de visão resultaram em um processamento de ViT 30-40% mais rápido.
  • Kernels FlashInfer Mixture-of-Experts (MoE): esses kernels especializados processaram a arquitetura MoE com extrema eficiência.
  • FP8 Multimodal Attention: aproveite os formatos de dados avançados da NVIDIA para reduzir o custo por token sem sacrificar a precisão.

GPT-OSS-120B

Nossa submissão para o GPT-OSS-120B marca a primeira vez que um modelo dessa escala é avaliado em infraestrutura Kubernetes para o MLPerf. Ao usar o Red Hat OpenShift AI e o scheduler llm-d, demonstramos que a inferência distribuída pode escalar de forma eficaz na infraestrutura de Red Hat AI (GPUs H200 e B200) mantendo requisitos rigorosos de latência.

Adotamos uma estratégia de duas frentes para otimizar o desempenho da inferência. Primeiro, nosso pipeline de ajuste de hiperparâmetros baseado em otimização bayesiana no OpenShift identificou uma configuração ideal para uma única réplica. Isso reduziu o tempo para o primeiro token (TTFT) P99 de 3,4 segundos para 2,1 segundos (melhoria de ~38%), atingindo a meta de sub-3s.

Segundo, otimizamos o desempenho de múltiplas réplicas ao refinar nossa estratégia de balanceamento de carga e pontuação. Ao analisar a distribuição de solicitações entre as réplicas, melhoramos a utilização e minimizamos a latência de cauda, o que permitiu um escalonamento mais consistente sob carga.

Whisper large-V3 (speech-to-text)

Enviamos os resultados do Whisper-large-v3 em GPUs NVIDIA H200 e NVIDIA L40S, ambas executando Red Hat Enterprise Linux (RHEL) e vLLM.

  • 8x H200 offline: 36.396 tokens por segundo, o principal resultado do H200, 13% mais rápido que a submissão seguinte                                           
  • 2x L40S offline: 3.647 tokens por segundo, a primeira e única submissão de L40S para Whisper no MLPerf Inference v6.0

Esses resultados foram impulsionados por um estudo de ablação sistemático em parâmetros de configuração para identificar as otimizações mais importantes para a inferência do Whisper. O ajuste do tamanho do lote gerou um ganho de 40% na taxa de transferência ao maximizar a utilização da GPU. O agendamento assíncrono contribuiu com mais 12,8% ao eliminar interrupções de sincronização CPU-GPU, e o CUDA Graphs forneceu 6% adicionais. Com a L40S amplamente implementada em ambientes sensíveis a custos, nossos resultados comprovam que um stack de inferência open source oferece desempenho de reconhecimento de fala de classe mundial em hardwares avançados e econômicos.

Aumente a eficiência e o ROI

O stack de software da Red Hat utiliza o software de inferência NVIDIA Dynamo, o vLLM da Red Hat AI e o llm-d para entregar ganhos significativos de eficiência na infraestrutura de computação acelerada da NVIDIA. Ao otimizar cada camada do stack — do kernel do RHEL aos mecanismos de inferência — auxiliamos as empresas a reduzir o custo por token e a melhorar o ROI geral em seus investimentos na NVIDIA. Independentemente de a implementação ser on-premises ou na nuvem, a Red Hat oferece uma base comprovada e de alto desempenho para a próxima geração de IA de agentes e multimodal.

Quer replicar nossos resultados? Veja como… Repo

Confira os resultados completos do MLPerf Inference v6.0 em mlcommons.org e saiba mais sobre o Red Hat AI.


Sobre o autor

Ashish Kamra is an accomplished engineering leader with over 15 years of experience managing high-performing teams in AI, machine learning, and cloud computing. He joined Red Hat in March 2017, where he currently serves as the Senior Manager of AI Performance at Red Hat. In this role, Ashish heads up initiatives to optimize performance and scale of Red Hat OpenShift AI - an end to end platform for MLOps, specifically focusing on large language model inference and training performance.

Prior to Red Hat, Ashish held leadership positions at Dell EMC, where he drove the development and integration of enterprise and cloud storage solutions and containerized data services. He also has a strong academic background, having earned a Ph.D. in Computer Engineering from Purdue University in 2010. His research focused on database intrusion detection and response, and he has published several papers in renowned journals and conferences.

Passionate about leveraging technology to drive business impact, Ashish is pursuing a Part-time Global Online MBA at Warwick Business School to complement his technical expertise. In his free time, he enjoys playing table tennis, exploring global cuisines, and traveling the world.

UI_Icon-Red_Hat-Close-A-Black-RGB

Navegue por canal

automation icon

Automação

Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes

AI icon

Inteligência artificial

Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente

open hybrid cloud icon

Nuvem híbrida aberta

Veja como construímos um futuro mais flexível com a nuvem híbrida

security icon

Segurança

Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias

edge icon

Edge computing

Saiba quais são as atualizações nas plataformas que simplificam as operações na borda

Infrastructure icon

Infraestrutura

Saiba o que há de mais recente na plataforma Linux empresarial líder mundial

application development icon

Aplicações

Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações

Virtualization icon

Virtualização

O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem