Red Hat은 NVIDIA와의 긴밀한 엔지니어링 공동 설계를 통해 최신 MLPerf Inference v6.0 벤치마크에서 업계 최고 수준의 성과를 달성했습니다. 이러한 결과는 Red Hat의 오픈소스 리더십과 NVIDIA의 선도적인 AI 인프라를 결합했을 때, 비전과 음성부터 복잡한 추론에 이르기까지 모든 기업용 추론 워크로드를 처리할 수 있는 검증된 다목적 플랫폼이 구축됨을 보여줍니다.

최근 제출한 자료는 NVIDIA HGX H200NVIDIA HGX B200 시스템의 잠재력을 극대화하는 데 중점을 두었으며, 소프트웨어 최적화가 최대 ROI를 달성하는 데 있어 하드웨어 성능만큼이나 중요하다는 사실을 입증했습니다.

주요 결과 요약

Red Hat 스택은 언어, 비전, 음성 모델 전반에 걸쳐 NVIDIA AI 인프라에서 최상위 수준의 처리량과 지연 시간 결과를 제공했습니다.

모델 범주

모델

GPU 구성

시나리오

주요 결과

비전

Qwen3-VL-235B

8× NVIDIA B200

서버

67.9 samples/sec 

추론

GPT-OSS-120B

8× NVIDIA B200

오프라인

93,071 tokens/sec

음성

Whisper-Large-v3

8× NVIDIA H200

오프라인

36,396 tokens/sec 

Qwen3-VL-235B(멀티모달 비전 모델)

2,350억 개의 파라미터를 보유한 대규모 멀티모달 비전-언어 모델인 Qwen3-VL-235B는 매우 다양한 이미지 해상도로 인해 추론 엔진에 상당한 과제를 안겨줍니다. Red Hat Enterprise Linux(RHEL)에서 vLLMNVIDIA Dynamo와 함께 실행되는 NVIDIA Blackwell GPU를 사용하여 동급 최고의 오프라인 처리량을 달성했습니다. 특히 Blackwell 제출 결과는 서버 시나리오에서 차순위 기록보다 50% 더 높은 성능을 달성했습니다.

주요 엔지니어링 성과

  • Triton 기반 개선 사항 비전 인코더 최적화를 통해 ViT 처리 속도를 30~40% 향상했습니다.
  • FlashInfer Mixture-of-Experts (MoE) 커널 이 특수 커널은 MoE 아키텍처를 매우 효율적으로 처리합니다.
  • FP8 멀티모달 어텐션 NVIDIA의 고급 데이터 형식을 활용하여 정확도를 유지하면서 토큰당 비용을 낮춥니다.

GPT-OSS-120B

이번 GPT-OSS-120B 제출은 MLPerf를 위해 쿠버네티스 인프라에서 이 정도 규모의 모델을 벤치마킹한 최초의 사례입니다. Red Hat OpenShift AIllm-d 스케줄러를 사용하여, 엄격한 대기 시간 요구 사항을 충족하면서도 NVIDIA AI 인프라(H200 및 B200 GPU)에서 분산 추론이 효과적으로 확장될 수 있음을 입증했습니다.

Red Hat은 추론 성능을 최적화하기 위해 두 가지 전략을 채택했습니다. 첫째, OpenShift 기반의 베이지안 최적화 하이퍼파라미터 튜닝 파이프라인을 통해 단일 복제본에 대한 최적의 구성을 식별했습니다. 이를 통해 P99 TTFT(time-to-first-token)를 3.4초에서 2.1초로 약 38% 단축하여 3초 미만 목표를 달성했습니다.

둘째, 로드 밸런싱 및 스코어링 전략을 개선하여 다중 복제본 성능을 최적화했습니다. 복제본 전반의 요청 분산을 분석하여 활용도를 높이고 테일 대기 시간을 최소화함으로써 부하 상황에서도 더욱 일관된 확장을 구현했습니다.

Whisper large-V3 (음성 텍스트 변환)

Red Hat Enterprise Linux(RHEL) 및 vLLM을 실행하는 NVIDIA H200 및 NVIDIA L40S GPU에서 Whisper-large-v3 결과를 제출했습니다.

  • 8x H200 오프라인 초당 36,396개 토큰을 처리하여 H200 결과 중 1위를 기록했으며, 이는 차순위 제출 결과보다 13% 더 빠른 수치입니다.                                           
  • 2x L40S 오프라인 초당 3,647개 토큰을 처리했으며, 이는 MLPerf Inference v6.0에서 Whisper 부문의 최초이자 유일한 L40S 제출 기록입니다.

이러한 결과는 Whisper 추론에 가장 중요한 최적화 요소를 식별하기 위해 구성 매개변수 전반에 걸쳐 체계적인 제거 연구를 수행하여 얻은 성과입니다. 배치 크기 튜닝으로 GPU 활용도를 극대화하여 처리량을 40% 향상했으며, 비동기식 스케줄링으로 CPU-GPU 동기화 지연을 제거해 12.8%를 추가 개선했습니다. 또한 CUDA 그래프를 통해 6%의 성능 향상을 더했습니다. 비용에 민감한 환경에서 L40S가 널리 사용되는 만큼, 이번 결과는 오픈소스 추론 스택이 하이엔드 및 가성비 하드웨어 모두에서 세계 최고 수준의 음성 인식 성능을 제공함을 보여줍니다.

효율성 및 ROI 향상

Red Hat 소프트웨어 스택은 NVIDIA 추론 소프트웨어 Dynamo와 Red Hat AI의 vLLM 및 llm-d를 활용하여 NVIDIA 가속 컴퓨팅 인프라에서 상당한 효율성 향상을 실현합니다. RHEL 커널부터 추론 엔진에 이르기까지 스택의 모든 계층을 최적화하여 기업이 토큰당 비용을 낮추고 NVIDIA 투자에 대한 전반적인 ROI를 개선하도록 지원합니다. 온프레미스나 클라우드 등 배포 환경에 관계없이 Red Hat은 차세대 에이전틱 AI 및 멀티모달 AI를 위한 검증된 고성능 기반을 제공합니다.

결과를 직접 재현하고 싶으신가요?? 자세한 내용은 리포지토리(Repo)를 확인하세요.

mlcommons.org에서 MLPerf Inference v6.0 전체 결과를 확인하고 Red Hat AI에 대해 자세히 알아보세요.


저자 소개

Ashish Kamra is an accomplished engineering leader with over 15 years of experience managing high-performing teams in AI, machine learning, and cloud computing. He joined Red Hat in March 2017, where he currently serves as the Senior Manager of AI Performance at Red Hat. In this role, Ashish heads up initiatives to optimize performance and scale of Red Hat OpenShift AI - an end to end platform for MLOps, specifically focusing on large language model inference and training performance.

Prior to Red Hat, Ashish held leadership positions at Dell EMC, where he drove the development and integration of enterprise and cloud storage solutions and containerized data services. He also has a strong academic background, having earned a Ph.D. in Computer Engineering from Purdue University in 2010. His research focused on database intrusion detection and response, and he has published several papers in renowned journals and conferences.

Passionate about leveraging technology to drive business impact, Ashish is pursuing a Part-time Global Online MBA at Warwick Business School to complement his technical expertise. In his free time, he enjoys playing table tennis, exploring global cuisines, and traveling the world.

UI_Icon-Red_Hat-Close-A-Black-RGB

채널별 검색

automation icon

오토메이션

기술, 팀, 인프라를 위한 IT 자동화 최신 동향

AI icon

인공지능

고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트

open hybrid cloud icon

오픈 하이브리드 클라우드

하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요

security icon

보안

환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보

edge icon

엣지 컴퓨팅

엣지에서의 운영을 단순화하는 플랫폼 업데이트

Infrastructure icon

인프라

세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보

application development icon

애플리케이션

복잡한 애플리케이션에 대한 솔루션 더 보기

Virtualization icon

가상화

온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래