배포 역량을 강화하도록 설계된 최신 검증된 모델을 소개합니다. Red Hat의 목표는 조직이 Red Hat AI 플랫폼 전반에 타사의 생성형 AI(Gen AI) 모델을 배포하는 데 필요한 신뢰성, 예측 가능성, 유연성을 제공하는 것입니다. 이번 릴리스는 성능 벤치마킹 및 정확성 평가를 거친 최적화된 모델 컬렉션을 확장하여 가치 창출 시간을 단축하고 엔터프라이즈 활용 사례에 가장 적합한 모델을 선택할 수 있도록 지원합니다.
Red Hat AI의 검증된 모델은 단순한 목록을 넘어 효율적인 엔터프라이즈 레디 AI를 제공합니다. Red Hat은 엄격한 성능 벤치마킹과 정확성 테스트를 보안과 간소화를 염두에 두고 배포하도록 설계된 포괄적인 패키징 프로세스와 결합합니다. 각 모델은 취약점을 검사하고 관리형 소프트웨어 라이프사이클에 통합되므로 보안에 중점을 두고 관리가 용이하며 장기 업데이트에 대비한 리소스 최적화된 고성능 자산을 받을 수 있습니다.
검증된 모델이란?
대규모 언어 모델(LLM)의 세계가 빠르게 확장됨에 따라 기업이 적합한 언어 모델을 선택하기가 어려워지고 있습니다. 기업은 종종 AI 리소스 용량 계획과 모델의 성능을 안정적으로 재현할 수 있도록 보장하는 데 어려움을 겪습니다.
바로 여기에서 Red Hat의 검증된 모델이 필요합니다. Red Hat 플랫폼 내 vLLM에서 효율적으로 실행되는 즉시 사용 가능한 일련의 타사 모델에 대한 액세스를 제공합니다. Red Hat은 광범위한 테스트를 수행하여 선택 프로세스를 간소화합니다. Red Hat의 모델 검증 프로세스에는 다음이 포함됩니다.
- 성능 벤치마킹: GuideLLM을 사용하여 다양한 하드웨어 구성에 대한 리소스 요구 사항과 비용 평가
- 정확도 평가: LM Eval Harness(Language Model Evaluation Harness)를 사용하여 모델이 새로운 태스크에 대응하는 방식 측정
- 재현 가능한 배포: 고처리량 추론 엔진인 vLLM에서 동일한 결과를 얻을 수 있도록 보장
- 보안 중심의 엔터프라이즈급 패키징: Red Hat의 프로덕션 레지스트리에서 표준화된 컨테이너 형식을 사용하여 취약점 검사를 거쳐 버전이 제어되는 자산을 생성함으로써 배포와 라이프사이클 관리 간소화
이 프로세스는 명확한 용량 계획 지침을 제공하여 배포 규모를 적절하게 조정하고, 최적의 하드웨어를 선택하고, 확신을 갖고 더 빠르게 프로덕션에 도달할 수 있도록 지원합니다.
Red Hat의 모델 최적화 기능
강력한 LLM 배포는 높은 VRAM GPU와 같은 특수 하드웨어의 높은 비용과 희소성으로 인해 제한되는 경우가 많습니다. Red Hat은 액세스를 대중화하고 기업이 더 적은 수의 GPU에서도 이러한 모델을 더 경제적으로 실행할 수 있도록 지원하기 위해 고급 모델 압축 기술을 적용합니다.
LLM Compressor와 같은 기술로 구동되는 이 중요한 최적화 프로세스에는 양자화(예: 모델을 INT4, INT8 또는 FP8 동적 형식으로 변환)와 같은 기술이 포함되어 LLM의 메모리 풋프린트와 컴퓨팅 요구 사항을 크게 줄이는 동시에 출력 품질과 정확성을 신중하게 유지합니다.
Red Hat 컬렉션에서 확인할 수 있는 검증된 모델(대부분 사전 압축되어 즉시 배포 가능)은 이러한 최적화의 실제 사례입니다. Red Hat은 이러한 자산을 활용하여 다음과 같은 이점을 제공합니다.
- VRAM 사용량을 줄여 더 저렴하거나 더 적은 GPU 리소스에서 대규모 모델을 제공할 수 있습니다.
- 하드웨어 활용도를 극대화하여 운영 비용을 절감합니다.
- 중요 추론 단계에서 처리량을 높이고 대기 시간을 단축합니다.
이러한 최적화되고 검증된 자산은 Red Hat의 퍼블릭 Red Hat AI Hugging Face 리포지토리와 registry.redhat.io의 Red Hat 컨테이너 레지스트리에서 손쉽게 사용할 수 있으며, 고성능, 비용 효율적인 AI를 배포하기 위한 신뢰할 수 있는 소스를 제공합니다.
검증된 최신 모델 살펴보기
검증된 최신 모델은 강력하고 다양한 모델을 갖추고 있으며, 각 모델은 엔터프라이즈 워크로드에 최적화되어 준비되어 있습니다.
- DeepSeek-R1 INT4: 여러 프로그래밍 언어에서 복잡한 코드를 생성, 완료, 디버깅하는 데 이상적인 고급 코딩 모델입니다.
- Qwen 3 8B FP8 Dynamic: 전 세계의 챗봇 애플리케이션 및 콘텐츠 생성을 위해 설계된 Alibaba의 강력한 다목적 다국어 모델입니다.
- Kimi K2 Quantized INT4: 이 모델은 매우 큰 컨텍스트 창으로 잘 알려져 있어 RAG(검색 증강 생성) 및 법적 계약서나 연구 논문과 같은 긴 문서 분석을 위한 강력한 성능을 발휘합니다.
- Gemma-3n 4B FP8 Dynamic: Google의 효율적인 최신 모델은 요약 작업 및 기기별 애플리케이션을 위해 성능과 규모의 균형을 제공합니다.
- openai/gpt-oss-120b & openai/gpt-oss-20b: 대규모와 소규모 변형(variant) 범용 기반 모델로, 복잡한 추론, 미묘한 콘텐츠 생성, 고급 문제 해결이 가능합니다.
- Qwen3 Coder 480B-A35B-Instruct-FP8: 가장 까다로운 소프트웨어 개발 및 자동화 파이프라인을 위해 설계된 대규모 엔터프라이즈급 코딩 어시스턴트입니다.
- Voxtral-Mini-3B-2507 FP8 Dynamic: 실시간 음성 기반 애플리케이션과 대화형 에이전트 구축에 탁월한, 음성 및 스피치에 중점을 둔 민첩하고 반응성이 뛰어난 모델입니다.
- whisper-large v3 INT4: 매우 정확한 오디오 트랜스크립션, 회의록 작성 및 음성 명령 활성화를 위해 설계된 OpenAI의 최첨단 음성 텍스트 변환 모델입니다.
- NVIDIA-Nemotron-Nano-9B-v2: NVIDIA의 새로운 범용 추론 및 채팅 모델로, AI 에이전트 시스템, 챗봇 및 RAG를 위한 하이브리드 아키텍처를 사용하며 상업적으로 사용할 수 있습니다.
지금 시작하기
이러한 강력한 배포 지원 AI 모델은 현재 다음 두 가지 방식으로 액세스할 수 있습니다.
- Hugging Face: Red Hat AI 리포지토리에서 검증된 모델과 세부 정보를 살펴보세요.
- Red Hat Container Registry: Red Hat OpenShift AI (RHOAI) 2.25 또는 Red Hat AI Infrastructure Services (RHAIIS) 3.2.2에 즉시 배포할 컨테이너 이미지를 가져옵니다. 이 문서를 참조하세요.
참고: 모든 모델은 vLLM(버전 0.10.1.1 이상)에 배포하도록 최적화되어 있습니다.
제공 예정
더욱 긴밀한 통합을 위해 이러한 모델은 11월에 일반 출시(GA)되는 3.0 릴리스부터 Red Hat OpenShift AI 카탈로그에 실릴 예정입니다.
전체 성능과 평가 데이터를 보려면 영업 담당자에게 문의해주세요.
리소스
적응형 엔터프라이즈: AI 준비성은 곧 위기 대응력
저자 소개
My name is Rob Greenberg, Principal Product Manager for Red Hat AI, and I came over to Red Hat with the Neural Magic acquisition in January 2025. Prior to joining Red Hat, I spent 3 years at Neural Magic building and delivering tools that accelerate AI inference with optimized, open-source models. I've also had stints as a Digital Product Manager at Rocketbook and as a Technology Consultant at Accenture.
채널별 검색
오토메이션
기술, 팀, 인프라를 위한 IT 자동화 최신 동향
인공지능
고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트
오픈 하이브리드 클라우드
하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요
보안
환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보
엣지 컴퓨팅
엣지에서의 운영을 단순화하는 플랫폼 업데이트
인프라
세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보
애플리케이션
복잡한 애플리케이션에 대한 솔루션 더 보기
가상화
온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래