Red Hat AI Inference

Red Hat® AI Inference는 빠르고 일관되며 비용 효과적인 추론을 대규모로 제공하는 통합 스택입니다.

AI 추론에 비용이 너무 많이 드나요? 영상 재생 시간: 2:16

Red Hat AI Inference란?

Red Hat AI Inference는 하이브리드 클라우드 전반의 어떤 가속기에서든 모델을 실행하도록 운영 제어를 제공합니다. 

vLLM 및 llm-d에 기반한 엔드 투 엔드 추론 스택은 토큰 경제성과 하드웨어 용량을 최적화하여 응답 시간을 단축합니다. 에이전틱(Agentic) AI 및 Model-as-a-Service(MaaS) 패턴의 엔진 역할을 하는 오픈소스 기술은 성능 저하 없이 효율성을 높입니다.

vLLM: 기반이 되는 오픈소스 기술

vLLM은 대규모 환경에서 낮은 토큰당 비용과 안정적인 대기 시간으로 GPU 활용도 문제를 해결하는 고효율 추론 엔진입니다. 

이식성과 오픈소스 접근 방식 및 성장하는 커뮤니티 덕분에 vLLM은 생성형 AI 추론의 Linux®로 부상하고 있습니다.

주요 상업적 기여자인 Red Hat은 고유한 vLLM 전문성을 제공하여 조직의 AI 목표 달성을 지원합니다.

vLLM 커뮤니티 현황

50만 개 이상의 GPU 연중무휴 24시간 배포1

200개 이상의 가속기 유형2

500개 이상의 지원되는 모델 아키텍처2

경쟁업체 대비 24배 높은 처리량3

장점

하드웨어 및 모델 유연성

모든 하드웨어 및 클라우드에서 모든 모델과 운영 일관성을 유지합니다.

AI를 기반 인프라에서 분리하여 통합된 Model-as-a-Service(MaaS) 아키텍처를 구축하고 효율적으로 모델을 서빙하고 에이전트를 구동합니다. 

토큰 경제성 관리

vLLM 및 llm-d를 사용하여 처리량을 높이고 토큰당 비용을 절감합니다. 

기존 리소스를 최적화하여 에이전트를 비용 효과적으로 실행하고 지속 가능하게 AI를 확장합니다. 

예측 가능한 확장

추론 트래픽을 지능적으로 배분하여 기존 인프라에서 더 많은 사용자와 에이전트에게 서비스를 제공합니다. 

멀티모달 에이전틱 워크플로우에서 RAG 기반 챗봇 및 코드 어시스턴트에 이르기까지 다양한 활용 사례와 요구를 안정적으로 관리합니다. 

llm-d 아이콘

llm-d 미리 체험하기

Red Hat AI Inference는 이제 제3사 쿠버네티스 환경의 llm-d와 Red Hat OpenShift®의 분산 추론 기능에 대한 조기 액세스를 제공합니다. 

원하는 모델을 자유롭게 선택

AI 스택을 재구축하지 않고도 통합된 Model-as-a-Service(MaaS) 아키텍처를 구축할 수 있습니다. 

Red Hat AI Inference는 오픈소스 모델과 하드웨어 가속기의 조합 전반에서 운영 일관성을 제공합니다. Red Hat AI 플랫폼에서 효율적으로 실행되는 것으로 검증된 비용 최적화 모델 컬렉션을 사용하여 안정적으로 배포를 가속화하세요. 

Red Hat AI에 대한 ROI(투자 수익률) 233%

Red Hat은 포레스터 컨설팅(Forrester Consulting)에 의뢰한 TEI(Total Economic Impact™) 연구를 통해 기업이 Red Hat AI를 배포하여 실현할 수 있는 잠재적인 ROI(투자 수익률)를 조사했습니다. 

Red Hat AI 고객을 인터뷰하여 분석한 결과에 따르면, 복합적인 조직은 3년간 ROI(투자 수익률) 233%를 실현했으며, 이는 초기 투자의 3배가 넘는 총 가치를 나타냅니다. 4

제품 주요 내용

대규모 환경에서 효율적인 모델 서빙이 가능하도록 설계된 완전 통합 추론 스택을 확보하세요.

특징상세 정보장점 
llm-d
OpenShift에서 분산 추론 기능을 실행하거나 제3사 쿠버네티스 환경에서 llm‑d를 조기에 액세스할 수 있습니다.추론 속도를 높이고 원하는 쿠버네티스 배포판에서 실행되는 AI 인프라를 최대한 활용합니다. 도큐멘테이션 보기
생성형 AI별 텔레메트리
TTFT(Time To First Token), KV 캐시 적중률, GPU 활용률과 같은 모델별 성능 메트릭을 확인합니다. 

엄격한 서비스 수준 목표(SLO)를 충족하고 모델을 개선할 수 있는 부분을 파악하기 위한 인사이트를 확보합니다. 

 
모델 최적화 툴킷
희소화 또는 양자화와 같은 기술을 사용하여 사용자 정의 모델이나 파운데이션 모델을 최적화합니다.하드웨어 용량을 극대화하여 비용을 최소화하고 추론 속도를 높입니다.도큐멘테이션 보기
희소한 Mixture of Experts(MoE) 
대기 시간이 짧은 에이전트와 정교한 추론 모델로 희소한 MoE 아키텍처를 실행합니다. 효율적인 모델 아키텍처로 성능 저하 없이 추론 비용을 절감합니다.도큐멘테이션 보기
모든 Red Hat 제품에 대한 인증 완료
Red Hat AI Inference의 기능은 Red Hat AI Enterprise 및 Red Hat OpenShift® AI에 포함되어 있습니다. Red Hat OpenShift 및 Red Hat Enterprise Linux에서도 지원됩니다.Red Hat의 제3사 지원 정책에 따라 Red Hat 제품을 사용하거나 Linux 및 쿠버네티스 플랫폼 전반에 배포합니다.도큐멘테이션 보기

구매 방법

Red Hat AI Inference는 독립 실행형 제품으로 또는 Red Hat AI의 일부로 제공됩니다. llm-d 및 vLLM 기반 기능은 Red Hat AI Enterprise 및 Red Hat OpenShift AI에 포함되어 있습니다. 

귀사의 니즈에 맞게 귀사의 조건에 따라 운영되는 AI.

생성형 AI

생성형 AI

텍스트나 소프트웨어 코드같은 새로운 콘텐츠를 만들어내세요. 

Red Hat AI를 사용하면 원하는 생성형 AI 모델을 더 적은 리소스로 더 빠르게 실행할 수 있으며 추론 비용도 낮출 수 있습니다. 

예측 AI

예측 AI

패턴을 연결하고 미래의 성과를 예측하세요. 

Red Hat AI를 사용하면 하이브리드 클라우드 전반에 걸쳐 일관성을 유지하면서 예측 모델을 빌드하고, 학습시키고, 제공하며, 모니터링할 수 있습니다.

운영화된 AI

운영화된 AI

AI 유지 관리와 배포를 규모에 맞게 지원하는 시스템을 만드세요. 

Red Hat AI를 활용하면 리소스를 절약하고 개인정보 보호 규정을 준수하면서 AI 기반 애플리케이션의 라이프사이클을 관리하고 모니터링할 수 있습니다. 

에이전틱 AI

에이전틱 AI

사람의 개입을 최소화하면서 복잡한 태스크를 자동으로 처리하는 워크플로우를 빌드하세요. 

Red Hat AI는 기존 애플리케이션 내에 에이전틱 AI 워크플로우를 구축, 관리 및 배포하기 위한 유연한 접근 방식과 안정적 기반을 제공합니다.

파트너와 함께 배포

고객이 AI를 더욱 다양하게 활용할 수 있도록 전문과와 기술을 함께 제공합니다. Red Hat과 협력하여 솔루션의 상호 운용성을 인증하는 모든 파트너를 살펴보세요. 

Dell Technologies 로고
Lenovo 로고
Intel 로고
NVIDIA 로고
AMD 로고

Red Hat Summit과 AnsibleFest의 2025 AI 고객 사례

Turkish Airlines

터키항공(Turkish Airlines)은 전사적 데이터 액세스를 실현하여 배포 속도를 두 배로 높였습니다.

JCCM Logo

JCCM은 AI를 통해 지역 내 환경 영향 평가(EIA) 프로세스를 개선했습니다.

DenizBank

데니즈뱅크(Denizbank)는 시장 출시 시간을 일 단위에서 분 단위로 단축했습니다.

Hitachi logo

히타치(Hitachi)는 Red Hat OpenShift AI를 통해 AI를 비즈니스 전체에 도입하여 운영하고 있습니다.

자주 묻는 질문

Red Hat AI Inference를 사용하려면 Red Hat AI Enterprise 또는 Red Hat OpenShift AI를 구매해야 하나요?

아닙니다. Red Hat AI Inference는 독립 실행형 Red Hat 제품으로 구매가 가능합니다. 

Red Hat AI Inference와 Red Hat AI Enterprise를 구매해야 하나요?

아닙니다. Red Hat AI Inference의 vLLM 및 llm-d 기반 기능은 이미 Red Hat AI Enterprise와 Red Hat OpenShift AI에 포함되어 있습니다. 

Red Hat AI Inference는 Red Hat Enterprise Linux 또는 Red Hat OpenShift 전반에서 실행할 수 있나요?

네, 가능합니다. vLLM 기반 런타임은 Red Hat의 제3사 계약에 따라 제3사 Linux 및 쿠버네티스 환경에서도 실행 가능합니다. 또한 제3사 쿠버네티스 환경에서 llm-d 기반 분산 추론 기능을 실행할 수 있는 조기 액세스 권한을 제공합니다. 

Red Hat AI Inference의 가격은 어떻게 책정되나요?

가속기별로 가격이 책정됩니다. 

더 많은 AI 리소스 살펴보기

기업에서 AI를 시작하는 방법

AI 추론을 시작하는 방법

하이브리드 클라우드 전반에서 엔터프라이즈 AI 추론 확장

웨비나: 성능을 향상하고 비용을 최적화하는 방법

영업 팀에 문의하기

Red Hat AI에 대해 Red Hatter에게 문의하기

1Goin, Michael. “[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - 2025년 12월 18일.” YouTube, 2025년 12월 8일.

2Kwon, Woosuk. “Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale.” X, 2026년 1월 26일. 

3Kwon, Woosuk, et al. “vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention.” vLLM Blog, 2023년 6월 20일.

4Forrester Consulting study, commissioned by Red Hat. “Forrester Total Economic Impact™ Of Red Hat AI." 2026년 2월.