Red Hat AI Inference Server
개요
AI의 진정한 가치는 빠르고 정확한 답변을 대규모로 제공하는 데 있습니다. Red Hat® AI Inference Server는 하이브리드 클라우드 전반에서 더 빠르고 비용 효율적인 모델 배포를 지원함으로써 추론 프로세스를 최적화하여 직접 이 가치를 실현합니다. 추론 프로세스란 AI 애플리케이션이 대규모 언어 모델(LLM)과 통신하고 데이터를 기반으로 응답을 생성하도록 하는 중요한 단계입니다.
어디서나 빠르고 비용 효율적인 추론
Red Hat AI 플랫폼의 일부인 Red Hat AI Inference Server는 일관되고 빠르며 비용 효율적인 추론을 대규모로 제공합니다. AI Inference Server를 사용하면 비즈니스 니즈를 충족하는 데 필요한 유연성과 선택권을 바탕으로 모든 하드웨어 가속기, 데이터센터, 클라우드, 엣지 환경에서 모든 생성형 AI 모델을 실행할 수 있습니다. AI Inference Server는 LLM 압축기를 사용하여 기본 모델과 학습된 모델을 모두 압축하는 모델 최적화를 통해, 혹은 빠른 추론 배포가 가능한 검증되고 최적화된 생성형 AI 모델의 컬렉션에 대한 액세스 제공을 통해 효율적 추론을 제공합니다.
Red Hat AI Inference Server는 다양한 하드웨어 가속기 및 모델과 연동하고, Red Hat AI 플랫폼, Red Hat Enterprise Linux®, Red Hat OpenShift®, 타사 Linux 또는 쿠버네티스 배포판 등 원하는 인프라 및 운영 체제(OS)에서 실행될 수 있어 모든 아키텍처에 부합하는 유연성을 제공합니다.
표 1. 특징 및 장점
장점 | 설명 |
가상 대규모 언어 모델을 사용하여 모델 추론에 대한 효율적 접근 방식 제공 (vLLM) | AI Inference Server는 vLLM을 통해 GPU 메모리 사용과 추론 대기 시간을 최적화하여 모델 추론에 대한 효율적 접근 방식을 제공합니다. |
운영 복잡성 감소 | AI Inference Server는 하이브리드 클라우드 전반에서 모델을 배포하고 최적화하기 위한 일관된 플랫폼을 제공합니다. 또한 양자화를 포함한 고급 머신 러닝(ML) 기술을 사용자 친화적으로 관리하는 접근 방식을 제공하고 Prometheus, Grafana 등과 같은 관측성 툴과 연동할 수 있도록 지원합니다. |
하이브리드 클라우드 유연성 | vLLM을 핵심으로 하는 AI Inference Server를 사용하는 조직은 데이터센터, 클라우드 환경, 엣지 등 어디서나 AI 모델을 실행할 수 있습니다. |
기술 사양
- 하이브리드 클라우드의 추론 런타임. 정교하고 강력한 추론 런타임을 가진 vLLM을 핵심으로 하는 AI Inference Server는 다양한 가속기, 쿠버네티스, Linux 환경 전반에서 기업이 원하는 모델을 실행할 수 있는 고성능 통합 플랫폼을 제공합니다. 또한 모니터링 강화를 위해 관측성 툴과 연동하고 유연한 배포를 위해 OpenAI와 같은 LLM API를 지원합니다.
- LLM 압축기. AI 팀은 기본 모델과 학습된 모델을 크기에 관계없이 압축하여 컴퓨팅 사용량과 관련 비용을 줄이는 동시에 높은 모델 응답 정확도를 유지할 수 있으며, Red Hat과 협력하여 모델 최적화 이니셔티브를 통해 지원받을 수 있습니다.
- 최적화된 모델 리포지토리. Hugging Face의 Red Hat AI 페이지에 호스팅되고 있는 AI Inference Server는 추론 배포가 즉시 가능한 주요 AI 모델들의 검증되고 최적화된 컬렉션에 대한 즉각적인 액세스를 제공해 모델 정확도를 저해하지 않으면서 효율성을 2~4배 높이는 데 도움이 됩니다.
- 모든 Red Hat 제품에 대한 인증 완료. AI Inference Server는 Red Hat OpenShift AI와 Red Hat Enterprise Linux AI의 일부로 포함되며, Red Hat OpenShift와 Red Hat Enterprise Linux에서도 지원됩니다.
- 타사 플랫폼 배포. AI Inference Server는 타사 Linux 및 쿠버네티스 플랫폼에 배포할 수 있으며, Red Hat의 타사 지원 정책을 적용받습니다. 이러한 경우 Red Hat은 Inference Server 구성 요소만 지원하며, 고객은 고객의 기반 플랫폼과 관련된 문제가 Red Hat Enterprise Linux나 Red Hat OpenShift에서 재현될 수 없는 경우 해당 문제에 대해 책임을 집니다.
완전히 최적화된 자동화로 가는 경로 살펴보기
AI Inference Server를 통해 빠르고 비용 효율적이며 확장 가능한 추론을 제공하는 방법은 Red Hat AI Inference Server 제품 페이지를 참조하세요.