이 시점에서 대규모 언어 모델(LLM)의 혁신적인 잠재력은 분명하지만, 프로덕션 단계에서 이러한 강력한 모델을 효율적으로 배포하는 것은 어려울 수 있습니다.
이러한 과제는 새로운 것이 아닙니다. Chris Wright는 Technically Speaking 팟캐스트의 최근 에피소드에서 Red Hat의 수석 소프트웨어 엔지니어이자 수년 전 오리지널 IBM Watson "Jeopardy!" 시스템의 상용화 작업을 담당했던 Nick Hill과 대화를 나눴습니다. Hill은 이러한 초기 노력이 Watson을 서버로 가득 찬 공간에서 단일 머신으로 최적화하는 데 중점을 두었으며, 시스템 수준의 엔지니어링이 강력한 AI를 실용적으로 만들기 위한 핵심 요소임을 입증했습니다.
Wright와 Hill은 이와 동일한 원칙이 현대적인 LLM과 vLLM 오픈소스 프로젝트에 어떻게 적용되는지에 대해서도 논의했습니다. 이 프로젝트는 규모에 따라 AI의 실용성과 성능을 높여 AI 추론을 혁신하고 있습니다.
vLLM이란?
vLLM은 생성형 AI(Generative AI)로 작업할 때 직면하는 효율성 및 확장성 문제를 직접 해결하는 추론 서버입니다. vLLM은 값비싼 GPU 리소스 사용을 극대화함으로써 강력한 AI에 대한 접근성과 실용성을 높입니다.
Red Hat은 vLLM 프로젝트에 깊이 관여하고 있으며, 상업적으로도 큰 기여를 하고 있는 주요 참여자입니다. Red Hat은 더 강력하게 지원되고 향상된 엔터프라이즈 레디 버전의 vLLM을 Red Hat AI Inference Server에 통합했습니다. 이 제품은 독립 실행형 컨테이너화된 오퍼링으로 제공되거나, Red Hat Enterprise Linux AI(RHEL AI) 및 Red Hat OpenShift AI를 비롯한 대규모 Red Hat AI 포트폴리오의 핵심 구성 요소로 제공됩니다. vLLM 커뮤니티와의 협업은 Red Hat의 대규모 오픈소스 AI 전략의 핵심 구성 요소입니다.
LLM 추론에 vLLM이 중요한 이유
LLM 추론은 AI 모델이 새로운 데이터 또는 쿼리에 훈련을 적용하는 프로세스이며, 몇 가지 내재된 장애물이 있습니다. 전통적인 추론 방법은 순차적 토큰 생성과 낮은 GPU 사용률로 인해 비효율적일 수 있으며, 이로 인해 부하 시 높은 대기 시간, 확장할 수 없는 유연성이 떨어지는 아키텍처, 메모리 대역폭에 대한 제약이 발생할 수 있습니다.
vLLM은 간소화된 접근 방식을 제공합니다. 주요 목표는 GPU 사용률과 처리량을 극대화하는 것이며, 일련의 주요 최적화를 통해 이를 달성합니다.
- PagedAttention: 이 핵심 혁신은 컴퓨터의 가상 메모리와 유사한 개념을 사용하여 키-값(KV) 캐시를 효율적으로 관리합니다. KV 캐시는 모델이 한 토큰에서 다음 토큰으로 기억해야 하는 중간 데이터입니다.
- 지속적인 일괄 처리: 이 기술을 사용하면 배치가 이미 처리되는 동안 추론 서버에서 새로 들어오는 요청을 효율적으로 처리할 수 있으므로 유휴 시간이 단축되고 전체 처리량이 증가합니다.
- 기타 중요 최적화: vLLM은 더 작고 빠른 모델을 사용하여 다음 토큰을 예측하는 투기적 디코딩과 최적화된 CUDA 커널과 같은 기술도 활용하여 특정 하드웨어에서 성능을 극대화합니다.
vLLM은 전체 데이터 흐름, 일괄 처리 및 스케줄링을 관리하는 데 도움이 되는 인터페이스 계층 역할을 하여 LLM이 다양한 하드웨어 및 애플리케이션과 통합될 수 있도록 합니다.
엔터프라이즈 AI의 전략적 이점
vLLM은 기술적으로 흥미롭지만 IT 리더에게 중요한 전략적 이점도 제공합니다. vLLM의 최적화를 통해 비용을 관리하고, 더 효과적으로 확장하며, 기술 스택에 대한 제어를 강화할 수 있습니다.
AI 대중화와 비용 최적화
vLLM은 조직이 기존 하드웨어를 최대한 활용할 수 있도록 지원합니다. GPU 활용도를 크게 높여 워크로드를 실행하는 데 필요한 하드웨어의 양을 줄여 비용을 절감할 수 있습니다. 이를 통해 더 많은 조직에서 고급 AI 기능을 더 쉽게 구현할 수 있습니다.
AI 애플리케이션을 안정적으로 확장
GPU 활용도가 향상되고 응답 시간이 단축되어 대규모 모델 및 애플리케이션 배포를 지원할 수 있습니다. 조직은 성능 저하 없이 더 많은 사용자에게 서비스를 제공하고 더 복잡한 AI 워크로드를 처리할 수 있습니다. 이를 통해 AI 프로젝트를 기술 검증(PoC)에서 프로덕션 환경으로 이동하는 데 필수적인 엔터프라이즈급 확장성을 제공할 수 있습니다.
하드웨어 유연성과 선택의 확장
vLLM은 오픈소스이며, NVIDIA, AMD, Intel과 같은 기업의 다양한 하드웨어 가속기를 폭넓게 지원합니다. 또한 Meta, Mistral, IBM과 같은 공급업체의 선도적인 모델과도 함께 사용할 수 있습니다. 이러한 특성은 핵심적인 전략적 이점입니다. 이를 통해 조직은 하드웨어 솔루션을 선택할 때 더 많은 유연성을 확보할 수 있으며, 유동적인 경우에도 고유한 요구 사항에 가장 적합한 액셀러레이터를 선택할 수 있습니다.
혁신 가속화와 커뮤니티 기여
vLLM의 활발한 오픈소스 커뮤니티의 가치는 상당합니다. 커뮤니티가 활발하게 활동하고 성장함에 따라 새로운 연구와 발전이 빠르게 통합되고 있습니다. 이처럼 빠르게 진행되는 개발과 혁신은 vLLM을 LLM 추론의 표준으로 확립하는 데 도움이 되었으며, 기업은 최신 혁신 기술을 지속적으로 활용할 수 있습니다.
vLLM을 통한 엔터프라이즈급 AI
Red Hat의 비전은 하이브리드 클라우드 전반에서 AI를 실용적이고 투명하며 액세스 가능하게 만드는 것입니다. vLLM은 이러한 전략의 초석이며 "모든 모델, 모든 액셀러레이터, 모든 클라우드"라는 Red Hat의 지향과 비전의 핵심 요소입니다.
Red Hat AI Inference Server
Red Hat은 vLLM을 Red Hat AI Inference Server에 통합했습니다. 이 서버는 강화되고 지원되는 엔터프라이즈 수준의 vLLM 배포판입니다. 최적화되고 검증된 타사 모델의 리포지토리 외에도 LLM Compressor와 같은 툴을 제공하여 하이브리드 클라우드 환경 전반에서 더 빠르고 경제적으로 배포할 수 있도록 지원합니다.
Red Hat이 파편화된 Linux 환경을 통합하는 데 도움을 주었듯이, vLLM으로 구동되는 Red Hat AI Inference Server는 AI 추론을 위한 유사한 통합 계층을 제공합니다. 이를 통해 AI 워크로드를 실행하기 위해 일관되고 신뢰할 수 있는 방법이 필요한 조직을 위해 복잡한 배포를 간소화할 수 있습니다.
AI 인프라 통합
Red Hat AI Inference Server는 컨테이너화된 독립형 오퍼링으로 제공됩니다. 또한 Red Hat AI 포트폴리오 전반에서 필수적인 역할을 합니다.
- 핵심 구성 요소는 LLM 개발, 테스트, 배포를 위한 기반 플랫폼을 제공하는 Red Hat Enterprise Linux AI(RHEL AI)에 포함되어 있습니다.
- AI 모델의 전체 라이프사이클을 규모에 맞게 관리하기 위한 통합 MLOps 플랫폼인 Red Hat OpenShift AI의 핵심 구성 요소입니다.
- 또한 최적화된 모델의 Hugging Face 리포지토리를 통해 Llama, Mistral, Qwen, Granite 등 vLLM에서 효율적으로 실행되도록 사전 최적화된 검증된 타사 모델에 액세스할 수 있습니다.
오픈소스 커뮤니티에 대한 Red Hat의 노력은 계속되고 있습니다. vLLM 커뮤니티에 참여하는 것 외에도 Red Hat은 최근 vLLM을 통합하는 쿠버네티스 네이티브 고성능 분산형 LLM 추론 프레임워크인 llm-d 프로젝트를 출시했습니다. 이 새로운 이니셔티브에는 Google 및 NVIDIA와 같은 다른 기여자가 포함되어 있으며, 대규모로 생성 AI를 실행하여 다양한 하드웨어 가속기 전반에서 대부분의 모델에 경쟁력 있는 성능을 제공할 수 있도록 설계되었습니다.
Red Hat의 지원 방식
Red Hat AI는 효율성 향상, 간소화된 경험, 하이브리드 클라우드 환경 전반에서 배포할 수 있는 유연성을 제공하는 모델 학습 및 추론을 위한 완전한 엔터프라이즈 AI 플랫폼을 제공합니다. Red Hat의 비전은 AI를 실용적이고 투명하며 액세스 가능하게 만드는 것입니다. Red Hat의 포트폴리오는 초기 실험에서 전체 프로덕션에 이르기까지 비즈니스에 적합한 AI 솔루션을 구축하고 실행할 수 있도록 설계되었습니다.
Red Hat의 하이브리드 클라우드 접근 방식을 통해 기존 애플리케이션을 현대화하든 새로운 애플리케이션을 구축하든 원하는 방식으로 자유롭게 AI를 구현할 수 있습니다. 또한 무료 AI 파운데이션 과정을 포함한 AI 교육 및 자격증을 제공하여 팀이 조직에 꼭 필요한 AI 기술을 개발할 수 있도록 지원합니다.
저자 소개
The Technically Speaking team is answering one simple question: What’s next for enterprise IT? But they can’t answer that question alone. They speak to tech experts and industry leaders who are working on innovative tools. Tune in to their show for a front-row seat to the industry’s visions for the future of technology.
유사한 검색 결과
채널별 검색
오토메이션
기술, 팀, 인프라를 위한 IT 자동화 최신 동향
인공지능
고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트
오픈 하이브리드 클라우드
하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요
보안
환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보
엣지 컴퓨팅
엣지에서의 운영을 단순화하는 플랫폼 업데이트
인프라
세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보
애플리케이션
복잡한 애플리케이션에 대한 솔루션 더 보기
가상화
온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래