대규모 언어 모델(Large Language Model, LLM)을 학습시키는 것은 중요한 작업이지만, AI 추론은 더 광범위하면서도 자주 간과되는 비용 문제를 야기합니다. 추론은 학습한 AI 모델이 새로운 입력 데이터를 처리하고 결과물을 생성하는 절차입니다. 조직이 이러한 모델을 프로덕션에 배포함에 따라 특히 토큰 볼륨이 높고 프롬프트가 길며 사용 수요가 증가하는 경우 비용이 급격히 증가할 수 있습니다. LLM을 비용 효율적이고 고성능으로 실행하려면 포괄적인 전략이 필수입니다.
이 접근 방식에는 추론 런타임 최적화와 모델 자체 최적화라는 두 가지 중요한 영역이 포함됩니다.
추론 런타임 최적화
기본 서빙 방법을 사용할 경우 비효율적인 GPU 메모리 사용, 최적화되지 않은 배치 처리, 느린 토큰 생성과 같은 문제를 경험할 확률이 높습니다. 그것이 바로 고성능 추론 런타임이 중요한 이유입니다. vLLM은 LLM이 더 효율적이고 대규모로 계산을 수행하는 데 도움이 되는 오픈소스 라이브러리입니다.
vLLM은 다음과 같은 고급 기술을 통해 이러한 런타임 문제를 해결합니다.
- 연속 배치: vLLM은 요청을 하나씩 처리하는 대신 여러 시퀀스의 토큰을 배치로 그룹화하여 처리합니다. 이를 통해 GPU 유휴 시간을 최소화하고 GPU 사용률과 추론 처리량을 크게 높일 수 있습니다.
- PagedAttention: 이 메모리 관리 전략은 대량의 KV(키-값) 캐시를 효율적으로 처리합니다. PagedAttention은 GPU 메모리 페이지를 동적으로 할당하고 관리하여 동시에 처리 가능한 요청 수를 크게 늘리고 메모리 병목 현상 없이 더 긴 시퀀스를 지원합니다.
AI 모델 최적화
조직은 런타임을 최적화하는 것은 물론 모델을 압축하여 메모리 풋프린트와 컴퓨팅 요구 사항을 줄일 수 있습니다. 여기에 사용되는 두 가지 기본 기술은 양자화(quantization)와 희소화(sparsity)입니다.
- 양자화: 이기술은 값 하나당 더 적은 수의 비트를 사용하여 모델의 숫자 값, 특히 가중치와 활성화를 줄입니다. 이 프로세스는 모델 매개 변수를 저장하는 데 필요한 메모리를 크게 줄입니다. 예를 들어 700억 개의 매개 변수를 사용하는 Llama 모델 크기를 약 140GB에서 최소 40GB로 줄일 수 있습니다. 즉, 더 적은 리소스를 사용하여 모델을 실행할 수 있으며 정확도를 크게 떨어뜨리지 않으면서 계산 처리량을 두 배로 늘릴 수 있습니다.
- 희소화: 희소화는 모델의 매개 변수 중 일부를 0으로 설정하여 계산 요구 사항을 줄임으로써 시스템에서 불필요한 작업을 무시할 수 있도록 합니다. 이를 통해 모델 복잡성을 크게 줄이고 메모리 사용량과 계산 부하를 줄여 추론 속도를 높이고 운영 비용을 절감할 수 있습니다.
Red Hat AI: 전략의 실제 적용
Red Hat AI 포트폴리오는 조직이 이러한 전략적 접근 방식을 구현할 수 있도록 대규모로 고성능 추론을 수행하는 데 필요한 통합 솔루션 세트를 제공합니다.
Red Hat AI는 강력한 툴 및 자산 세트를 통해 모델 최적화와 런타임 최적화 문제를 동시에 해결합니다.
- Red Hat AI Inference Server: Red Hat은 연속 배치와 메모리 효율적인 방법을 사용하는 엔터프라이즈 수준의 지원형 vLLM 엔진을 제공합니다. 런타임은 처리량을 높이고 GPU 사용을 줄임으로써 조직이 고가의 AI 하드웨어에 대한 투자 수익률을 극대화하도록 돕습니다.
- 검증되고 최적화된 모델 사용: Red Hat AI를 사용하면 사전 평가와 성능 테스트를 거쳐 즉시 사용 가능한 모델 리포지토리에 액세스할 수 있습니다. 이러한 모델은 다양한 평가 태스크를 통해 엄격하게 테스트되었으며 Red Hat AI Hugging Face 리포지토리에서 확인할 수 있습니다. 조직은 이 리포지토리를 활용하여 가치를 더 빠르게 실현할 수 있습니다.
- LLM 압축기 포함: Red Hat LLM 툴킷은 양자화와 같은 압축 기술을 적용하는 표준화된 방법을 제공합니다. 이 툴킷은 Red Hat이 최적화된 모델을 제공하는 데 사용되므로 고객이 미세 조정되거나 사용자 정의된 자체 모델을 최적화할 수 있습니다.
Red Hat AI를 활용하는 조직은 다양한 하드웨어 환경에서 고성능의 비용 효율적인 모델을 배포하여 팀이 비용과 복잡성을 관리하는 동시에 AI에 대한 증가하는 수요를 충족할 수 있도록 합니다.
추론 성능 엔지니어링 및 모델 최적화와 관련된 기본적인 내용을 자세히 알아보려면 무료 e-BookAI 추론 시작하기를 다운로드하세요.
리소스
엔터프라이즈를 위한 AI 시작하기: 입문자용 가이드
저자 소개
Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.
With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.
유사한 검색 결과
AI quickstarts: An easy and practical way to get started with Red Hat AI
Resilient model training on Red Hat OpenShift AI with Kubeflow Trainer
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
채널별 검색
오토메이션
기술, 팀, 인프라를 위한 IT 자동화 최신 동향
인공지능
고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트
오픈 하이브리드 클라우드
하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요
보안
환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보
엣지 컴퓨팅
엣지에서의 운영을 단순화하는 플랫폼 업데이트
인프라
세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보
애플리케이션
복잡한 애플리케이션에 대한 솔루션 더 보기
가상화
온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래