AI 모델을 대규모로 운영하는 것은 IT 리더의 중요한 당면 과제입니다. 초기에 대규모 언어 모델(Large Language Model, LLM)을 학습시키는 데 드는 비용도 상당하지만, 과소평가되기 쉬운 문제는 추론과 관련된 비용입니다.
AI 추론(학습된 모델을 사용하여 결과물을 생성하는 프로세스)은 AI를 적용하는 데 있어 가장 많은 리소스와 비용이 소요되는 부분으로, 특히 프로덕션 중에 지속적으로 수행되는 것이 주된 이유입니다. 비효율적인 추론은 AI 프로젝트의 잠재적인 ROI(투자 수익률, Return on Investment)를 낮출 뿐만 아니라 대기 시간을 늘려서 고객 경험에 부정적인 영향을 미칠 수 있습니다.
AI 성능에 대한 풀스택 접근 방식
대규모 LLM을 효과적으로 서빙하려면 모델 자체와 서빙 런타임을 모두 처리하는 전략적인 풀스택 접근 방식이 필요합니다. 단일 접근 방식으로는 충분하지 않습니다. 높은 성능과 비용 효율성을 달성하려면 리소스 사용 관리와 처리량 극대화라는 두 가지 측면 모두에 초점을 맞춰야 합니다.
AI 모델 최적화
이 접근 방식의 전략적인 부분은 모델 압축으로, 이는 정확성을 떨어뜨리지 않으면서 모델의 크기와 리소스 요구 사항을 줄이는 것을 말합니다.
양자화(quantization)는 모델 최적화를 위한 핵심 기술입니다. 이 기술은 가중치 및 활성화와 같은 모델 숫자 값의 정밀도를 표준 16비트에서 8비트 또는 4비트 등 더 낮은 형식으로 줄입니다. 그러면 모델의 메모리 풋프린트가 크게 줄어들어 더 적은 하드웨어를 기반으로 모델을 실행할 수 있습니다.
희소화(sparsity)도 모델 최적화에 효과적인 방법입니다. 이는 불필요한 연결(가중치)을 없애서 모델의 효율성을 높이는 기술입니다. 따라서 정확도에 미치는 영향을 최소화하면서 네트워크 규모를 줄이고 속도를 높일 수 있습니다.
추론 런타임 최적화
서빙 런타임 최적화도 마찬가지로 중요합니다. 기본 런타임은 종종 비효율적인 GPU 메모리 사용과 느린 토큰 생성이라는 문제를 야기하며, 이로 인해 GPU가 유휴 상태가 되고 대기 시간이 길어집니다. 고성능 런타임은 고가의 GPU 하드웨어를 최대한으로 활용할 수 있도록 하고 대기 시간을 줄입니다.
오픈소스 vLLM 프로젝트는 효율성에 최적화된 기술로 이러한 런타임 제한 사항을 해결하여 고성능 추론 분야에서 업계 표준으로 자리 잡았습니다.
- 연속 배치는 복수 요청의 토큰을 동시에 처리하여 GPU 유휴기간을 최소화합니다. 요청을 한 번에 하나씩 처리하는 대신 여러 시퀀스의 토큰을 배치로 그룹화하여 처리합니다. 이 접근 방식을 사용하면 GPU 사용률과 추론 처리량을 크게 개선할 수 있습니다.
- PagedAttention은 또 다른 예입니다. 이 새로운 메모리 관리 전략은 대규모 KV(키-값) 캐시를 효율적으로 처리하여 더 많은 동시 요청과 더 긴 시퀀스를 처리할 수 있도록 하는 동시에 메모리 병목 현상을 줄입니다.
분산된 대규모 AI 지원
트래픽이 많은 애플리케이션을 제공하는 기업의 경우 단일 서버 배포로는 이러한 트래픽을 감당하기 어려울 수 있습니다. 오픈소스llm-d 프로젝트는 vLLM의 기능을 기반으로 분산형 다중 노드 추론을 지원합니다. 이를 통해 조직은 여러 서버로 AI 워크로드를 확장하여 수요 증가와 대규모 모델을 처리하는 동시에 예측 가능한 성능 및 비용 효율성을 유지할 수 있습니다.
llm-d는 AI 워크로드에 필요한 특정 기능으로 쿠버네티스를 강화하는 오픈소스 컨트롤 플레인입니다. 이 프로젝트는 다음과 같이 추론 성능과 효율성에 영향을 미치는 기능에 중점을 둡니다.
- 시맨틱 라우팅:llm-d는 실시간 데이터를 사용하여 추론 요청을 최적의 인스턴스로 지능형 라우팅합니다. 이를 통해 리소스를 더욱 효율적으로 사용하도록 하고 비용이 많이 드는 오버프로비저닝을 줄일 수 있습니다.
- 워크로드 분할:프리필 단계와 디코드 단계를 분리하여 태스크에 최적의 리소스가 사용되도록 합니다.
- 고급 아키텍처 지원: llm-d는 전문가 혼합(Mixing of Experts, MoE)과 같이 여러 노드 전반에서 오케스트레이션과 병렬 처리가 필요한 이머징 모델 아키텍처를 처리하도록 설계되었습니다.
llm-d 커뮤니티는 다양한 하드웨어와 환경에서 작동하는 유연한 컨트롤 플레인을 구축하여 엔터프라이즈 AI 표준을 대규모로 확립하는 데 기여하고 있습니다.
Red Hat이 AI를 대규모로 간소화하는 방법
엔터프라이즈 수준에서 AI를 도입하려면 단순히 모델을 선택하는 것만으로 끝나지 않습니다. 하이브리드 클라우드 인프라 전반에서의 개발, 배포, 관리를 위한 전략이 필요합니다. Red Hat은 초기 모델 개발부터 대규모 추론에 이르기까지 전체 프로세스를 간소화하고 가속화하도록 설계된 엔터프라이즈 수준의 제품 포트폴리오를 제공합니다.
Red Hat AI
Red Hat AI 포트폴리오는 AI 최적화에 대한 풀스택 접근 방식을 제공합니다. 이 통합 오퍼링에는 Red Hat Enterprise Linux AI(RHEL AI), Red Hat OpenShift AI, Red Hat AI Inference Server가 포함됩니다.
- RHEL AI는 IBM의 Granite 모델과 같은 주요 오픈소스 구성 요소와 PyTorch와 같은 라이브러리로 RHEL을 패키징하여 AI 개발을 위한 기반을 제공합니다. 이 플랫폼은 이식 가능하며 온프레미스, 퍼블릭 클라우드 또는 엣지에서 실행할 수 있습니다.
- Red Hat OpenShift AI는 Red Hat OpenShift를 기반으로 구축되었으며 전체 AI 라이프사이클을 관리하도록 설계되었습니다. 이 솔루션은 데이터 사이언티스트, 개발자, IT 팀이 원활하게 협업할 수 있는 일관된 환경을 제공하며 하이브리드 클라우드 환경 전반에서 AI 워크로드를 확장하고 하드웨어 가속기 관리를 간소화합니다.
- Red Hat AI Inference Server는 높은 처리량과 짧은 대기 시간, 고성능을 제공하도록 설계된 vLLM의 지원형 배포판을 제공하여 추론을 최적화합니다. 컨테이너로 제공되므로 다양한 인프라 간에 이식이 가능하며 모델 압축 툴이 포함되어 있어 컴퓨팅 사용량을 줄일 수 있습니다. 단일 서버 이상으로 확장하기 위해 Red Hat AI Inference Server는 오픈소스 llm-d 프로젝트와 연동됩니다.
IT 리더에게 있어 풀스택 하이브리드 클라우드 AI 전략을 채택하는 것은 AI를 대규모로 운영할 수 있는 가장 효과적인 방법입니다. Red Hat AI는 '모든 모델, 모든 가속기, 모든 클라우드'라는 Red Hat의 비전을 바탕으로 조직이 AI 실험 단계에서 본격적인 프로덕션 레디 AI로 전환할 수 있도록 돕는 일관된 기반을 제공합니다.
자세히 알아보기
간소화되고 확장 가능한 AI 사용을 위한 여정을 시작하려면 Red Hat AI 웹사이트에서 관련 리소스를 살펴보세요.
저자 소개
Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.
After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.
유사한 검색 결과
Resilient model training on Red Hat OpenShift AI with Kubeflow Trainer
Red Hat to acquire Chatterbox Labs: Frequently Asked Questions
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
채널별 검색
오토메이션
기술, 팀, 인프라를 위한 IT 자동화 최신 동향
인공지능
고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트
오픈 하이브리드 클라우드
하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요
보안
환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보
엣지 컴퓨팅
엣지에서의 운영을 단순화하는 플랫폼 업데이트
인프라
세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보
애플리케이션
복잡한 애플리케이션에 대한 솔루션 더 보기
가상화
온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래