유휴 GPU에 예산을 낭비하지 마세요. AI 워크로드를 위한 동적 할당, 멀티 테넌시, 효과적인 자동 스케일링을 구현하는 방법을 알아보세요.

Red Hat OpenShift AI 기반 GPUaaS의 필요성

AI에 많은 투자를 하는 조직의 경우 특수 하드웨어 비용이 주요 고려 사항입니다. GPU/가속기는 고가이며, 하드웨어를 사용하지 않고 유휴 상태로 방치하면 상당한 예산 낭비가 발생하여 AI 프로젝트를 확장하기가 더 어려워집니다. 한 가지 솔루션은 하드웨어의 ROI(투자수익률)를 극대화하도록 설계된 운영 모델인 서비스형 GPU(GPUaaS)를 도입하는 것입니다.

Red Hat OpenShift AI는 다중 사용자 GPUaaS 솔루션을 구현하는 데 사용할 수 있는 쿠버네티스 기반 플랫폼입니다. 하드웨어를 프로비저닝하는 것이 첫 번째 단계이지만, 진정한 GPUaaS를 실현하려면 워크로드 수요에 따라 추가적인 동적 할당이 필요하므로 GPU를 더 빠르게 회수하여 유휴 시간을 최소화할 수 있습니다.

GPUaaS에는 멀티테넌시도 필요합니다. 이러한 상황에서 Kueue(Kubernetes Elastic Unit Execution)와 같은 고급 큐잉 툴이 필수적입니다. Kueue는 공유 리소스를 분할하고 할당량을 통해 멀티테넌시를 적용하여 여러 팀과 프로젝트에 공정하고 예측 가능한 액세스를 보장합니다. 이러한 거버넌스가 구현되면 핵심 과제는 AI 워크로드를 위한 자동 스케일링 파이프라인을 생성하는 것으로 전환됩니다.

AI 워크로드 통합 및 자동 스케일링

GPUaaS 플랫폼의 목표는 널리 사용되는 AI 프레임워크를 통합하고 워크로드 수요에 따라 리소스를 자동으로 확장하는 것입니다. OpenShift AI는 일반적인 AI 프레임워크의 배포를 간소화합니다.

이러한 워크로드는 3가지 주요 범주로 나뉘며, Kueue가 이 모든 범주를 지원합니다.

  • 추론: KServe 및 vLLM과 같은 프레임워크는 특히 대규모 언어 모델(LLM)의 모델 서빙을 효율적으로 처리합니다.
  • 학습(분산): KubeFlow Training 및 KubeRay와 같은 툴은 복잡한 다중 노드 분산 학습 작업을 관리합니다.
  • 인터랙티브 데이터 사이언스: OpenShift AI 데이터 사이언스 노트북 환경인 워크벤치는 Kueue와도 통합되어 리소스를 사용할 수 있을 때만 노트북이 시작되므로 리소스 낭비를 줄입니다.

Kueue를 사용한 대기열 관리

멀티 테넌트 AI 클러스터의 핵심 과제는 급증하는 GPU 작업 요청을 관리하는 것입니다. 이것이 바로 Kueue의 역할입니다. Kueue는 이러한 컴퓨팅 집약적인 작업에 필수적인 대기열 및 배치 관리 기능을 제공합니다.

Kueue는 클러스터가 일시적으로 포화 상태일 때 리소스 요청이 즉시 실패하도록 두는 대신, 대기 목록을 지능적으로 보유하고 관리합니다. 이러한 기능은 공정성과 효율성을 유지하는 핵심 요소이며, 요청이 임의로 거부되는 것을 방지하고 리소스 독점을 막는 데 도움이 됩니다.

KEDA를 통한 효과적인 자동 스케일링

Kueue와 KEDA(Kubernetes Event-driven Autoscaling)는 협력하여 자동화된 스케일 업과 스케일 다운을 통해 리소스 사용을 최적화합니다.

자동 스케일 업: KEDA는 Kueue의 지표, 특히 GPU 작업 대기열의 길이를 모니터링합니다. KEDA는 이 백로그를 관찰하여 새로운 GPU 노드의 스케일 업을 선제적으로 시작할 수 있습니다. 즉, 현재 용량이 수요로 인해 초과되기 전에 새로운 리소스를 프로비저닝하여 고가용성과 비용 효율성을 향상시킬 수 있습니다. 이러한 통합은 Kueue의 대기열을 중요한 확장 신호로 변환하여 사전 예방적인 수요 기반 리소스 관리를 지원합니다.

자동 스케일 다운: KEDA는 유휴 워크로드에서 할당량을 청구하여 자동으로 해제합니다. 워크로드(예: RayCluster)가 태스크를 완료했지만 삭제되지 않았을 경우, 사용자 정의 메트릭(Prometheus 또는 이와 유사한 것을 통해 노출되는)이 해당 유휴 상태를 보고합니다. KEDA는 이 유휴 지표를 모니터링하고 ScaledObject를 통해 자동 스케일러를 트리거하여 유휴 워크로드의 작업자 구성 요소를 0개의 복제본으로 축소합니다. 이를 통해 운영 비용을 크게 절감할 수 있습니다.

유휴 기간 동안 KEDA를 사용하여 KServe 구성 요소를 0으로 스케일링하는 유사한 방법을 추론 클러스터에도 적용할 수 있습니다. 작업자 구성 요소를 축소하면 기본 노드 리소스를 확보할 수 있습니다. Kueue 워크로드 오브젝트와 예약된 할당량이 유지되므로, 팀은 전체 재대기열 과정 없이도 다음 작업을 위해 할당량 예약을 유지하고 동시에 비용이 많이 드는 유휴 컴퓨팅 리소스 낭비를 줄일 수 있습니다.

관측성 기반 최적화

지속적인 모니터링은 GPUaaS의 효율성을 개선하고 ROI(투자 수익률)를 극대화하는 데 매우 중요합니다. 관리자는 GPU 상태, 온도, 활용률을 지속적으로 추적해야 합니다.

OpenShift AI에 내장된 Prometheus/Grafana 스택을 통해 관리자는 사용자 정의 대시보드를 생성하여 테넌트별, 프로젝트별, GPU별로 세분화된 GPU 활용도를 추적할 수 있습니다. 이러한 메트릭은 시스템에 피드백되어 관리자가 GPU 할당량을 정교하게 조정하고, Kueue가 시행하는 공정한 공유 정책을 수정하며, ROI(투자수익률) 극대화를 확인할 수 있도록 지원합니다.

결론 

OpenShift AI의 GPUaaS는 직접적인 비즈니스 이점을 제공합니다. 동적 GPU 할당을 통해 비용을 절감할 수 있으며, Kueue의 대기열 및 할당량이 적용하는 멀티 테넌시를 통해 거버넌스를 강화하고, 모든 AI 워크로드에 대한 통합 자동 스케일링을 통해 확장성을 향상할 수 있습니다.

Red Hat OpenShift AI는 비용이 많이 들고 활용도가 낮은 GPU 하드웨어를 고효율의 멀티테넌트 GPUaaS 플랫폼으로 전환하는 엔터프라이즈급 솔루션을 제공합니다. OpenShift AI 페이지에서 자세한 내용을 확인하세요. 

리소스

적응형 엔터프라이즈: AI 준비성은 곧 위기 대응력

Red Hat의 COO 겸 CSO인 Michael Ferris가 쓴 이 e-Book은 오늘날 IT 리더들이 직면한 AI의 변화와 기술적 위기의 속도를 살펴봅니다.

저자 소개

Ana Biazetti is a senior architect at Red Hat Openshift AI product organization, focusing on Model Customization, Fine Tuning and Distributed Training.

Lindani Phiri is a Senior Principal Engineer and Architect for the OpenShift AI Core Platform.

UI_Icon-Red_Hat-Close-A-Black-RGB

채널별 검색

automation icon

오토메이션

기술, 팀, 인프라를 위한 IT 자동화 최신 동향

AI icon

인공지능

고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트

open hybrid cloud icon

오픈 하이브리드 클라우드

하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요

security icon

보안

환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보

edge icon

엣지 컴퓨팅

엣지에서의 운영을 단순화하는 플랫폼 업데이트

Infrastructure icon

인프라

세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보

application development icon

애플리케이션

복잡한 애플리케이션에 대한 솔루션 더 보기

Virtualization icon

가상화

온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래