그래픽 처리 장치(GPU)는 생성형 AI와 예측 AI의 핵심입니다. 데이터 사이언티스트, 머신 러닝 엔지니어, AI 엔지니어는 GPU를 사용하여 AI 모델을 실험하고, 학습시키고, 튜닝하고, 배포합니다. 그러나 이러한 필수 리소스를 관리하는 것은 복잡할 수 있으며 종종 개발과 혁신을 지연시키기도 합니다.

인프라 문제로 조직의 발목을 잡혀서는 안 됩니다. 팀은 복잡한 GPU 인프라를 관리하는 데 시간을 쏟는 것이 아니라 AI 모델을 구축, 개선하고 사용하는 데 집중해야 합니다. 따라서 정보 기술 운영(ITOps)은 서비스로서의 GPU라고도 하는 온디맨드 GPU 액세스를 제공하여 신속한 AI 개발과 추론을 지원하는 데 있어 중요한 역할을 합니다.

GPU 과제: ITOps의 다면적 문제

AI 워크로드를 위한 효율적인 GPU 인프라를 구축하는 것은 사소한 문제가 아니며, ITOps 팀은 다음과 같은 몇 가지 중요한 당면 과제를 안고 있습니다.

  • GPU 희소성 및 비용 제약: 제한된 공급, 클라우드의 제약 조건, 내부 경쟁으로 인해 GPU를 확보하기가 어려울 수 있습니다. 기본 가속기 아키텍처에 대한 고객의 선택권과 관리 권한 부족은 이 문제를 더욱 복잡하게 만들 수 있습니다. GPU는 이미 확보 및 운영 비용을 포함하여 높은 비용을 수반하며, 제대로 활용되지 못하는 경우가 많습니다.
  • GPU 접근성 제한으로 인한 섀도우 IT: 데이터 사이언티스트, ML 엔지니어, AI 엔지니어가 필요할 때 GPU를 바로 사용할 수 없는 경우 '섀도우 IT'에 의존하게 될 수 있습니다. 즉 타사 서비스 사용, 민감한 회사 데이터의 노출 가능성, 다양한 클라우드 공급업체로부터 GPU 리소스를 독립적으로 조달하는 것 등으로 인해 비용과 보안 위험이 증가할 수 있습니다. 그 결과 리소스 사용, 데이터 보안, 컴플라이언스를 통제할 수 없게 됩니다.
  • 파편화된 GPU 인프라: GPU 리소스는 온프레미스 데이터센터, 여러 퍼블릭 클라우드, 심지어 엣지 위치 전반에 분산되어 있는 경우가 많습니다. GPU, AI 가속기, 아키텍처 등 다양한 가속기 유형이 있는 이러한 이기종 환경으로 인해 관리가 복잡해지고 효율적인 리소스 할당을 방해하여 효율성이 떨어지고 비용이 증가합니다.
  • GPU 활용률 블랙박스: 조직은 전사적인 규모의 GPU 사용량을 추적하는 데 어려움을 겪는 경우가 많으며, 따라서 ROI(투자수익률)를 극대화하고 사용률이 낮은 리소스를 파악하기가 어렵습니다. 멀티테넌시 환경에서는 공정한 사용 정책을 수립하고, 리소스를 정확하게 할당하고, 비용을 귀속시키기가 어렵습니다.
  • 안전한 GPU 멀티테넌시 실현: 멀티테넌시에서 데이터 보안을 강화하는 것은 복잡하며, 여기에는 테넌트의 네트워크 트래픽을 격리하여 무단 액세스와 데이터 유출을 방지하고, 민감한 데이터를 무단 액세스 또는 도난으로부터 보호하고, 규제 요건을 준수하는 동시에 컴플라이언스 증거를 관리하는 작업이 포함됩니다.

Red Hat의 솔루션: 서비스로서의 GPU를 통해 복잡한 GPU 문제 해결

Red Hat은 이러한 과제를 해결하기 위한 최적의 전략을 제공합니다. Red Hat의 접근 방식은 기본 GPU 인프라를 통합하고 간소화하는 데 중점을 둡니다. 온프레미스, 클라우드, 엣지 환경에서 다양한 GPU 유형, 크기, 위치를 포함한 가속기를 풀링함으로써 조직은 통합된 단일 플랫폼을 통해 GPU 관리와 오케스트레이션을 간소화할 수 있습니다.

Red Hat AI 플랫폼은 워크로드를 가장 적합한 GPU 리소스에 지능적으로 매칭하여 성능과 효율성을 최적화하고, 효율적인 일정 관리 및 배치를 통해 활용도를 극대화합니다. 또한 조직이 가시성과 관리 권한을 확보할 수 있도록 실시간 GPU 모니터링을 제공하여 병목 지점을 식별하고 리소스 할당을 개선할 수 있도록 돕습니다. 지속적인 개선을 통해 소비 및 사용 패턴을 추적하여 비용을 최적화할 수 있습니다.

또한 이 시스템은 보호되고 효율적인 GPU 멀티테넌시를 지원합니다. 강력한 네트워크 보안 및 데이터 격리를 통해 테넌트 환경을 격리합니다. 또한 각 테넌트에 대한 세분화된 액세스 제어와 리소스 할당량을 구현하여 컴플라이언스를 간소화하고 보안 및 거버넌스 목적의 감사 추적을 관리합니다.

서비스로서의 GPU 제공을 위한 핵심 구성 요소

Red Hat은 강력한 오픈소스 기술을 사용하여 주로 Red Hat OpenShift 및 Red Hat OpenShift AI 내에서 서비스로서의 GPU 오퍼링을 제공합니다.

Kueue는 작업의 우선순위를 지정하고 선점하는 쿠버네티스용 오픈소스 지능형 워크로드 스케줄러로, 필요할 때 우선순위가 낮은 작업을 선점하여 중요 워크로드를 먼저 실행합니다. 팀 간에 공정한 리소스 할당을 보장하기 위해 할당량을 관리하고 리소스 사용을 최적화하여 병목 지점 발생을 방지하고 효율성을 극대화합니다. Kueue는 작업 디스패치, 큐잉, 일정 관리를 통해 작동합니다.

GPU 파티셔닝 기능은 GPU를 더 작은 크기의 가상 GPU로 나누고 리소스를 동적으로 할당하여 더욱 효율적인 GPU 공유를 지원하는 데 사용됩니다. 이렇게 하면 리소스 공유가 용이해지고 여러 사용자가 하나의 물리 GPU를 공유할 수 있으므로 리소스 사용량이 개선되고 GPU 활용도가 극대화됩니다. 

또한 Red Hat 솔루션은 다양한 오픈소스 기술을 사용하여 학습 및 미세 조정에서 추론에 이르는 AI 라이프사이클을 최적화합니다. 학습 및 미세 조정을 위해 PyTorch, Ray, Kubeflow Trainer, KubeRay와 같은 기술이 스택에 포함됩니다. 작업 디스패치에는 CodeFlare를 사용하고 큐잉 및 일정 관리에는 Kueue를 사용합니다.

추론의 경우 Red Hat AI는 대규모 언어 모델의 메모리 효율적인 서빙을 위해 vLLM을 사용하고 더 광범위한 모델 서빙에는 KServe를 사용합니다. 또한 PyTorch, Hugging Face TGI, ONNX와 같은 프레임워크를 지원합니다.

Red Hat OpenShift AI는 강력한 가속기 및 GPU 관리 기능도 제공합니다. 여기에는 워크벤치에 대한 유휴 컬링과 사용 가능한 GPU 슬라이스를 구성하는 기능이 포함되어 리소스 할당을 최적화하도록 돕습니다. 또한 이 플랫폼은 가속기 지원에 필요한 라이브러리와 함께 즉시 사용 가능한 이미지를 제공합니다. 개별 사용자 워크로드 상태, 클러스터 전반의 워크로드 상태, 대기열, GPU 사용량을 모니터링하는 관측성 툴도 제공합니다.

Red Hat: AI 혁신을 위한 파트너

세계적인 엔터프라이즈 오픈소스 소프트웨어 솔루션 공급업체인 Red Hat와 함께 지금 바로 서비스로서의 GPU 시스템을 구축하세요. Red Hat은 보안과 개인 정보 보호에 중점을 둔 AI 워크로드를 위해 온디맨드로 GPU를 제공하여 데이터 사이언티스트, ML 엔지니어, AI 엔지니어가 인프라에 신경 쓰는 대신 AI에 집중할 수 있도록 합니다.

Red Hat AI의 AI 솔루션에 대해 자세히 알아보고 지금 바로 Red Hatter에게 문의하세요.


저자 소개

My entrepreneurial spirit led me to co-found an AI startup. This experience, combined with my work driving key go-to-market initiatives at Red Hat and building strategic partnerships, has shaped my ability to translate complex technologies into effective market strategies. I enjoy sharing these insights, whether speaking at UC Berkeley and Stanford or engaging with C-level executives. My background in AI research, including a collaboration between the Royal Institute of Technology and Stanford (with findings presented at SSDL 2017), continues to inform my passion for innovation.

UI_Icon-Red_Hat-Close-A-Black-RGB

채널별 검색

automation icon

오토메이션

기술, 팀, 인프라를 위한 IT 자동화 최신 동향

AI icon

인공지능

고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트

open hybrid cloud icon

오픈 하이브리드 클라우드

하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요

security icon

보안

환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보

edge icon

엣지 컴퓨팅

엣지에서의 운영을 단순화하는 플랫폼 업데이트

Infrastructure icon

인프라

세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보

application development icon

애플리케이션

복잡한 애플리케이션에 대한 솔루션 더 보기

Virtualization icon

가상화

온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래