서비스로서의 모델(Models-as-a-Service, MaaS) 가이드
AI 도입의 증가, 인프라와 액세스가 걸림돌
비즈니스 가치를 창출하기 위해 대규모 언어 모델(LLM), 예측 분석, 시각 지능 및 기타 고급 툴들을 사용하고자 하는 조직이 늘면서 AI에 대한 관심이 급증하고 있습니다. 그러나 AI를 개별적인 실험 단계에서 조직 전체의 광범위한 도입 단계로 전환하는 과정에는 상당한 인프라 및 운영상의 과제가 뒤따릅니다.
많은 조직이 OpenAI나 Anthropic 같은 기업의 상업용 LLM 애플리케이션 프로그래밍 인터페이스(API)에 연결하는 것으로 AI 여정을 시작합니다. 이것이 프로덕션으로 가는 가장 빠른 길이라고 생각하기 때문입니다. 그러나 사용량이 늘어날수록 비용이 증가하고 팀들은 데이터 프라이버시, 관측성, 커스터마이징 측면에서 한계에 부딪히게 됩니다. 게다가 상업용 AI 공급업체들이 사전 예고 없이 모델을 변경하여 조직의 비즈니스 운영에 차질을 빚는 경우도 발생하고 있습니다.
이에 대응하여 일부 조직은 모델 인프라를 처음부터 직접 구축하며 정반대의 선택을 하기도 합니다. 이러한 자체 구축 방식으로 인해 종종 팀들은 Llama나 Mistral 같은 오픈소스 모델을 팀 간 조율 없이 독자적으로 배포하기에 이릅니다. 그 결과 각 팀이 자체 스택을 구축하는 파편화 환경이 조성되며, 이는 중복된 인프라, 유휴 그래픽 처리 장치(GPU), 막대한 운영 비용으로 이어집니다. 보안과 거버넌스는 취약해지고 비용은 걷잡을 수 없이 불어나는 반면 실질적인 비즈니스 가치는 거의 창출하지 못하게 됩니다.
최근 Llama, DeepSeek, Mistral, Qwen 등 LLM의 크기가 비약적으로 커지면서 이러한 문제점들은 더욱 악화되었습니다. 불과 몇 년 전의 상대적으로 작았던 AI 모델들과 달리 오늘날의 대규모 모델들은 수 테라바이트에 달하는 vRAM을 요구하기도 합니다. 게다가 그러한 GPU는 가격이 매우 비쌉니다. 이러한 자원들을 비효율적으로 사용할 경우 비용이 순식간에 치솟을 수 있습니다. 동일한 조직 내의 여러 팀이 이러한 모델들을 각자 독립적으로 배포하려고 하면 상황은 더욱 악화됩니다. 이러한 파편화된 방식은 운영 비용을 가중시키고 지출을 부풀립니다.
조직에는 모델 사용을 간소화 및 통합하고, 하드웨어 리소스를 최적화하며, 다양한 내부 사용자 그룹에게 통제 가능하고 확장 가능한 접근을 허용하는 내부적인 접근 방식이 필요합니다. 이러한 접근 방식이 없다면 AI 이니셔티브는 낮은 도입률과 높은 운영 비용이라는 리스크를 안게 됩니다. 또한 인프라 투자 자산은 제대로 활용되지 못한 채 방치되며, 생산성 향상이나 운영 비용 절감, 인사이트 확보 시간 단축과 같은 측정 가능한 성과를 달성하기도 어려워집니다.
서비스로서의 모델이란?
서비스로서의 모델(MaaS)은 AI 모델을 공유 리소스로 제공하여 조직 내의 사용자가 온디맨드 방식으로 그러한 모델을 사용할 수 있게 하는 접근 방식입니다. MaaS는 애플리케이션 프로그래밍 인터페이스(API) 엔드포인트의 형태로 즉시 실행 가능한 AI 기반을 제공하여 효율적인 프라이빗 AI를 대규모로 사용할 수 있게 합니다.
이러한 문제 해결을 위한 서비스로서의 모델 접근 방식
서비스로서의 모델(MaaS)은 조직이 AI 모델을 한 번 배포한 뒤, 이를 전사적으로 공유 가능하고 보안이 강화된 리소스 형태로 제공하도록 돕는 접근 방식입니다. 팀별로 격리된 배포를 관리하는 대신, MaaS 방식은 기업이 AI 인프라와 운영을 중앙화할 수 있도록 지원하며, 이를 통해 사내 AI 도입을 간소화합니다.
중앙화된 모델 운영으로 AI에 대한 액세스 공유 실현
- MaaS를 도입할 경우 AI 엔지니어는 API를 통해 고성능 모델을 더 신속하게 이용할 수 있습니다. 따라서 모델을 다운로드하거나, 종속성을 관리하거나, 시간이 오래 걸리는 IT 티켓을 통해 GPU 할당을 요청할 필요가 없습니다.
MaaS는 AI 운영 팀을 공유 AI 리소스의 중앙 소유자로 설정함으로써 작동합니다. 모델은 확장 가능한 플랫폼(예: Red Hat® OpenShift® AI나 기타 유사 플랫폼)에서 배포된 다음 API 게이트웨이를 통해 노출됩니다. 이러한 설정을 통해 여러 사용자, 개발자, 사업 부서는 최종 사용자에게 간소화된 액세스를 제공할 수 있고 IT 팀과 재무 팀은 보안 및 거버넌스 우선순위를 충족할 수 있습니다. 이러한 우선순위 지정에는 차지백 기능이 포함될 수 있으므로 직접적인 하드웨어 액세스나 심층적인 기술 전문 지식 없이도 모델을 이용할 수 있습니다. 이 방식의 목표는 모델 실행에 필요한 GPU나 TPU(텐서 처리 장치) 같은 리소스가 아니라 AI 모델에 사용자 친화적인 액세스를 제공하는 것입니다. 이 모든 과정은 기업의 성능 및 컴플라이언스 요구 사항을 충족하는 동시에 최종 사용자의 액세스를 방해하지 않으면서 이루어집니다.
실질적으로 사용자는 모델이 생성한 응답을 전달하는 API하고만 상호작용하게 됩니다. 퍼블릭 AI 공급업체들이 최종 사용자에게서 하드웨어의 복잡성을 감추고 추상화하는 것처럼 사내에 배포된 MaaS 또한 동일한 수준의 간소함을 제공합니다. 사용자는 하드웨어나 소프트웨어 인프라를 직접 관리하거나, 자신을 대신해 IT 티켓이 처리되기를 기다리거나, 환경이 구성될 때까지 대기할 필요가 없습니다. 대신 IT 운영 팀과 AI 팀이 모델 라이프사이클, 보안, 업데이트, 인프라 확장을 중앙에서 관리하므로 사용자에게는 간소화되면서도 제어된 액세스가 제공됩니다.
이러한 중앙화는 내부 AI 운영을 효율화할 뿐만 아니라 보안에 대한 포커스와 거버넌스를 강화합니다. AI 모델에 대한 액세스는 API 게이트웨이를 통한 자격 증명 관리를 통해 엄격하게 제어됩니다. 조직은 손쉽게 사용량을 트래킹하고, 내부 차지백 메커니즘을 구축하고, 개인정보 보호 컴플라이언스 지침 준수 여부를 확인하고, 명확한 운영 경계를 설정해 엔터프라이즈 AI의 관리 용이성과 실용성을 확보할 수 있습니다. 토큰 단위(입력 및 출력)로 사용량을 트래킹하는 것은 가장 정확하고 세분화된 방법이며, 그 어떤 GPU 수준의 메트릭보다 훨씬 더 정밀합니다.
사용 제어, 액세스 제한, 비용 관리
- IT 및 플랫폼 엔지니어는 중앙화된 감독을 통해 무단 모델 배포를 방지하고 보안 및 컴플라이언스 표준을 적용하며 라이프사이클 및 인프라 관리를 간소화하는 등의 이점을 누릴 수 있습니다.
- 재무 팀의 경우 중앙화된 사용량 트래킹과 내부 차지백 메커니즘을 통해 낭비를 줄이고 예측 가능하고 책임감 있는 GPU 사용을 강화해 팀별로 할당된 하드웨어가 제대로 활용되지 못해 발생하는 과다 지출을 방지할 수 있습니다.
MaaS의 제어 역량은 주로 AI 인프라와 API 게이트웨이의 통합을 통해 구현됩니다. 이를 통해 팀들은 AI 사용을 매우 세분화된 수준으로 관리하고 모니터링할 수 있습니다.
전통적인 AI 배포 방식의 경우 개인이나 팀이 중앙화된 감독 없이 독립적으로 모델을 배포하기 때문에 관리되지 않거나 비효율적으로 사용되는 문제가 종종 발생합니다. 이러한 파편화된 접근 방식은 고가의 GPU 리소스를 유휴 상태로 만들거나 제대로 활용되지 못하게 함으로써 막대한 비용 비효율성을 초래할 수 있습니다. AI 인프라의 중심에 API 게이트웨이를 배치하면 사용자와 모델 사이에 제어된 액세스 포인트가 생성됩니다.
이러한 설정으로 개별 토큰 수준에 이르는 정확한 사용량 트래킹이 가능해집니다. 팀들은 각 사용자, 팀 또는 애플리케이션이 리소스를 얼마나 소비하는지 명확하게 식별해 GPU 및 인프라 비용을 정확하게 배분할 수 있습니다. 예를 들어 조직은 특정 사용자나 애플리케이션이 리소스를 과도하게 사용하고 있는지 판단하여 사용량을 제한하거나 내부 차지백 메커니즘을 통해 비용을 할당하는 등의 시정 조치를 취할 수 있습니다.
API 게이트웨이가 제공하는 제한 기능은 일관된 성능을 보장하고 리소스 고갈을 방지합니다. IT 팀은 제한 기능을 사용함으로써 액세스 부하를 관리해 단일 사용자가 GPU 리소스를 독점하거나 다른 사용자의 성능 경험을 저하시키지 못하도록 예방할 수 있습니다.
또한 API 게이트웨이는 정교한 자격 증명 관리 및 액세스 제어를 제공합니다. 내부 사용자는 자격 증명을 직접 생성해 AI 모델에 개별적으로 액세스할 수 있으므로 관리 오버헤드를 간소화할 수 있습니다. 보안 요구 사항이나 사용 패턴의 변화에 대응하여 자격 증명을 신속하게 폐기하거나 수정할 수도 있습니다.
결과적으로 비용 관리의 투명성과 책임 소재가 더 분명해지는 효과를 거두게 됩니다. IT 팀은 GPU와 인프라를 실제로 사용하는 팀 또는 사업부에 정확하게 해당 비용을 할당할 수 있습니다.
모든 모델, 가속기, 클라우드 지원
MaaS 접근 방식의 핵심 원칙은 제어입니다. 제어를 통해 조직은 광범위한 AI 모델을 선택 및 배포하고 선호하는 하드웨어 가속기를 선택하며 기존의 클라우드 또는 온프레미스 환경 내에서 운영할 수 있습니다. 이 접근 방식으로 조직은 내부의 기술적 요구 사항, 보안 요건, 운영상의 선호도에 유연하게 맞춰 AI를 정확하게 구현할 수 있습니다.
- 조직은 AI 도입 시 경직된 제약 사항에 직면하게 됩니다. 그 내용은 주로 다음과 같습니다.
- 특정 클라우드 서비스에 의해 제한됩니다.
- 상용 모델 에코시스템에 종속됩니다.
- 고정된 하드웨어 인프라의 제약을 받습니다.
- MaaS는 이러한 제약 사항을 다음을 비롯한 다양한 방식으로 해결합니다.
- 오픈소스 또는 상용 모델, 사용자 정의 학습 모델, 그리고 Llama, Mistral과 같은 인기 있는 LLM 지원
- 텍스트 기반 모델을 넘어 예측 분석, 컴퓨터 비전, 오디오 전사 툴, 이미지나 동영상 생성과 같은 기타 멀티모달 생성형 AI 활용 사례까지 확장
- MaaS는 하드웨어 가속기 종류에 구애받지 않으므로 다음과 같은 이점이 있습니다.
- 조직은 워크로드, 비용 구조, 성능 요구 사항에 부합하는 GPU나 기타 가속기를 선택할 수 있습니다.
- 중앙화된 AI 팀이 중요한 사이징 및 배포 의사 결정을 내릴 수 있으므로 효율성이 제고되고 기술적 지식이 부족한 사용자로 인해 발생할 수 있는 오류가 감소합니다.
- 중앙화된 관리의 장점은 다음과 같습니다.
- 최적의 인프라 할당 및 사용
- 운영 오버헤드 감소와 리소스 구성 오류의 방지
- MaaS는 다음을 비롯한 모든 환경 전반에서 배포를 지원합니다.
- 온프레미스, 하이브리드 클라우드, 에어 갭(air-gapped) 환경, 그리고 데이터 주권, 규제 컴플라이언스 또는 엄격한 보안 제어가 필요한 고도로 규제된 부문에 특히 유용한 퍼블릭 클라우드
Red Hat이 MaaS를 구현하는 방식
Red Hat은 AI 모델 배포와 액세스를 중앙화하여 MaaS를 내부적으로 수용했습니다. Red Hat의 AI 팀은 Red Hat OpenShift와 Red Hat OpenShift AI를 기반 플랫폼으로 사용하여 AI 리소스와 모델 운영을 중앙에서 관리합니다. 이러한 중앙화된 모델 배포는 조직 전반에서 사용자의 AI 사용을 간소화하므로 Red Hat의 개발자들과 비즈니스 팀들은 전용 하드웨어나 심층적인 기술적 전문 지식 없이도 AI 기능을 워크플로우에 효율적으로 통합할 수 있습니다.
Red Hat의 구현 방식은 OpenShift AI 내부의 GPU를 활용하는 확장 가능한 서빙 아키텍처를 특징으로 하며, 중앙화된 API 게이트웨이를 통해 사용자를 연결합니다. 이를 통해 AI 모델에 대해 제어되고 보안 중심적이며 추적 가능한 액세스가 가능합니다. 사용은 토큰 기반 모니터링을 통해 주의깊게 관리되므로 누가, 얼마나 자주, 어느 정도의 수량으로 모델을 사용하는지 정밀하게 트래킹할 수 있습니다. 그 결과, 하드웨어 사용이 최적화되어 불필요한 GPU 리소스 사용을 줄일 수 있으며, 내부의 여러 팀이나 프로젝트에 비용을 정확하게 할당할 수 있는 상세한 인사이트를 확보할 수 있습니다.
Red Hat의 MaaS 구현에는 GitOps 워크플로우가 사용되어 고가용성과 신뢰성을 제공합니다. 이러한 운영 방식으로 수동 개입과 잠재적 오류를 줄이는 등 AI 배포에 대한 명확한 제어 역량을 확립할 수 있습니다.
Red Hat이 내부적으로 MaaS를 구현한 데 따른 주요 이점은 리소스 효율성과 사용자 환경 측면에서 괄목할 만한 개선을 이루었다는 점입니다. 여러 팀들이 개별적으로 GPU를 프로비저닝하고 모델을 배포할 필요가 없어져 중복된 노력이 제거되고 내부 운영이 간소화되었으며 가치 창출 시간이 크게 단축되었습니다. 새로운 모델을 테스트하고 검증할 경우 Red Hat 팀들은 하드웨어 할당이나 프로비저닝 태스크로 인한 지연을 경험할 필요 없이 해당 모델을 즉시 통합하고 사용할 수 있습니다.
지금 바로 내부 AI 플랫폼 구축을 시작하세요
AI 제공을 간소화하고 인프라 투자의 실질적 가치를 실현할 준비가 되셨나요? 먼저, Red Hat의 심층적인 MaaS 설명 문서를 검토하여 MaaS 작동 방식에 대한 자세한 인사이트를 얻으세요. 그런 다음 OpenShift AI 제품 페이지를 살펴보고 플랫폼 기능과 GPU 사용 지침을 평가하세요.
MaaS를 내부적으로 구축하는 팀에는 Red Hat Consulting이 조직의 요구 사항에 맞는 모델 서빙 환경을 설계하고 운영하도록 도와 드리겠습니다. AI를 위한 Red Hat Consulting 페이지에서 자세히 알아보세요.
실제 사례를 더 종합적으로 살펴보고 싶으신가요? MaaS 관련 세션 등 Red Hat의 온디맨드 웨비나 시리즈를 확인해 보세요.