중앙화된 모델 운영으로 AI에 대한 액세스 공유 실현
- MaaS를 도입할 경우 AI 엔지니어는 API를 통해 고성능 모델을 더 신속하게 이용할 수 있습니다. 따라서 모델을 다운로드하거나, 종속성을 관리하거나, 시간이 오래 걸리는 IT 티켓을 통해 GPU 할당을 요청할 필요가 없습니다.
MaaS는 AI 운영 팀을 공유 AI 리소스의 중앙 소유자로 설정함으로써 작동합니다. 모델은 확장 가능한 플랫폼(예: Red Hat® OpenShift® AI나 기타 유사 플랫폼)에서 배포된 다음 API 게이트웨이를 통해 노출됩니다. 이러한 설정을 통해 여러 사용자, 개발자, 사업 부서는 최종 사용자에게 간소화된 액세스를 제공할 수 있고 IT 팀과 재무 팀은 보안 및 거버넌스 우선순위를 충족할 수 있습니다. 이러한 우선순위 지정에는 차지백 기능이 포함될 수 있으므로 직접적인 하드웨어 액세스나 심층적인 기술 전문 지식 없이도 모델을 이용할 수 있습니다. 이 방식의 목표는 모델 실행에 필요한 GPU나 TPU(텐서 처리 장치) 같은 리소스가 아니라 AI 모델에 사용자 친화적인 액세스를 제공하는 것입니다. 이 모든 과정은 기업의 성능 및 컴플라이언스 요구 사항을 충족하는 동시에 최종 사용자의 액세스를 방해하지 않으면서 이루어집니다.
실질적으로 사용자는 모델이 생성한 응답을 전달하는 API하고만 상호작용하게 됩니다. 퍼블릭 AI 공급업체들이 최종 사용자에게서 하드웨어의 복잡성을 감추고 추상화하는 것처럼 사내에 배포된 MaaS 또한 동일한 수준의 간소함을 제공합니다. 사용자는 하드웨어나 소프트웨어 인프라를 직접 관리하거나, 자신을 대신해 IT 티켓이 처리되기를 기다리거나, 환경이 구성될 때까지 대기할 필요가 없습니다. 대신 IT 운영 팀과 AI 팀이 모델 라이프사이클, 보안, 업데이트, 인프라 확장을 중앙에서 관리하므로 사용자에게는 간소화되면서도 제어된 액세스가 제공됩니다.
이러한 중앙화는 내부 AI 운영을 효율화할 뿐만 아니라 보안에 대한 포커스와 거버넌스를 강화합니다. AI 모델에 대한 액세스는 API 게이트웨이를 통한 자격 증명 관리를 통해 엄격하게 제어됩니다. 조직은 손쉽게 사용량을 트래킹하고, 내부 차지백 메커니즘을 구축하고, 개인정보 보호 컴플라이언스 지침 준수 여부를 확인하고, 명확한 운영 경계를 설정해 엔터프라이즈 AI의 관리 용이성과 실용성을 확보할 수 있습니다. 토큰 단위(입력 및 출력)로 사용량을 트래킹하는 것은 가장 정확하고 세분화된 방법이며, 그 어떤 GPU 수준의 메트릭보다 훨씬 더 정밀합니다.
사용 제어, 액세스 제한, 비용 관리
- IT 및 플랫폼 엔지니어는 중앙화된 감독을 통해 무단 모델 배포를 방지하고 보안 및 컴플라이언스 표준을 적용하며 라이프사이클 및 인프라 관리를 간소화하는 등의 이점을 누릴 수 있습니다.
- 재무 팀의 경우 중앙화된 사용량 트래킹과 내부 차지백 메커니즘을 통해 낭비를 줄이고 예측 가능하고 책임감 있는 GPU 사용을 강화해 팀별로 할당된 하드웨어가 제대로 활용되지 못해 발생하는 과다 지출을 방지할 수 있습니다.
MaaS의 제어 역량은 주로 AI 인프라와 API 게이트웨이의 통합을 통해 구현됩니다. 이를 통해 팀들은 AI 사용을 매우 세분화된 수준으로 관리하고 모니터링할 수 있습니다.
전통적인 AI 배포 방식의 경우 개인이나 팀이 중앙화된 감독 없이 독립적으로 모델을 배포하기 때문에 관리되지 않거나 비효율적으로 사용되는 문제가 종종 발생합니다. 이러한 파편화된 접근 방식은 고가의 GPU 리소스를 유휴 상태로 만들거나 제대로 활용되지 못하게 함으로써 막대한 비용 비효율성을 초래할 수 있습니다. AI 인프라의 중심에 API 게이트웨이를 배치하면 사용자와 모델 사이에 제어된 액세스 포인트가 생성됩니다.
이러한 설정으로 개별 토큰 수준에 이르는 정확한 사용량 트래킹이 가능해집니다. 팀들은 각 사용자, 팀 또는 애플리케이션이 리소스를 얼마나 소비하는지 명확하게 식별해 GPU 및 인프라 비용을 정확하게 배분할 수 있습니다. 예를 들어 조직은 특정 사용자나 애플리케이션이 리소스를 과도하게 사용하고 있는지 판단하여 사용량을 제한하거나 내부 차지백 메커니즘을 통해 비용을 할당하는 등의 시정 조치를 취할 수 있습니다.
API 게이트웨이가 제공하는 제한 기능은 일관된 성능을 보장하고 리소스 고갈을 방지합니다. IT 팀은 제한 기능을 사용함으로써 액세스 부하를 관리해 단일 사용자가 GPU 리소스를 독점하거나 다른 사용자의 성능 경험을 저하시키지 못하도록 예방할 수 있습니다.
또한 API 게이트웨이는 정교한 자격 증명 관리 및 액세스 제어를 제공합니다. 내부 사용자는 자격 증명을 직접 생성해 AI 모델에 개별적으로 액세스할 수 있으므로 관리 오버헤드를 간소화할 수 있습니다. 보안 요구 사항이나 사용 패턴의 변화에 대응하여 자격 증명을 신속하게 폐기하거나 수정할 수도 있습니다.
결과적으로 비용 관리의 투명성과 책임 소재가 더 분명해지는 효과를 거두게 됩니다. IT 팀은 GPU와 인프라를 실제로 사용하는 팀 또는 사업부에 정확하게 해당 비용을 할당할 수 있습니다.
모든 모델, 가속기, 클라우드 지원
MaaS 접근 방식의 핵심 원칙은 제어입니다. 제어를 통해 조직은 광범위한 AI 모델을 선택 및 배포하고 선호하는 하드웨어 가속기를 선택하며 기존의 클라우드 또는 온프레미스 환경 내에서 운영할 수 있습니다. 이 접근 방식으로 조직은 내부의 기술적 요구 사항, 보안 요건, 운영상의 선호도에 유연하게 맞춰 AI를 정확하게 구현할 수 있습니다.
- 조직은 AI 도입 시 경직된 제약 사항에 직면하게 됩니다. 그 내용은 주로 다음과 같습니다.
- 특정 클라우드 서비스에 의해 제한됩니다.
- 상용 모델 에코시스템에 종속됩니다.
- 고정된 하드웨어 인프라의 제약을 받습니다.
- MaaS는 이러한 제약 사항을 다음을 비롯한 다양한 방식으로 해결합니다.
- 오픈소스 또는 상용 모델, 사용자 정의 학습 모델, 그리고 Llama, Mistral과 같은 인기 있는 LLM 지원
- 텍스트 기반 모델을 넘어 예측 분석, 컴퓨터 비전, 오디오 전사 툴, 이미지나 동영상 생성과 같은 기타 멀티모달 생성형 AI 활용 사례까지 확장
- MaaS는 하드웨어 가속기 종류에 구애받지 않으므로 다음과 같은 이점이 있습니다.
- 조직은 워크로드, 비용 구조, 성능 요구 사항에 부합하는 GPU나 기타 가속기를 선택할 수 있습니다.
- 중앙화된 AI 팀이 중요한 사이징 및 배포 의사 결정을 내릴 수 있으므로 효율성이 제고되고 기술적 지식이 부족한 사용자로 인해 발생할 수 있는 오류가 감소합니다.
- 중앙화된 관리의 장점은 다음과 같습니다.
- 최적의 인프라 할당 및 사용
- 운영 오버헤드 감소와 리소스 구성 오류의 방지
- MaaS는 다음을 비롯한 모든 환경 전반에서 배포를 지원합니다.
- 온프레미스, 하이브리드 클라우드, 에어 갭(air-gapped) 환경, 그리고 데이터 주권, 규제 컴플라이언스 또는 엄격한 보안 제어가 필요한 고도로 규제된 부문에 특히 유용한 퍼블릭 클라우드