AI가 국가 경쟁력의 원동력이 되면서, 외부 영향 없이 AI 시스템을 운영할 수 있는 역량인 소버린 AI의 개념이 점점 더 중요해지고 있지만, AI를 도입하는 과정에는 여러 과제가 있습니다. 900명 이상의 IT 리더와 AI 엔지니어를 대상으로 한 최근 설문조사에서 AI 도입에 대한 상당한 '가치 격차'가 드러났는데, 이는 72%의 높은 관심에도 불구하고 유럽, 중동 및 아프리카(EMEA) 지역의 조직이 성과를 거두고 있습니다.

설문조사는 데이터 프라이버시와 인프라 사일로가 AI 개발 노력을 마비시키고 있음을 보여줍니다. 그 결과, 소버린 AI는 이론적인 '클라우드 과제'에서 실질적인 필수 사항으로 빠르게 변화했습니다. 소버린 AI는 Red Hat 설문조사에서 식별된 특정 위험을 완화함으로써 규제를 받는 기업이 다음과 같은 장점을 저해하지 않고 파일럿 단계에서 프로덕션 단계로 안심하고 이동할 수 있도록 지원합니다.

  1. 규정 준수: 일반 데이터 보호 규정(General Data Protection Regulation, GDPR), EU AI법, 시민 데이터를 의무화하는 데이터 레지던스 관련 법률과 같은 엄격한 규정 준수는 여전히 특정 국가 내에서 이루어집니다.
  2. 운영 복원력: 지정학적 불안정성 또는 글로벌 인터넷 연결이 끊긴 상황에서도 원활하게 운영을 계속할 수 있는 능력이 필요합니다.
  3. 전략적 자율성: 조직은 벤더 종속성을 방지하고 민감한 데이터에서 생성된 모델 및 가중치와 같은 지적 재산을 완전하게 제어할 수 있습니다.

Red Hat OpenShift AI는 이러한 소버린 기반을 제공하여 조직이 보안, 데이터, 모델, 결과에 대한 절대적인 제어 권한을 유지하면서 '에어 갭(air-gap)' AI 팩토리를 구축할 수 있도록 지원합니다.

이 문서에서는 고객이 직면한 소버린 AI 과제의 구체적인 예를 살펴보고, 해결해야 할 주요 주제를 추상화하며, 이러한 문제에 대한 솔루션을 제안합니다.

사용자 사례: 'AI 독립성'의 딜레마

가상 사용자: 중소 유럽 국가의 보건부 최고 데이터 책임자인 Aris 박사 (실제 고객 과제를 기반으로 한 복합 가상 사용자)

도전 과제: 보건부는 수십 년에 걸친 익명화된 환자 기록, 유전체 염기서열, 지역 역학적 병력 등 방대한 양의 데이터를 보유하고 있습니다. Aris 박사는 자국 인구에 특화된 희귀 질병 진단을 돕기 위해 "국가 건강 LLM"을 구축하고자 합니다.

하지만, 결정적으로 보건부는 '그림자 AI' 문제에 직면해 있습니다. 어려움에 처한 연구원들은 작업을 진행하기 위해 익명의 스니펫을 퍼블릭 LLM에 비밀리에 업로드하여 데이터 유출의 위험을 감수하고 있습니다. 이들은 퍼블릭 클라우드만큼 사용하기 쉬운 승인되고 완전히 안전한 내부 플랫폼이 필요합니다.

갈등 요건:

  • 클라우드 함정: 서비스로서의 모델(Models-as-a-Service, MaaS)을 제공하는 선도적인 AI 제공업체는 민감한 데이터를 미국 기반의 퍼블릭 클라우드에 업로드하도록 요구합니다. 이는 일반 데이터 보호 규정(GDPR), 데이터 상주법, 국가 보안 프로토콜을 위반할 수 있습니다.
  • DIY 문제: Aris 박사는 플랫폼을 처음부터 구축하려고 합니다. 그러나 그의 팀은 500-GPU 클러스터에 대한 접근을 중재하는 운영적 혼란에 빠르게 마비됩니다. 그 결과, 중요한 실험들이 무기한 대기하게 되고, 예약된 하드웨어는 유휴 상태로 남게 됩니다.

솔루션: 교육부는 Kubeflow와 Feast를 사용하여 OpenShift AI를 기반으로 소버린 AI 플랫폼을 구축합니다.

  • 시프트: 독점 클라우드 API에 의존하는 대신에, 아리스 박사의 팀은 자체적으로 에어 갭(air-gap) 방식의 보호된 인프라를 기반으로 '모델 팩토리'를 구축합니다. Kubeflow 구성 요소가 포함된 OpenShift AI는 GPU 클러스터 하드웨어를 추상화하므로 팀이 국경을 넘어 단일 바이트를 전송하지 않고도 대규모 모델을 학습시킬 수 있습니다. Feast는 학습 및 추론 전반에서 기능 관리를 중앙화하여 모델에 제공되는 기능을 일관되게 정의하여 거버넌스와 추적성을 지원합니다.
  • 결과: 데이터 사이언티스트가 학습 요청을 제출하기만 하면 시스템이 자동으로 분산형 클러스터를 가동하고, Feast에서 특성을 검색하고, 모델을 학습시키며, 해체하는 작업을 에어 갭(air-gap) 국가 데이터센터 내에서 수행합니다. Aris 박사는 확장 가능하고 분리된 AI 플랫폼을 사용하여 자국의 방식에 따라 'AI 자율성'을 실현합니다.

소버린 AI의 3가지 핵심 요소

외국 기술 인프라에 크게 의존하여 자국의 디지털 경제, 데이터, 향후 개발에 대한 통제력을 상실하는 '디지털 식민지'에서 '디지털 소버린티'로 이동하려면, 국가가 AI 기술 스택의 3가지 핵심 계층을 다음과 같이 통제해야 합니다.

기술 소버린티 (기반)

원칙: 소버린티는 투명한 관리 체인과 공급망 무기화에 대한 복원력을 요구합니다. 하드웨어에 구애받지 않는 플랫폼 계층을 도입함으로써 국가는 멀티 벤더 전략을 통해 AI 발전을 최적화할 수 있으므로 글로벌 공급망의 변화에 관계없이 전략적 자율성이 유지됩니다. 소버린 플랫폼은 소프트웨어를 하드웨어에서 분리하고 인프라에 대한 엄격한 소유권과 시장 가용성에 적응할 수 있는 유연성을 결합해야 합니다. 오픈소스 표준을 준수함으로써 조직의 AI 기능은 단일 벤더의 로드맵 또는 하드웨어 독점과 독립적으로 검사, 감사, 유지 관리되어 서비스 연속성에 대한 절대적인 권한을 유지할 수 있습니다.

검증: Red Hat AI 설문조사에 따르면 IT 리더의 92%가 엔터프라이즈 오픈소스를 AI 전략에서 매우 중요하게 생각하는 것으로 나타났습니다. AI 공급망을 제어하는 데 필요한 일관성과 투명성을 제공합니다.

데이터 소버린티 (자산)

원칙: 데이터 중력은 절대적입니다. 민감한 데이터는 반드시 소버린 범위 내에 물리적으로 위치한 저장 매체에 보관되어야 하며, 오직 현지 법률에만 적용받아야 합니다. 과제는 데이터 사이언티스트가 클라우드에서 쉽게 데이터를 선택하고 검색할 수 있도록 하면서도 데이터 이동을 물리적으로 안전한 내부 네트워크로 제한하는 것입니다.

운영 소버린티 (제어)

원칙: "컨트롤 플레인"은 로컬이어야 합니다. 크리티컬 워크플로우는 다른 대륙에서 호스팅되는 서비스로서의 소프트웨어(SaaS) 콘솔에 의존하여 컴퓨팅 리소스 또는 사용자 액세스를 관리할 수 없습니다. 소버린 플랫폼에는 전체 로컬 경계 내에서 Identity 액세스 관리(IAM)와 리소스 오케스트레이션을 처리하는 독립형 컨트롤 플레인이 필요합니다.

기술 솔루션

Red Hat의 솔루션은 Red Hat AI가 통합 소버린 플랫폼 역할을 하여 Kubeflow의 훈련 기능과 Feast의 데이터 관리를 오케스트레이션하는 계층화된 아키텍처를 기반으로 합니다.

이 솔루션은 오픈소스 표준, 특히 쿠버네티스 기반을 제공하는 Red Hat OpenShift와 Kubeflow 프로젝트를 기반으로 합니다. 모델 레지스트리, KServe, 파이프라인 및 훈련, 기능 서빙을 위한 Feast 등 포함된 구성 요소를 사용하면 조직은 기술 스택에 대한 전체 소유권을 유지할 수 있습니다. 이러한 투명성을 통해 조직은 코드에 취약점이 있는지 검사하고 프로젝트 로드맵에 직접 기여할 수 있습니다. 여기서는 Kubeflow Trainer와 Feast가 이러한 주권 요구 사항을 지원하는 방법에 중점을 둡니다.

소버린 AI를 위한 오픈 청사진: Red Hat AI

진정한 소버린티를 실현하려면 기반 플랫폼이 처리하는 데이터만큼 신뢰할 수 있어야 합니다. Red Hat AI는 보호되는 독립형 AI 팩토리의 특정 요구 사항을 해결하는 강화된 엔터프라이즈급 기반을 제공합니다.

Red Hat AI는 인프라에 대한 완전한 독립성을 제공합니다. 에어 갭 베어 메탈, 프라이빗 클라우드 또는 신뢰할 수 있는 소버린 클라우드 파트너에 대한 배포를 지원합니다. 이를 통해 조직은 자체 하드웨어 벤더(예: NVIDIA, Intel, AMD)를 선택하고 서비스 연속성에 대한 절대적인 권한을 유지할 수 있습니다.

  • 신뢰할 수 있는 소프트웨어 공급망: 소버린티는 소스에서 시작됩니다. Red Hat AI는 인증을 받은, 취약점 검사 및 디지털 서명이 완료된 AI 툴들의 카탈로그를 제공합니다. 이를 통해 에어 갭(air-gap) 환경 내에서 실행되는 소프트웨어가 알려진 취약점으로부터 자유로워지며, 이는 국가 안보에 있어 중요한 요구사항입니다.
  • 통합 MLOps 컨트롤 플레인: 이 플랫폼은 파편화된 AI 기술 스택을 단일 인터페이스로 통합합니다. 운영 체제(Red Hat Enterprise Linux), 하드웨어(GPU), 애플리케이션 계층(Kubeflow/Feast) 간의 복잡한 의존성을 관리하여 데이터 과학자들이 인프라 구축보다는 모델링에 집중할 수 있도록 돕습니다.
  • 확장 가능한 하드웨어 추상화: Red Hat AI는 베어메탈 랙에서 실행되든 가상화된 프라이빗 클라우드에서 실행되든 관계없이 물리 리소스를 추상화합니다. 오퍼레이터를 사용하여 국가 슈퍼컴퓨터의 GPU와 같은 특수 하드웨어를 자동으로 조정하고 노출하여 사용자에게 복잡성을 노출시키지 않으면서 강력한 멀티테넌시를 지원합니다.

이러한 보안 기반을 구축한 Red Hat은 Red Hat OpenShift AI를 사용하고 있습니다. Red Hat AI 포트폴리오 내의 분산형 AI 플랫폼인 OpenShift AI는 조직이 AI 모델과 애플리케이션을 빌드, 튜닝, 배포, 관리할 수 있도록 지원합니다. 이는 중추신경계 역할을 하며 3가지 중요한 통합 기능, 즉 고성능 학습 엔진, 정확한 데이터 관리 계층, 최적화된 모델 서빙 프레임워크를 오케스트레이션합니다.

통합 컴퓨팅: Kubeflow Trainer

소버린 AI 팩토리의 경우 엄격한 제어 및 데이터 상주 요구 사항으로 인해 퍼블릭 클라우드 인프라에 의존하는 것이 옵션이 아닌 경우가 많습니다. 진정한 소버린티를 유지하려면 하드웨어를 소유하고 운영해야 합니다. 그러나 이러한 독립성에는 복잡한 분산 작업 스케줄링, 노드 장애 처리, 고부가가치 슈퍼컴퓨팅 자산의 효율적인 사용 등을 효과적으로 관리해야 합니다.

Kubeflow Trainer(OpenShift AI의 구성 요소)는 이러한 운영의 역설을 해결합니다. 이 플랫폼은 프라이빗 인프라에 클라우드 네이티브 사용 편의성을 제공하여 쿠버네티스에 대한 분산형 교육을 간소화하는 고성능 엔진 역할을 합니다. 이 플랫폼은 단편화된 워크플로우를 통합된 TrainJob API로 대체하므로 데이터 사이언티스트가 복잡한 인프라 코드를 다시 작성하지 않고도 PyTorch 및 TensorFlow와 같은 프레임워크를 확장할 수 있습니다.

  • 단순화: 기본 소버린 인프라를 추상화하여 대규모 분산 학습 태스크를 위한 일관된 단일 인터페이스를 제공합니다.
  • 신뢰성: Kubernetes JobSet API를 기반으로 구축되어, 분산 학습 클러스터 내 하나의 노드가 실패할 경우 전체 그룹이 올바르게 관리되도록 보장합니다(모두 실행되거나 모두 실행되지 않도록 스케줄링). 대규모 학습 작업이 완전히 실행되거나 완전히 다시 시작되므로 리소스 낭비를 줄이는 데 도움이 됩니다.
  • 통합: 기본적으로 Kueue(OpenShift AI의 스케줄링 스택의 일부)와 통합되어 작업 할당량과 대기열을 관리하고 기본 OpenShift 노드 풀에서 GPU 리소스를 동적으로 할당하므로 국가 컴퓨팅 자산이 가장 효율적으로 사용됩니다.

소버린 데이터: Feast 기능 저장소

진정한 데이터 소버린티를 실현하려면 포괄적인 데이터 전략이 필요하지만, 원시 데이터와 모델 사용 사이의 격차를 해소하려면 전문화된 구성 요소가 필요합니다. 컴퓨팅 엔진을 보완하는 Feast는 솔루션의 "메모리" 역할을 합니다. OpenShift를 기반으로 실행되는 Feast는 원시 데이터 인프라에서 모델을 분리하여 컴플라이언스와 재현 가능성을 개선합니다.

Feast는 '특정 시점'의 정확성을 관리하므로 특정 시점에 사용 가능한 데이터를 기반으로 모델을 학습시켜 데이터 유출을 방지하고 완전한 감사 기능을 지원합니다.

  • 오프라인 스토어 (예: MinIO): 또한 에어 갭(air-gap) S3 호환 오브젝트 저장소에 안전하게 연결하여 처리량이 많은 과거 데이터를 처리하여 훈련합니다.
  • 온라인 스토어 (예: Redis): 추론을 위해 대기 시간이 짧은 기능을 관리하므로 주권 경계 내에서 실시간으로 의사 결정이 내려집니다.
  • 기능 레지스트리: 기능 정의에 대한 단일 정보 소스를 제공하므로 플랫폼 전반의 모든 데이터 사이언티스트가 중요한 메트릭 (예: '환자 연령')을 동일하게 계산하여 소버린 인텔리전스의 무결성을 유지합니다.

라이프사이클 완료: 소버린 모델 서빙

진정한 소버린티는 학습을 넘어 전체 MLOps 라이프사이클을 포괄해야 합니다. Kubeflow에서 모델을 학습시킨 후에는 보안 경계를 벗어나지 않고 라이브 데이터를 처리하도록 배포해야 합니다.

OpenShift AI는 통합 모델 서빙 기능으로 이러한 루프를 종료합니다. 조직은 플랫폼 내 분산 추론을 위한 KServe, vLLM, llm-d 지원과 같은 툴을 활용하여 모델 아티팩트를 학습한 동일한 에어 갭 소버린 클러스터에 즉시 배포할 수 있습니다. 이는 다음을 의미합니다.

  • 내부(in-house) 추론 유지: vLLM 및 llm-d를 사용하면 사용자 쿼리(예: 의사의 진단 요청)와 실시간 데이터 스트림이 퍼블릭 API를 통과하지 않고 로컬에서 처리됩니다. 이러한 기술은 PagedAttention을 통해 GPU 메모리 사용을 최적화하고 대규모 파운데이션 모델을 여러 개의 소규모 GPU로 분할할 수 있도록 합니다. 이 최적화된 기능은 기업들이 고성능 생성형 AI를 자체 기존 인프라에서 호스팅할 수 있도록 하여, 비쌀 뿐만 아니라 소버린티가 없는 클라우드 API를 임대할 필요성을 피할 수 있게 해줍니다.
  • 통합 소버린티: 하드웨어 가속화에서 모델 모니터링에 이르기까지, Gather(Feast) → Training(Kubeflow) →Serve(OpenShift AI)의 전체 흐름은 사용자가 제어하는 소버린 인프라에서 실행됩니다.

이 기능은 개발 단계와 통합 단계, 모니터링 단계가 직접 연결되도록 하여, 규제를 받는 조직이 전체 과정을 내부에서만 실행할 수 있도록 합니다. 이를 통해 세계 수준의 AI 공장을 완전히 자체적으로 운영할 수 있습니다.

아키텍처

아래 다이어그램은 OpenShift AI가 소버린 플랫폼 계층으로 작동하여 에어 갭(air-gap) 환경에서 Kubeflow와 Feast를 실행하는 데 필요한 오케스트레이션, 보안, 하드웨어 관리를 캡슐화하는 방법을 보여줍니다.

Figure 1: high-level architecture diagram of Red Hat OpenShift AI

마무리

소버린 AI를 실현하려면 로컬 하드웨어뿐만 아니라 데이터의 중요성과 현대적인 AI 워크플로우의 복잡성을 존중하는 소프트웨어 아키텍처가 필요합니다.

조직은 OpenShift AI 내에서 Kubeflow Trainer 및 Feast와 같은 기술을 사용하여 다음과 같은 소버린 AI 팩토리를 구축할 수 있습니다.

  1. 설계를 통한 강화: 데이터는 보호되는 경계 내에서 스토리지에서 컴퓨팅으로 직접 이동하며, Red Hat의 엔터프라이즈급 역할 기반 액세스 제어(RBAC) 및 선택 사항인 연방 정보 처리 표준(FIPS) 컴플라이언스의 적용을 받음
  2. 확장성: OpenShift AI 및 Kubeflow Trainer에서 제공하는 자동화된 하드웨어 관리와 함께 쿠버네티스에서 분산형 학습의 강력한 기능 활용
  3. 재현 가능성: 기능 저장소(feature stores)를 사용하여 데이터의 재현성을 보장

이 솔루션은 국가와 기업이 독립성을 저해하지 않으면서 AI의 힘을 활용하여 소버린티 문제를 경쟁 우위로 전환할 수 있도록 지원합니다.

자체 소버린 AI 팩토리를 구축할 준비가 되셨나요?

  • 기술 관련 더 보기: 아키텍처를 구성하는 코드가 궁금하신가요? Red Hat Developer 블로그에 자세한 기술 튜토리얼이 있습니다. Feast와 Kubeflow Trainer로 RAG 검색 개선을 살펴보세요.
  • 플랫폼 더 보기: 자세한 개요를 보려면 Red Hat OpenShift AI를 방문하여 Red Hat의 엔터프라이즈급 플랫폼이 조직이 주권 및 보호 AI 애플리케이션을 규모에 맞게 빌드, 배포, 관리하는 데 어떻게 도움이 되는지 알아보세요.

리소스

적응형 엔터프라이즈: AI 준비성은 곧 위기 대응력

Red Hat의 COO 겸 CSO인 Michael Ferris가 쓴 이 e-Book은 오늘날 IT 리더들이 직면한 AI의 변화와 기술적 위기의 속도를 살펴봅니다.

저자 소개

Umberto Manganiello is a Staff Engineer at Red Hat since 2025. Prior to this, he spent over 15 years as a Principal Architect and Engineer in the Financial and Telecommunications sectors. He specializes in designing high-availability systems that operate at massive scale, leveraging deep expertise in Kubernetes, Kafka, and Cloud modernization. Currently, he applies this architectural discipline to the challenges of MLOps, with a focus on GenAI, OpenShift AI, and Kubeflow, blending cloud-native resilience with AI model training workflows.

UI_Icon-Red_Hat-Close-A-Black-RGB

채널별 검색

automation icon

오토메이션

기술, 팀, 인프라를 위한 IT 자동화 최신 동향

AI icon

인공지능

고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트

open hybrid cloud icon

오픈 하이브리드 클라우드

하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요

security icon

보안

환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보

edge icon

엣지 컴퓨팅

엣지에서의 운영을 단순화하는 플랫폼 업데이트

Infrastructure icon

인프라

세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보

application development icon

애플리케이션

복잡한 애플리케이션에 대한 솔루션 더 보기

Virtualization icon

가상화

온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래