Red Hat은 이전 버전의 Red Hat OpenShift AI를 통해 엔터프라이즈 AI 인프라를 위한 견고한 기반을 구축했습니다. 오늘 OpenShift AI 3.3의 릴리스를 통해 Red Hat은 AI 프로젝트가 프로덕션 단계에 도달하지 못하게 하는 양극화 요인, 즉 엄격한 거버넌스의 필요성과 신속한 개발자 액세스에 대한 수요를 해결하고 있습니다.

OpenShift AI 3.3은 AI 자산의 중앙화된 허브를 관리하는 동시에 멀티모델, 멀티에이전트의 미래에 맞게 최적화하도록 설계된 툴 제품군을 도입합니다.

중앙화된 자산: AI 허브

기업들이 단일 모델 활용 사례를 넘어서는 단계로 나아가면서, 필요한 자산을 쉽게 찾고 활용할 수 있는 검색 가능성(discoverability)이 새로운 병목 지점이 되고 있습니다. 플랫폼 팀은 AI 자산을 위한 신뢰할 수 있는 단일 기준 정보원(single source of truth)이 필요합니다. 즉, 배포 구성을 하기 전에 모델을 등록하고 버전 관리할 수 있어야 하며, 이미 배포된 모델도 한눈에 확인할 수 있어야 합니다. 

또한 이러한 모델을 가장 잘 배포하는 방법에 대한 지향점이 필요합니다. 하드웨어 요구 사항을 평가하고 예상 대기 시간과 처리량을 이해하기가 어렵기 때문입니다. 

AI 허브는 이러한 요구를 충족하는 것을 목표로 합니다. AI 허브는 OpenShift AI 3.3의 대규모 언어 모델(LLM)에서 향후 릴리스의 Model Context Protocol(MCP) 서버에 이르기까지 조직의 AI 자산을 위한 중앙 리포지토리 역할을 합니다.

OpenShift AI 3.3에서 AI 허브는 성능, 비용, 하드웨어 요구 사항의 균형에 대한 Red Hat AI 모델 검증 프로그램의 성능 인사이트와 지향점을 제공합니다. 이러한 인사이트는 플랫폼 팀이 배포를 시작하기 전에 개발자가 가장 효율적인 구성을 선택하도록 지원합니다.

규모에 따른 거버넌스: Model-as-a-Service(MaaS)

자체 GPU를 구성 및 관리하고 이를 기반으로 AI 모델을 배포하는 경우 AI 애플리케이션을 빌드하기가 어렵습니다. 대부분의 개발자, AI 엔지니어, 데이터 사이언티스트는 이미 가동되어 실행 중인 모델의 엔드포인트로 시작하는 것을 선호합니다. 이러한 추가 작업을 모두 수행하도록 요구하면 속도가 느려지고 가치 창출 시간이 단축됩니다. 이는 비용, 시간 또는 거버넌스 측면에서 확장 가능하거나 효율적이지 않습니다. 

반면 플랫폼 팀은 이러한 모델을 모든 사람에게 제공하여 데이터 사이언티스트와 비즈니스 팀이 필요한 모델을 갖추도록 지원함으로써 애플리케이션 플랫폼에 사용하던 패러다임을 확장할 수 있습니다. 

이 시나리오에서 플랫폼 팀은 모델 서빙과 최적화를 처리하며, 역할 기반 액세스 정책을 통해 제어하고 사용 제한 및 조건을 설정하며 모델 버전 관리를 처리할 수 있는 중앙집중식 AI 모델 세트를 제공합니다. 그동안 최종 사용자는 제공된 API 엔드포인트를 사용하여 원활하게 구축 작업을 시작할 수 있습니다.

OpenShift AI 3.3은 조직이 자체 내부 AI 모델 제공업체가 될 수 있도록 설계된 MaaS의 기술 프리뷰를 제공합니다.

  • 관리자 기능: UI에서 세분화된 속도 제한 정책을 정의합니다. 예를 들어 일상적인 작업에 사용되는 소규모 모델에는 높은 할당량을 할당하고, 리소스 집약적인 프론티어 모델에는 더 엄격한 제한을 적용할 수 있습니다.
  • llm-d를 사용하여 최적화된 라우팅: 이 기능은 쿠버네티스 네이티브 분산 추론 프레임워크인 llm-d와 함께 작동합니다. 사용자가 정책을 설정하면 llm-d가 요청 라우팅을 최적화하므로 서비스 수준 계약(SLA)을 위반하지 않고 하드웨어를 최대한 효율적으로 사용할 수 있습니다.

개발자 생산성 향상: 생성형 AI 스튜디오

플랫폼 팀이 배포한 모델이나 자산은 AI 엔지니어와 개발자가 즉시 활용할 수 있도록 중앙에서 등록하고 노출해야 합니다.

개발자에게는 이러한 모델과 자산을 실험할 수 있는 중앙 공간도 필요합니다. 인프라 배포의 복잡성을 추상화하는 동시에, 플러그 앤 플레이 방식을 통해 각자의 사용 사례에 가장 적합한 모델, 프롬프트 또는 툴을 찾을 수 있어야 합니다. 

Red Hat이 기술 프리뷰로 출시한 생성형 AI 스튜디오는 개발자가 프롬프트 단계에서 파일럿 단계로 나아가는 데 필요한 플레이그라운드와 툴을 제공합니다.

  • AI 플레이그라운드: 프롬프트, 모델 파라미터, Model Context Protocol(MCP) 툴을 실험할 수 있습니다. OpenShift AI 3.3에서는 자체 MCP 서버를 가져오고 특정 툴을 활성화 또는 비활성화할 수 있어, 신뢰할 수 있는 에이전틱 AI 동작에 필요한 결정성을 확보할 수 있습니다. OpenShift AI 3.3의 "코드 보기" 기능을 사용하면 OpenShift AI UI에서 로컬 환경으로 전환할 때 플레이그라운드 구성을 확인하고 복사할 수 있습니다. 향후 로드맵에서는 프롬프트 관리, 검색 증강 생성(RAG) 기능, MCP 툴 선택 개선을 포함한 코드 내보내기 기능을 통해 AI 엔지니어의 경험을 더욱 강화할 예정입니다.
  • AI 자산 엔드포인트: 이 엔드포인트를 통해 API 키와 엔드포인트를 즉시 검색하여 로컬 IDE에서 바로 테스트를 시작할 수 있습니다.

프로덕션 격차: 지속적인 평가와 최적화

프로덕션 배포의 가장 큰 장애물 중 하나는 모델 구축 자체가 아니라, 비용을 관리하고 품질 저하를 방지하는 것입니다.

  • 모델 압축을 통한 비용 최적화: OpenShift AI 3.3은 오픈소스 툴인 LLM Compressor(GitHub) 및 GuideLLM(GitHub)를 위한 가이드형 워크벤치를 도입했습니다. 이 툴들은 Red Hat 모델 검증 프로그램의 일환으로 모델 벤치마킹 및 압축을 위해 Red Hat이 주도하고 사용하는 툴입니다. 이제 사용자의 환경 내에서 직접 모델을 벤치마킹하고, 양자화 등을 통해 압축하며, 성능 향상 정도를 비교할 수 있습니다. 압축된 모델의 가치에 대한 자세한 내용은 이 LLM Compressor 블로그 포스트를 참조하세요.
  • MLflow를 사용한 실험 추적: MLflow 통합에 대한 개발자 프리뷰를 새롭게 공개합니다. 압축과 벤치마킹이 즉각적인 성능 문제 해결에 초점을 둔다면, MLflow는 AI 라이프사이클 전반의 과거 기록(historical memory) 역할을 합니다. guidellm 결과와 애플리케이션 응답을 MLflow에 기록하면 시간 경과에 따른 회귀와 품질을 추적할 수 있습니다. 이를 통해 최적화 과정에서 정확성이 저하되지 않도록 보장합니다.
  • 루프 시각화: 이제 MLflow 대시보드 내에서 압축 실험과 추론 대기 시간 사이의 직접적인 상관관계를 확인할 수 있습니다. 이를 통해 성능 문제 해결 시 추측이 아닌 데이터에 기반한 의사결정이 가능해집니다.

Red Hat OpenShift AI 체험하기 

OpenShift AI 3.3의 기능은 플랫폼 내 AI 역량에 대한 액세스를 관리하는 방식을 혁신하도록 설계되었습니다. OpenShift AI 3.3을 설치하여 AI 허브를 경험하고, 생성형 AI 스튜디오와 새로운 최적화 워크벤치를 미리 살펴볼 수 있습니다. 자세한 내용은 보도 자료를 참조하세요.

OpenShift AIRed Hat 제품 체험 센터에서도 사용해 볼 수 있습니다. 이 서비스를 통해 60일 동안 완전 관리형 환경에 무료로 액세스하여 프로덕션급 툴을 테스트할 수 있습니다.

제품 체험판

Red Hat OpenShift AI(자체 관리형) | 제품 체험판

하이브리드 클라우드를 위한 오픈소스 머신 러닝(ML) 플랫폼입니다.

저자 소개

Jenny is a Technical Product Manager at Red Hat AI, where she focuses on the end-to-end platform experience for Red Hat AI Enterprise. She joined Red Hat through the Neural Magic acquisition, where she created user interfaces for LLM benchmarking and an AI control plane. Before moving into AI, she consulted for healthcare organizations and public health agencies, experiences that shape her focus on building AI tooling that supports practitioners in high-stakes, deeply specialized domains.

Jehlum is a Product Manager in the Red Hat AI team. She's focused on building platforms for generative AI applications. I am especially interested in data processing, observability, safety, evaluation - all key components to build production-grade generative AI applications on platforms that scale.

Taylor specializes in helping global enterprises transition Generative AI from experimental pilots to production-scale deployments. A specialist in large-scale inference and agentic systems, Taylor bridges the gap between complex infrastructure and practical application development. She is a dedicated advocate for open-source ecosystems, leveraging projects such as vLLM, llm-d and MLflow to build sovereign, secure, and observable AI stacks. Her work is centered on empowering organizations to reclaim control over their AI lifecycle through transparent and scalable open-source solutions.

UI_Icon-Red_Hat-Close-A-Black-RGB

채널별 검색

automation icon

오토메이션

기술, 팀, 인프라를 위한 IT 자동화 최신 동향

AI icon

인공지능

고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트

open hybrid cloud icon

오픈 하이브리드 클라우드

하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요

security icon

보안

환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보

edge icon

엣지 컴퓨팅

엣지에서의 운영을 단순화하는 플랫폼 업데이트

Infrastructure icon

인프라

세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보

application development icon

애플리케이션

복잡한 애플리케이션에 대한 솔루션 더 보기

Virtualization icon

가상화

온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래