이 블로그는 최근 Red Hat Research Quarterly의 기사 '사일로에서 스타트업: 산업의 AI 성장에 대학이 참여해야 하는 이유'에 실린 캘리포니아대학교 버클리 캠퍼스의 Ion Stoica와의 최근 대화 내용을 발췌한 것입니다. 전체 대화 내용은 여기에서 읽어보세요.

지난 몇 년 동안 인공지능(AI)에 대한 이야기는 대규모 언어 모델(LLM)과 이를 훈련하기 위한 엄청난 노력이 주도해 왔습니다. 기술 산업은 탐색 단계에 집중해 왔지만, 그 시대는 빠르게 변화하고 있습니다.

대화의 초점은 '모델을 어떻게 구축할 것인가?'에서 '모델을 프로덕션 환경에서 규모에 맞게 실행하려면 어떻게 해야 할까요?'로 이동하고 있습니다.

이러한 변화는 기술적 세부 사항 이상입니다. 즉, 엔터프라이즈 AI의 새로운 중심입니다. AI가 연구실을 떠나 핵심 비즈니스 역량이 되면 초점은 바로 추론에 집중됩니다. 즉, 학습된 모델이 답변을 생성하거나 조치를 취하기 전에 훈련된 모델의 '두뇌'에서 시냅스를 발사하는 것입니다. 그리고 기업에서 추론은 빠르고 비용 효율적이며 완벽하게 제어되어야 합니다.

추론 과제에 대한 오픈소스의 답변

AI를 기술검증(POC)에서 신뢰할 수 있는 프로덕션급 서비스로 전환하면 IT 리더에게 상당한 복잡성, 비용, 제어 문제가 발생합니다.

첫째, 이러한 모델을 특히 엔터프라이즈에 필요한 규모로 실행하는 데 필요한 하드웨어는 비싸고 종종 부족합니다. 둘째, 수요를 예측할 수 없습니다. 사용량이 급증한 후 장기간에 걸쳐 활동량이 감소할 수 있으며, 이는 수백 개의 도메인 목적 모델 변형에서 복합적으로 나타날 수 있습니다. 이러한 변동성으로 인해 리소스 활용도를 극대화하고 중요한 투자 자산을 보호하기가 매우 어렵습니다.

우리는 오픈소스 커뮤니티가 LLM 제공을 위한 성능과 효율성 최적화에 집중함으로써 이러한 과제를 해결하는 것을 확인했습니다. 이러한 변화를 주도하는 가장 성공적인 프로젝트 중 하나는 캘리포니아 대학교 버클리의 Sky Computing Lab에서 Ion Stoica의 주도 하에 설립된 vLLM입니다. Ion이 대화에서 언급했듯이 이러한 학술적 뿌리는 매우 중요합니다. 이는 대학의 연구가 가장 시급한 실제 추론 문제를 어떻게 직접적으로 해결하는지 보여줍니다. vLLM은 처리량을 극대화하고 대기 시간을 최소화하기 위해 속도와 효율성을 고려하여 설계된 엔진인 고성능 LLM 서빙의 사실상의 핵심으로 빠르게 자리 잡았습니다.

기업을 위한 커뮤니티 혁신 강화

vLLM과 같은 커뮤니티 프로젝트는 혁신이 시작되는 곳이지만 엔터프라이즈 프로덕션 환경의 엄격한 요구 사항을 충족하도록 조정되어야 합니다. 신뢰할 수 있는 Linux 및 쿠버네티스 전문가로서 Red Hat의 가치는 바로 여기에서 결정됩니다.

Red Hat은 vLLM의 획기적인 작업을 다른 커뮤니티 기반 프로젝트와 결합하여 프로덕션 AI를 위한 강화되고 지원되며 확장 가능한 플랫폼을 구축하고 있습니다. 이러한 진화의 핵심 구성 요소는 클러스터 규모 이상에서 LLM을 관리하기 위한 분산 추론 프레임워크인 llm-d입니다.

Red Hat은 llm-d를 통합함으로써 LLM이 쿠버네티스에서 기본적으로 실행되는 방식을 근본적으로 바꾸고 있습니다. 이를 통해 제어, 일관성, 효율적인 리소스 스케줄링과 같은 컨테이너 오케스트레이션의 입증된 가치를 지금까지 AI의 가장 어려운 단계인 고용량, 가변 수요 추론에 적용할 수 있습니다.

이러한 결합을 통해 조직은 다음을 수행할 수 있습니다.

  • 인프라 비용 극대화: 쿠버네티스 오케스트레이션을 활용하여 대규모 모델의 분산형 서빙을 지원합니다. 이를 통해 IT 팀은 여러 워크로드와 모델 전반에서 비싸고 제한된 하드웨어 가속기를 최대한 활용하여 인프라를 사일로화된 하드웨어가 아닌 탄력적인 컴퓨팅 용량 풀로 취급할 수 있습니다.
  • 응답 시간 단축: 분산 추론은 예측할 수 없는 수요를 지능적으로 관리하여 애플리케이션이 대기 시간 급증 없이 필요한 응답을 얻을 수 있도록 합니다.
  • 안심하고 배포 가속화: Red Hat은 최첨단 연구 및 커뮤니티 혁신에서 강화되고 지원되는 소프트웨어에 이르기까지 신뢰할 수 있는 경로를 제공합니다. 이를 통해 AI 엔지니어의 가치 창출 시간을 단축하고 플랫폼 팀에 필요한 관리 및 거버넌스 제어 기능을 제공합니다.

AI를 위한 필수 오픈 모델

Ion과 저는 학술 연구에서 시작하여 오픈소스 커뮤니티를 통해 발전하고 마침내 엔터프라이즈 규모를 위해 안정화되고 지원되는 vLLM과 llm-d를 제공한 혁신 파이프라인이 향후 10년 동안 AI 도입을 정의할 모델이라는 데 동의합니다.

AI가 진정으로 필수적인 비즈니스 툴이 되기 위해서는 독점 랩에 격리되거나 기술 검증(POC)에 국한되어서는 안 됩니다. 액세스 가능하고, 투명해야 하며, 협업을 통해 지속적으로 개선할 수 있는 기반 위에 구축되어야 합니다. Red Hat은 오픈 하이브리드 클라우드가 이러한 혁신을 운영하기에 최적의 환경을 조성하여 기업이 데이터를 소유하고, 나아가 그들의 미래를 주도하며, 진화하는 AI 환경에 자신 있게 대응하는 데 필요한 기반을 제공하는 것을 목표로 합니다.


저자 소개

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

UI_Icon-Red_Hat-Close-A-Black-RGB

채널별 검색

automation icon

오토메이션

기술, 팀, 인프라를 위한 IT 자동화 최신 동향

AI icon

인공지능

고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트

open hybrid cloud icon

오픈 하이브리드 클라우드

하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요

security icon

보안

환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보

edge icon

엣지 컴퓨팅

엣지에서의 운영을 단순화하는 플랫폼 업데이트

Infrastructure icon

인프라

세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보

application development icon

애플리케이션

복잡한 애플리케이션에 대한 솔루션 더 보기

Virtualization icon

가상화

온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래