대규모 언어 모델(LLM) 개념 증명(PoC)이 성공적으로 완료되었습니다. 이제 어떻게 해야 할까요? 단일 서버에서 프로덕션급 분산형 AI 추론으로 전환하는 과정에서 대부분의 기업은 어려움을 겪습니다. 지금까지는 충분했던 인프라도, 이제는 한계에 다다랐습니다.

Technically Speaking 팟캐스트의 최근 에피소드에서 논의된 바와 같이, 대부분의 조직의 AI 여정과 PoC는 단일 서버에 모델을 배포하는 것으로 시작합니다. 이는 관리 가능한 태스크입니다. 그러나 다음 단계에서는 분산된 프로덕션급 AI 추론으로 크게 도약해야 하는 경우가 많습니다. 이는 단순히 머신을 추가하는 문제가 아닙니다. 이를 위해서는 인프라 자체 내에 새로운 종류의 인텔리전스, 즉 고유하고 동적인 워크로드의 복잡성을 관리하는 데 도움이 될 수 있는 AI 인식 컨트롤 플레인이 필요합니다.

새로운 과제: 분산형 AI 추론(Distributed AI inference)

규모에 따라 LLM을 배포하면 기존 인프라로는 처리할 수 없는 일련의 과제가 발생합니다. 예를 들어 표준 웹 서버는 균일한 요청을 처리합니다. 반면 AI 추론 요청은 컴퓨팅, 메모리, 네트워킹에 대한 요구 사항이 다양하기 때문에 예측할 수 없고 리소스를 많이 사용합니다.

예를 들어, 현대적인 물류 시스템이라고 생각하시면 됩니다. 소규모 패키지를 한 도시에서 다른 도시로 이동하는 것은 간단합니다. 그러나 글로벌 공급망을 조정하려면 지능형 물류 관리 시스템이 필요합니다. 이 시스템은 수천 건의 배송을 추적하고, 다양한 유형의 화물을 동적으로 라우팅하며, 일정을 조정하여 모든 것이 정시에 도착할 수 있도록 합니다. 이러한 인텔리전스와 세심한 조정이 없으면 전체 시스템이 무너집니다. 마찬가지로, 지능형 인프라 계층이 없으면 AI 확장은 비효율적이고 비용이 많이 들며 신뢰할 수 없게 됩니다.

이러한 워크로드의 복잡성은 LLM 추론의 프리필 및 디코딩 단계와 관련이 있습니다. 사전 채우기 단계에서는 전체 입력 프롬프트를 한 번에 처리하고 계산 사용량이 많은 작업인 반면, 디코딩 단계에서는 출력 토큰을 한 번에 하나씩 생성하며 메모리 대역폭에 더 많이 의존합니다.

대부분의 단일 서버 배포는 이러한 두 단계를 동일한 하드웨어에 공동 배치하므로, 특히 다양한 요청 패턴이 있는 대용량 워크로드의 경우 병목 현상이 발생하고 성능이 저하될 수 있습니다. 실제 과제는 처리량을 극대화하고, 가장 많은 동시 요청을 처리하며, 엔터프라이즈 사용에 있어 매우 중요한 요소인 첫 번째 토큰 시간(사전 채우기 단계에서)과 토큰 간 대기 시간(디코드 단계에서)을 모두 최적화하여 정의된 서비스 수준 목표(SLO)를 일관되게 충족시키는 것입니다.

공동의 문제를 위한 공동의 비전

이처럼 복잡한 산업 전반의 과제를 해결하는 데 있어 오픈소스의 힘은 분명합니다. 하드웨어 벤더, 클라우드 제공업체, 플랫폼 빌더가 문제를 공유하는 경우 가장 효과적인 솔루션은 일반적으로 협업 솔루션입니다. 공유 오픈소스 프로젝트는 수십 개의 조직이 각자 독립적으로 동일한 문제를 해결하기보다 혁신을 가속화하고 공통 표준을 수립하는 데 도움이 됩니다.

llm-d 프로젝트는 이러한 협업의 대표적인 예입니다. Red Hat과 IBM Research가 시작한 이 프로젝트는 Google과 NVIDIA를 비롯한 업계 리더들이 공동으로 개발한 비전을 실현하기 위해 신속하게 참여했습니다. 

하나의 기술인 llm-d는 규모에 따라 AI 추론을 관리하기 위한 명확하고 입증된 청사진인 "밝게 비춰진 길"을 제공하도록 설계되었습니다. 커뮤니티는 처음부터 모든 것을 구축하는 대신 규모에 맞게 AI 워크로드를 실행하는 데 따른 운영상의 과제를 최적화하고 표준화하는 데 집중하고 있습니다.

llm-d: 프로덕션급 AI를 위한 청사진

llm-d 프로젝트는 AI 워크로드에 필요한 특정 기능으로 쿠버네티스를 강화하는 오픈소스 컨트롤 플레인을 개발하고 있습니다. 쿠버네티스를 대체하지는 않지만 전문화된 인텔리전스 계층을 추가하고 vLLM의 런타임 성능을 분산 계층으로 확장합니다. 

llm-d 커뮤니티는 다음과 같이 AI 추론 성능과 효율성에 직접적인 영향을 미치는 기능을 구축하는 데 중점을 두고 있습니다.

  • 시맨틱 라우팅(Semantic routing): llm-d의 스케줄러는 각 추론 요청의 고유한 리소스 요구 사항을 인식합니다. 워크로드를 실행할 위치를 더 스마트하게 결정하여 값비싼 리소스를 더 효율적으로 사용하고 비용이 많이 드는 오버 프로비저닝을 방지할 수 있습니다. 이는 모델의 키-값(KV) 캐시 사용률과 같은 실시간 데이터를 사용하여 요청을 최적의 인스턴스로 라우팅함으로써 기존의 부하 분산을 뛰어넘습니다.
  • 워크로드 분해(Workload disaggregation): llm-d는 복잡한 추론 태스크를 관리 가능한 더 작은 부분, 특히 사전 채우기 및 디코딩 단계로 분리합니다. 이를 통해 세분화된 제어 기능을 제공하고 이기종 하드웨어를 사용할 수 있으므로 적절한 태스크에 적합한 리소스를 사용하여 전반적인 운영 비용을 절감할 수 있습니다. 예를 들어, 프리필 포드(prefill pod)는 컴퓨팅 집약적인 작업에 최적화할 수 있는 반면, 디코드 포드는 메모리 대역폭 효율성에 맞게 조정할 수 있습니다. 이를 통해 모놀리식 접근 방식으로는 불가능한 수준의 세분화된 최적화가 가능합니다.
  • 고급 아키텍처 지원: llm-d는 혼합 전문가(MoE)와 같이 여러 노드에서 복잡한 오케스트레이션 및 병렬 처리가 필요한 이머징 모델 아키텍처를 처리하도록 설계되었습니다. llm-d는 광범위한 병렬 처리를 지원하므로 고밀도 모델보다 성능이 뛰어나고 비용 효율적인 스파스 모델을 효율적으로 사용할 수 있지만 규모에 따라 배포하기가 더 어렵습니다.

llm-d 커뮤니티는 고성능 컴퓨팅(HPC)와 대규모 분산 시스템과 같은 분야에서 최상의 아이디어를 채택하고 있으며, 이를 사용하기 어렵게 만들 수 있는 경직되고 전문화된 설정을 피하기 위해 노력하고 있습니다. 모델 제공을 위한 vLLM과 스케줄링을 위한 추론 게이트웨이와 같은 오픈 기술을 전략적으로 결합하여 하나의 통합 프레임워크를 구축하는 것입니다.

이러한 운영성과 유연성에 중점을 두는 것이 핵심 설계 원칙이며, 프로젝트는 NVIDIA, AMD, Intel과 같은 벤더의 여러 하드웨어 가속기를 지원합니다. llm-d는 다양한 하드웨어와 환경 전반에서 작동하는 유연한 컨트롤 플레인을 구축하여 엔터프라이즈 AI의 미래를 위한 강력하고 지속적인 표준을 확립하기 위해 노력하고 있습니다.

최종 의견

오늘날 AI 운영화에 주력하는 IT 리더들에게 llm-d 프로젝트의 가치는 커뮤니티를 넘어 확장됩니다. 이 오픈소스 연합에서 수행하고 있는 작업, 특히 지능형 AI 인식 컨트롤 플레인 개발은 오늘날 많은 조직이 직면한 프로덕션 과제에 대한 직접적인 대응입니다.

llm-d의 장점은 다음과 같습니다.

  • 단일 서버를 넘어 이동: LLM을 확장하는 것은 더 많은 머신을 추가하는 것이 아닙니다. 분산된 워크로드를 지능적으로 관리하고, 복잡한 하드웨어를 처리하고, 비용 및 성능을 최적화할 수 있는 전략적 인프라 계층을 구현하는 것이 핵심입니다.
  • 오픈 표준 활용: 가장 강력한 솔루션은 독점 사일로가 아닌 협업을 통한 오픈소스 노력에서 비롯됩니다. 이러한 오픈 표준에 부합하는 플랫폼을 도입하면 벤더 종속성을 방지하고 AI 이니셔티브를 위한 더욱 유연하고 미래 지향적인 환경을 제공할 수 있습니다.
  • 신뢰할 수 있는 파트너와 함께 운영: llm-d 프로젝트의 혁신을 활용하기 위해 분산 시스템 전문가이거나 직접 기여하지 않아도 됩니다. 커뮤니티에서 창출된 가치는 대규모 AI를 배포하고 관리할 수 있는 일관되고 신뢰할 수 있는 기반을 제공하는 Red Hat AI와 같은 지원되는 엔터프라이즈 플랫폼에 통합됩니다.

엔터프라이즈 AI의 미래는 견고한 인프라 기반에 달려 있습니다. 이러한 기반을 구축하는 것이 llm-d 커뮤니티의 역할이며, Red Hat AI와 같은 플랫폼이 이를 실행하는 데 도움이 될 수 있습니다.

리소스

적응형 엔터프라이즈: AI 준비성은 곧 위기 대응력

Red Hat의 COO 겸 CSO인 Michael Ferris가 쓴 이 e-Book은 오늘날 IT 리더들이 직면한 AI의 변화와 기술적 위기의 속도를 살펴봅니다.

저자 소개

Chris Wright is senior vice president and chief technology officer (CTO) at Red Hat. Wright leads the Office of the CTO, which is responsible for incubating emerging technologies and developing forward-looking perspectives on innovations such as artificial intelligence, cloud computing, distributed storage, software defined networking and network functions virtualization, containers, automation and continuous delivery, and distributed ledger.

During his more than 20 years as a software engineer, Wright has worked in the telecommunications industry on high availability and distributed systems, and in the Linux industry on security, virtualization, and networking. He has been a Linux developer for more than 15 years, most of that time spent working deep in the Linux kernel. He is passionate about open source software serving as the foundation for next generation IT systems.

UI_Icon-Red_Hat-Close-A-Black-RGB

채널별 검색

automation icon

오토메이션

기술, 팀, 인프라를 위한 IT 자동화 최신 동향

AI icon

인공지능

고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트

open hybrid cloud icon

오픈 하이브리드 클라우드

하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요

security icon

보안

환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보

edge icon

엣지 컴퓨팅

엣지에서의 운영을 단순화하는 플랫폼 업데이트

Infrastructure icon

인프라

세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보

application development icon

애플리케이션

복잡한 애플리케이션에 대한 솔루션 더 보기

Virtualization icon

가상화

온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래