우리가 llm-d를 CNCF에 기여하는 이유: AI의 미래 표준화

2026년 3월 24일2분 읽기

SVP and CTO for AI

현재 Red Hat은 llm-d를 CNCF(Cloud Native Computing Foundation)에 샌드박스 프로젝트로 기여하고 있습니다.

이것은 단순히 코드를 전달하는 것이 아닙니다. 고성능 AI 서빙을 클라우드 네이티브 스택의 이식 가능한 핵심 기능으로 만들기 위한 노력입니다. Red Hat은 2025년 5월에 llm-d를 출시했을 때 AI 실험과 미션 크리티컬 프로덕션 추론 사이의 대규모 기능 격차를 해결하기 위해 노력하기 시작했습니다. Red Hat은 llm-d를 CNCF로 이전함으로써 CoreWeave, IBM, Google, NVIDIA를 포함한 멀티벤더 연합의 목표를 확장하여 분산 추론을 위한 개방형 표준을 구축하고 있습니다.

에이전틱 AI 시대의 원동력이 되는 추론

에이전틱 AI의 미래로 접어들면서 엔터프라이즈 에이전트의 방대한 도메인을 뒷받침하는 AI 추론은 크게 확장될 전망입니다. 추론의 비용과 복잡성이 에이전트 자체의 비즈니스 가치를 넘어서지 않도록 하는 것이 중요해집니다. 하지만 추론은 엄청난 비용이 발생할 수 있으며 전문화된 가속기를 대량으로 소모하고, 규모가 커질수록 비용이 더욱 치솟을 수 있습니다. llm-d의 고급 기능은 이 문제를 직접 해결하여 인프라 효율성을 극대화하는 동시에 엔터프라이즈 서비스 수준 목표를 달성합니다. 또한 조직은 데이터 센터, 클라우드 또는 엣지 등 하드웨어 선택에 관계없이 적합한 곳이라면 어디든 추론을 배포할 수 있는 유연성이 필요합니다. 이러한 유연성은 기반 에코시스템이 오픈소스 및 오픈 표준을 기반으로 구축된 경우에만 가능합니다.

클라우드 네이티브 환경의 격차 해소

쿠버네티스는 오케스트레이션의 업계 표준이지만, 원래 대규모 언어 모델(LLM) 추론의 고유한 스테이트풀 요구 사항을 위해 구축된 것은 아닙니다. 기존 마이크로서비스에서 요청은 하나의 요청일 뿐이며, 각 복제본은 이를 동등하게 처리할 수 있습니다. 생성형 AI에서 요청 비용은 프롬프트 및 출력 토큰 길이, 모델 크기 및 아키텍처, 캐시 지역성, 그리고 모델이 프리필(컴퓨팅 바운드) 또는 디코딩(메모리 바운드) 단계에 있는지 여부에 따라 크게 달라집니다.

표준 서비스 라우팅은 이러한 역학 관계를 파악하지 못하기 때문에 배치가 비효율적이고 예측할 수 없는 대기 시간이 발생합니다. 이 부분에서 llm-d가 격차를 해소합니다. llm-d는 KServe와 같은 상위 수준의 컨트롤 플레인과 vLLM과 같은 하위 수준의 엔진 사이에서 전문화된 데이터 플레인 오케스트레이션 계층 역할을 합니다. Gateway API 및 LeaderWorkerSet(LWS)과 같은 쿠버네티스 네이티브 기본 요소를 사용하여 복잡한 분산 추론을 관리 및 관측 가능한 클라우드 네이티브 워크로드로 변환합니다.

기여를 통한 에코시스템 강화

Red Hat은 llm-d를 CNCF에 기여함으로써 단편화된 AI 구성 요소를 상호 운용 가능한 모듈식 마이크로서비스로 전환하는 입증되고 복제 가능한 청사진인 명확한 경로를 구축하고 있습니다. 이러한 기여는 단일 프로젝트 이상의 의미를 갖습니다. 즉, 추론이 기존 컨테이너 기반 애플리케이션과 동일한 환경에서 일급 시민(first-class citizen)으로 대우받을 수 있도록 전체 클라우드 네이티브 환경을 강화하는 것입니다.

이 작업의 핵심은 엔드포인트 선택기(EPP)입니다. llm-d는 쿠버네티스 Gateway API 추론 확장(GAIE)의 기본 구현 역할을 하며, EPP는 프로그래밍 가능한 추론 인식 라우팅을 지원합니다. 즉, 시스템이 엔진의 실제 상태를 기반으로 라우팅 결정을 내림으로써 KV 캐시 적중률과 하드웨어 가속기 특성에 맞게 최적화합니다. 이는 엄격한 서비스 수준 목표에 따라 지속적인 처리량을 유지하기 위한 기본 요구 사항입니다.

llm-d는 CNCF 내의 기존 환경을 보완하고 확장합니다.

쿠버네티스: AI 워크로드를 위한 기본 인프라 플랫폼을 제공합니다.
Gateway API: AI 전용 라우팅을 위한 업스트림 조정을 추진하여 트래픽 관리가 핵심 오픈 소스 구성 요소로 유지되도록 합니다.
KServe: 분산 서빙 및 접두사 캐싱과 같은 고급 기능을 지원하기 위해 llm-d와 통합되는 상위 수준의 컨트롤 플레인 역할을 합니다.
LeaderWorkerSet: 쿠버네티스 네이티브 기본 요소를 사용하여 복잡한 다중 노드 복제본과 전문가 병렬 처리를 오케스트레이션하며, vLLM과 같은 엔진을 관리 가능한 클라우드 네이티브 워크로드로 전환합니다.
Prometheus 및 Grafana: 생성형 AI에 엔터프라이즈급 관측성을 제공하기 위해 TTFT(Time To First Token)와 같은 전문 메트릭을 추출합니다.

추론의 미래를 위한 공동 확장

협업은 시작 단계부터 llm-d의 핵심이었습니다. Red Hat이 작년 Red Hat Summit에서 llm-d를 발표했을 때, 프로젝트의 창립 기여자, 업계 리더 및 학술 지지자들의 공동 노력은 Red Hat의 자부심이었습니다. 이는 llm-d를 출시했을 뿐만 아니라 미래에 대비한 협업 기반을 구축했다는 점에서도 큰 의미가 있습니다. 이후 10개월 동안 llm-d는 엔터프라이즈 AI 프라이빗 MaaS와 대규모 AI 이니셔티브에 모두 도입되었습니다. 더 중요한 점은 기여자 및 파트너로 구성된 에코시스템이 성장함에 따라 프로젝트의 오픈 소스 뿌리가 더욱 깊어지고 있다는 사실입니다. 개발자와 기업은 llm-d를 신뢰하고 있으며, 프로젝트를 CNCF에 기여함으로써 개방형 미래를 지원하고 유지할 수 있습니다. 성공적인 오픈소스 AI 혁신을 위한 여정은 길지만, 우리는 이를 달성하기 위한 인프라를 함께 구축하고 있습니다.

저자 소개

Brian Stevens

SVP and CTO for AI

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

유사한 검색 결과

Blog post

채널별 검색

모든 채널 탐색

우리가 llm-d를 CNCF에 기여하는 이유: AI의 미래 표준화

에이전틱 AI 시대의 원동력이 되는 추론

클라우드 네이티브 환경의 격차 해소

기여를 통한 에코시스템 강화

추론의 미래를 위한 공동 확장

저자 소개

Brian Stevens

유사한 검색 결과

채널별 검색

플랫폼

툴

체험, 구매 & 영업

커뮤니케이션

Red Hat 소개

페이지 언어 변경

Red Hat legal and privacy links

Red Hat legal and privacy links