llm-d가 SoftBank의 AI-RAN 오케스트레이터를 통해 핵심 리소스를 최적화하는 방법

2026년 2월 18일Tushar Katarki2분 읽기

AI-RAN의 기술적 실체가 가시화되면서, 많은 통신 서비스 제공업체는 이제 단순히 동일한 하드웨어에서 AI와 무선 접속망(RAN)을 함께 구동할 수 있느냐가 핵심이 아니라는 점을 깨닫고 있습니다. 진짜 중요한 문제는 대규모 환경에서 AI를 어떻게 관리하느냐입니다.

Red Hat은 SoftBank Corp.와 진행한 최신 협업을 통해 llm-d를 SoftBank의 AI-RAN 오케스트레이터인 AITRAS에 통합했습니다. Red Hat이 여러 업계 리더와 함께 설립한 llm-d는 RAN 내에서 대규모 언어 모델(LLM) 추론을 더욱 효율적으로 분산하고 성능을 높이도록 설계된 지능형 동적 오픈소스 프레임워크입니다.

llm-d에 대해 더 알아보고 싶으신가요? 입문자용 가이드(101 레벨)를 살펴보세요.

과제: 서비스 제공업체 엣지에서의 AI 및 RAN 워크로드 통합

전통적인 RAN 애플리케이션은 서비스 제공업체에 의해 엣지의 CPU 및 GPU에 광범위하게 배포되며, Red Hat OpenShift와 같은 쿠버네티스 플랫폼을 활용하는 경우가 많습니다. 최근 생성형 AI와 트랜스포머 기반 언어 모델이 급증하면서 엣지 환경에서 새로운 형태의 컴퓨팅과 인사이트 도출이 가능해지고 있습니다. 이제 전통적인 RAN 외에도, 엣지에서 런타임 및 추론 엔드포인트가 필요한 AI 기반 RAN 애플리케이션과 에이전트가 등장하고 있습니다.

따라서 서비스 공급업체에 중요한 문제는 새로운 활용 사례를 발굴하고 가치를 창출하며 수익화를 창출하기 위해 기존 RAN과 이러한 새로운 언어 모델 및 에이전트가 RAN 위치에서 효과적으로 공존하도록 지원하는 방법입니다. 이러한 통합은 운영 비용(OpEx)을 절감하고 수익을 창출하는 새로운 엣지 서비스의 시장 출시 기간을 단축하는 데 필수적입니다.

AI-RAN을 상용화하려면 서비스 제공업체는 클라우드 네이티브 네트워크 기능(CNF) 및 애플리케이션과 동일한 유연성을 바탕으로 AI 워크로드를 처리해야 합니다. AI-RAN을 위해 llm-d 및 vLLM을 사용하는 SoftBank와 Red Hat의 협업 사례를 확인해 보세요.

llm-d: 추론과 오케스트레이터 사이의 가교 역할

vLLM은 AI 추론 분야의 선도적인 오픈소스 프로젝트로 부상하여 단일 GPU 노드에서 고성능 모델 배포를 지원합니다. 하지만 vLLM은 복잡한 다중 노드 환경 전반의 모델 배포를 관리하도록 설계되지는 않았습니다. llm-d는 바로 이러한 문제를 해결하기 위해 구축되었습니다. llm-d는 쿠버네티스를 활용하여 여러 노드에서 vLLM을 오케스트레이션함으로써 프로덕션 규모의 AI 추론을 구현하고, vLLM의 효율성을 분산 환경으로 확장합니다.

llm-d를 SoftBank AITRAS 오케스트레이터에 통합함으로써 서비스 제공업체는 다음과 같은 주요 성과를 거둘 수 있습니다.

통합된 AI 및 RAN 워크로드: AITRAS는 여러 GPU 클러스터에서 RAN 워크로드와 LLM 요청을 오케스트레이션하고 최적화하며, llm-d와 vLLM은 지능적으로(접두사, kvcache 및 부하 인식) 추론 요청을 GPU로 라우팅하여 GPU 리소스를 더욱 원활하게 관리하고 자동 확장을 지원합니다.
하드웨어 인식 최적화: LLM(대규모 언어 모델) 추론은 두 가지 뚜렷한 단계로 나뉩니다. 바로 프리필(Prefill, 연산 집약적인 프롬프트 처리) 단계와 디코드(Decode, 메모리 대역폭에 제한을 받는 토큰 생성) 단계입니다. 이기종 구성 전반에서 하드웨어 활용도를 극대화하기 위해, AITRAS는 llm-d를 통해 각 단계에 전문화된 GPU 리소스를 동적으로 할당하여 사전 채우기와 디코딩 분리를 활용할 수 있습니다. 이 기능은 리소스 관리를 위한 다른 쿠버네티스 기능과 결합되어, 고성능 AI 수요가 동일한 하드웨어를 공유하는 핵심 RAN 기능의 리소스를 고갈시킬 수 있는 위험을 완화합니다. 이는 네트워크 복원력을 보호하고 모든 고객에게 우수한 서비스 품질(QoS)을 보장하는 데 필수적입니다.
가변적 수요에 따른 자율 확장: LLM 서비스에 대한 사용자 요청은 변동성이 매우 큽니다. AITRAS는 llm-d를 사용하여 워크로드 프로필에 따라 사전 채우기 및 디코딩 작업자 역할을 자동으로 할당하고 확장할 수 있습니다. 이러한 최적화된 할당은 사용자의 대기 시간을 줄이고 전력 소비를 크게 개선하여 총소유비용(TCO)을 낮추며 서비스 공급업체의 지속 가능성 목표 달성을 지원합니다.

5G와 6G의 미래에서 이 기술이 중요한 이유

AITRAS에 llm-d를 통합하면 엣지 환경의 AI를 위한 운영 체제를 효율적으로 제공할 수 있습니다. SoftBank는 이를 통해 Arm 기반 시스템을 비롯한 전력 효율적인 아키텍처에서 고성능 추론 및 RAN 워크로드를 실행할 수 있으며, 이는 AI-RAN이 차세대 모바일 네트워크에 필요한 확장성과 유연성을 확보할 수 있음을 입증합니다. 서비스 공급업체는 수동 구성에서 벗어나 자동화된 llm-d 기반 배포 모델로 전환함으로써 그동안 엣지 AI 도입의 걸림돌이었던 운영 복잡성을 해결할 수 있습니다.

서비스 공급업체는 네트워크가 단순히 데이터를 전송하는 단계를 넘어 데이터를 지능적이고 효율적으로 처리하는 시대로 진입하고 있습니다. MWC 바르셀로나 2026의 Red Hat 부스에서 이러한 통합의 결과에 대해 자세히 알아보세요. 전문가들이 llm-d와 AITRAS가 AI-RAN의 비전을 어떻게 실현하고 있는지 설명해 드립니다.

그동안 Red Hat AI의 이점을 살펴보고, SoftBank와의 협업을 통해 AI-RAN 기술을 개발하고 네트워크 성능을 최적화한 Red Hat의 노력에 대해 자세히 알아보세요.

심층 분석: llm-d 더 살펴 보기

저자 소개

Tushar Katarki

유사한 검색 결과

Blog post

자세히 알아보기

채널별 검색

모든 채널 탐색

llm-d가 SoftBank의 AI-RAN 오케스트레이터를 통해 핵심 리소스를 최적화하는 방법

과제: 서비스 제공업체 엣지에서의 AI 및 RAN 워크로드 통합

llm-d: 추론과 오케스트레이터 사이의 가교 역할

5G와 6G의 미래에서 이 기술이 중요한 이유

저자 소개

Tushar Katarki

유사한 검색 결과

자세히 알아보기

채널별 검색

플랫폼

툴

체험, 구매 & 영업

커뮤니케이션

Red Hat 소개

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links