AI 추론에 주목해야 하는 이유

간단히 말해, 추론 없이는 AI도 없습니다. 

추론은 생성형 AI의 핵심입니다. 그런데 대규모 모델이 그보다 더 방대한 전략을 실행해야 할 때 상황은 복잡해질 수 있습니다. 

이것이 바로 Red Hat이 vLLM을 활용한 모델 최적화부터 lld-m과 같은 최신 오픈소스 분산 프레임워크에 이르기까지 AI 추론에 수반되는 도전 과제와 기회들을 분석하고 있는 이유입니다.

회색 노드 네트워크에 연결된 중앙 레드 큐브

추론의 중요성이 큰 이유는 무엇일까요?

추론은 모델이 원하는 결과를 도출해내는, 길고 복잡한 머신 러닝 프로세스의 최종 단계입니다. 

가장 중요한 점은 추론이 AI의 성공을 위한 필수적인 기능이라는 것입니다. 

그렇기 때문에 추론 기능을 지원하는 하드웨어와 소프트웨어가 AI 전략의 성패를 좌우할 수 있습니다.

AI 스파클 그래픽과 함께 큐브 모양으로 형성된 그레이 블록과 레드 블록

확장을 방해하는 요소는 무엇일까요?

추론은 계속해서 규모가 커지는 모델로 인해 많은 압박을 받습니다. 모델이 복잡해질수록 추론 속도가 느려집니다.

성공적으로 추론하려면 AI 모델이 단기간에 많은 연산을 수행해야 합니다. 따라서 모델 규모, 높은 사용자 볼륨, 대기 시간과 같은 요인은 모두 성능을 제한할 수 있습니다.

모델에 필요한 데이터와 메모리가 늘어날수록 하드웨어와 가속기가 따라잡기 어렵습니다.

66%

2023년의 33%, 2025년의 50% 수준보다 더 증가할 것으로 예상되는 2026년 AI 컴퓨팅 리소스의 소비 비율.1

그렇다면 어떻게 하면 추론을 개선할 수 있을까요?

추론을 최적화하면 AI 모델은 더 빠르고 더 스마트하게 실행될 수 있습니다.

최적화 방법으로는 GPU의 효율적인 처리, 추측 디코딩, 희소화, 양자화 기술을 이용한 모델 압축, 그리고 분산 추론 등이 있습니다.

LLM Compressor와 같은 툴에 최신 모델 압축 연구를 적용하면 LLM의 규모와 속도, 그리고 에너지 효율성을 개선할 수 있습니다. 그 결과 정확성을 잃지 않으면서 하드웨어 요구 사항을 줄이고 효율성을 향상시킬 수 있습니다.

이와 같은 최적화는 AI 추론을 경제적으로 유지하는 데 도움이 되며 팀의 성장 규모와 함께 확장될 수 있습니다.

99% 이상

LLM Compressor를 통해 최적화 과정에서 유지된 정확도.2

서클 그래프

2배

압축된 모델을 사용해 정확도를 유지하면서 증가된 컴퓨팅 처리량.3

50%

LLM Compressor로 모델을 최적화할 때 성능 저하 없이 달성 가능한 비용 절감율.4

pig

vLLM은 추론을 어떻게 최적화하나요?

모델 최적화로는 아직 부족합니다. 고성능 추론 엔진도 필요합니다. 바로 그 지점에서 vLLM이 도움이 될 수 있습니다.

기존의 LLM 메모리 관리 시스템은 메모리를 효율적으로 구성하지 못해 LLM의 속도를 늦춥니다. 반면 vLLM은 PagedAttention이라는 메모리 관리 기술을 사용하여 반복되는 키 값을 식별해 LLM의 추가 작업을 줄여줍니다.

이를 통해 vLLM은 GPU 메모리를 더 잘 활용하고 생성형 AI 추론 속도를 높일 수 있습니다. vLLM은 동시에 다수의 사용자에게 서비스를 제공하기 위해 처리량(초당 처리되는 토큰 수)을 극대화합니다.

가속기를 더 효율적으로 사용한다는 것은 모델이 더 짧은 시간 안에 더 많은 연산을 수행할 수 있음을 의미합니다. 따라서 팀은 더 많은 사용자와 에이전트에게 더 빠르게 서비스를 제공할 수 있습니다.

50%

희소화 구조를 사용할 때 감소하는 매개변수의 비율.5

서클 그래프

2.1배

추측 디코딩 기술을 통한 추론 대기 시간 단축률.6

24배

경쟁사 대비 vLLM을 통한 처리량 성능 증가율.7

vLLM은 왜 인기가 높은 것일까요?

vLLM은 효율적인 GPU 활용과 관련된 핵심 문제를 해결함으로써 토큰당 비용을 절감하고 대기 시간을 대규모로 안정화시켰으며 이를 이식 가능한 개방형 배포 방식으로 가능하게 했습니다.

이것이 바로 vLLM 커뮤니티가 활발하고 생동감 있게 운영되는 이유입니다. Hugging Face, 캘리포니아 버클리 대학교, NVIDIA, Red Hat, 그 외 많은 열정적인 단체들이 vLLM 커뮤니티에 기여하고 있습니다. 이 커뮤니티는 오픈소스 프로젝트에서 소프트웨어에 끊임없이 도전하고 이를 개선해 나갑니다.

모든 주요 모델과 가속기에 대한 Day 0 지원을 제공하는 등 vLLM의 접근성은 업계와 학계 모두에게 매력적으로 다가옵니다.

10,000개 이상

2025년 vLLM GitHub 커밋 수*(200% 이상 증가)

vLLM 커뮤니티 현황

50만 개 이상

1년 365일 가동되는 GPU 수8

200개 이상

가속기 유형 수9

500개 이상

지원되는 모델 아키텍처 수9

2,200곳 이상

고유 기여자 수9

분산 추론은 어디에 적합할까요?

분산 추론은 AI 모델이 추론 작업을 상호 연결된 여러 기기에 분배하도록 하는 것을 말합니다.

모델이 서로 다른 요청을 동시에 처리할 수 있게 되면 필요한 하드웨어가 크게 줄어들고 추론 효율성이 높아집니다.

분산 추론은 텐서 병렬 처리, 지능형 추론 스케줄링, 분리와 같은 기술을 사용합니다. 추론이 vLLM과 결합하면 매우 효율적인 멀티태스킹 머신이 됩니다.

이는 추론의 관측성, 확장성, 일관성을 보장합니다.

분산 추론 차트

3.9배

분산 추론 아키텍처인 텐서 병렬 처리를 통한 토큰 처리량 증가율.10

해당 오픈소스 커뮤니티가 있나요?

네, llm-d라고 합니다.

llm-d는 개발자들에게 분산 추론 환경을 대규모로 구축하기 위한 청사진을 제공하는 오픈소스 프레임워크입니다.

llm-d의 모듈식 아키텍처는 정교한 LLM의 복잡한 리소스 요구 사항을 지원하고 파편화된 수동 프로세스를 명확한 통합 경로로 대체하여 파일럿 단계에서 프로덕션 단계에 이르기까지의 시간을 단축해 줍니다.

llm-d는 추론 기능을 쿠버네티스로 가져와 기업 고유의 활용 사례에 분산 추론을 적용할 수 있도록 돕는 표준화된 툴킷을 제공합니다.

2배

기준치 대비 llm-d가 유지하는 초당 쿼리 수(Queries Per Second, QPS).11

더 많은 AI 리소스

의사 결정자
실무자

Red Hat AI Inference Server

코딩 단계에서 프로덕션 단계까지 LLM을 더 신속하게 이동하세요.

vLLM을 기반으로 한 Red Hat의 엔터프라이즈급 추론 엔진은 성능을 저해하지 않고 추론을 가속화합니다. 

기업에서 선호하는 최적화된 생성형 AI 모델을 활용하여 어떠한 AI 가속기와 클라우드 환경에서도 하이브리드 클라우드 전반에 걸쳐 확장하세요.

Inference cubes with AI icon
인용된 출처

[1] "왜 AI의 다음 단계는 전보다 더 적은 것이 아니라 더 많은 컴퓨팅 파워를 요구하는가." 월스트리트 저널, 2026년 1월 22일. 

[2] Kurtić, Eldar 외. "양자화된 LLM을 대상으로 수행한 50만 건 이상의 평가와 그 결과." Red Hat Developer 블로그, 2024년 10월 17일.

[3] Condado, Carlos. "AI 추론 성능에 대한 전략적 접근 방식." Red Hat 블로그, 2025년 9월 15일.

[4] Zelenović, Saša. "LLM의 잠재력 극대화: vLLM을 통한 성능을 위한 최적화." Red Hat 블로그, 2025년 2월 27일. 

[5] Kurtić, Eldar 외. "2:4 희소성이 적용된 Llama: 효율적 GPU 추론을 위한 소규모 모델." Red Hat Developer 블로그, 2025년 2월 28일.

[6] Marques, Alexandre 외. "Fly Eagle(3) 성능의 비상: vLLM과 추측 디코딩을 이용한 추론 가속화." Red Hat Developer 블로그, 2025년 7월 1일. 

[7] 권우석 외. "vLLM: PagedAttention을 통한 쉽고 빠르며 경제적인 LLM 서빙." vLLM 블로그, 2023년 6월 20일.

[8] Goin, Michael. "[vLLM 오피스 아워 #38] vLLM 2025년 회고 및 2026년 로드맵 - 2025년 12월 18일." YouTube, 2025년 12월 8일.

[9] 권우석. "오늘날, vLLM은 500개 이상의 모델 아키텍처를 지원하고 200개 이상의 가속기 유형에서 구동되며 글로벌 규모로 추론을 지원합니다." X, 2026년 1월 26일. 

[10] Goin, Michael. "vLLM을 활용한 분산 추론." Red Hat Developer, 2025년 2월 6일.

[11] Shaw, Robert. "llm-d: 쿠버네티스 네이티브 분산 추론." Red Hat Developer, 2025년 5월 20일.