How vLLM accelerates AI inference: 3 enterprise use cases

URL 복사

vLLM is an inference server that speeds up gen AI inference in large language models (LLMs) by making better use of memory storage and graphics processing units (GPUs). 

Using GPUs more efficiently helps LLMs perform calculations faster and at scale. This becomes increasingly important when organizations need real-time applications like chatbots or multimodal workflows. 

This article highlights 3 real-world examples of how well-known companies are successfully using vLLM.

Get an in-depth overview of vLLM

During inference, LLMs rely on key values to do a lot of math in a short period of time. 

LLMs use key values to attach a numerical value to tokens (terms or phrases) to understand language and calculate answers. So, every token (key) is associated with a number (value) that allows the LLM to calculate a response. 

AI inference uses key values during its 2 main phases: 

  • Prefill is when the model processes the input prompt. The key values for each token create the key value (KV) cache, which serves as the model’s short-term memory.
  • Decode is when the model generates new tokens. It uses the existing KV cache to calculate the key values of a response. 

LLMs store key values for every processed token in the KV cache. Since the cache grows according to prompt length and output generation, it takes up a lot of LLM memory storage. Traditional LLM memory management systems don’t organize calculations or use memory in the most efficient way, causing LLMs to move slowly. 

vLLM uses a memory management technique that understands how KV cache is used during inference. It retrieves cache data in a way that identifies repetitive key values to help prevent memory fragmentation and reduce extra work for the LLM. This makes GPU memory usage more efficient and LLM inference faster. 

Read about the benefits of scaling AI 

AI 기술 구현의 4가지 핵심 고려 사항

Campaign solution

Red Hat에서의 인공지능(AI)

라이브 이벤트부터 핸즈온 제품 데모, 심층적인 기술 관련 연구에 이르기까지, Red Hat이 다양한 측면에서 AI 발전에 어떻게 기여하고 있는지 알아보세요.

엔터프라이즈를 위한 AI 시작하기: 입문자용 가이드

Red Hat OpenShift AI와 Red Hat Enterprise Linux AI가 어떻게 여러분의 AI 도입 여정을 가속화할 수 있는지 확인해 보세요.

추가 자료

분산 추론(distributed inference)이란?

분산 추론은 추론 작업을 상호 연결된 일련의 기기에 분배하여 AI 모델이 더 효율적으로 워크로드를 처리할 수 있도록 하는 것을 말합니다.

MCP(Model Context Protocol)란?

MCP(Model Context Protocol)가 AI 애플리케이션을 외부 데이터 소스에 연결함으로써 더욱 스마트한 워크플로우를 구축하는 데 어떻게 도움이 되는지 알아보세요.

AIOps 설명

AIOps(IT 운영을 위한 AI)는 머신 러닝과 기타 고급 AI 기술로 IT 운영을 자동화하는 방식입니다.

AI/ML 리소스

주요 제품

  • Red Hat AI

    하이브리드 클라우드 인프라에서 AI 솔루션의 개발과 배포를 가속화하는 유연한 솔루션.

관련 기사