Por onde começar com a inferência de IA: os experts do Red Hat AI explicam

Introdução

Otimizar a inferência de modelos de IA é uma das maneiras mais eficazes de cortar gastos com infraestrutura, reduzir a latência e melhorar a taxa de transferência, especialmente à medida que as organizações implantam grandes modelos na produção.

Este e-book apresenta os fundamentos da engenharia de desempenho de inferência e otimização de modelos, com foco em quantização, esparsidade e outras técnicas que ajudam a reduzir os requisitos de computação e memória, além de sistemas de runtime, como o modelo virtual de linguagem de larga escala (vLLM), que oferecem benefícios para uma inferência eficiente.

Ele também apresenta as vantagens de usar a abordagem open source da Red Hat, o repositório de modelos validados e ferramentas como o compressor de LLM e o Red Hat® AI Inference Server. Não importa se você está executando em unidades de processamento gráfico (GPUs), unidades de processamento de tensor (TPUs) ou outros aceleradores, este guia oferece insights práticos para ajudar você a desenvolver sistemas de inferência de IA mais inteligentes e eficientes.

Parede em declive construída com pequenos cubos roxos claros e brancos e uma estrela branca de quatro pontas flutuando à direita.

Resumo dos principais termos

Introdução aos componentes do modelo

Ativações são dados temporários gerados quando um modelo processa informações (tokens de entrada), semelhantes aos resultados intermediários produzidos durante um cálculo. Elas normalmente exigem alta precisão para obter resultados exatos.
Pesos são os parâmetros ou as configurações aprendidas de um modelo de IA, muito parecidos com os arquivos de configuração ou as definições de um software tradicional. Eles determinam como o modelo analisa e prevê dados e, muitas vezes, conseguem funcionar mesmo com precisão reduzida.

Quantização

A quantização reduz os requisitos de tamanho e recursos dos modelos de IA ao armazenar seus parâmetros (pesos) e dados intermediários (ativações) em formatos de menor precisão, usando menos bits por valor. Essa técnica ajuda a gerenciar recursos com eficiência, semelhante à compactação de arquivos em um computador. Se feita corretamente, ela não prejudica consideravelmente o desempenho do modelo.

A quantização de pesos reduz o tamanho do armazenamento dos parâmetros do modelo, permitindo um uso mais eficiente da memória durante a inferência.¹
A quantização de ativações minimiza os requisitos de memória de saídas intermediárias (dados temporários) durante a inferência, tornando a execução mais rápida e eficiente.²
A quantização de cache de KV reduz a área de ocupação da memória dos tensores de chave-valor em cache, ajudando os modelos a lidar mais eficientemente com prompts longos e solicitações simultâneas.³

Níveis de precisão na quantização de 16 bits, 8 bits e 4 bits:

16 bits (FP16/BF16) é a precisão padrão, que preserva a exatidão, mas exige uma quantidade significativa de memória. Por esse motivo, acaba sendo cara para modelos muito grandes.
8 bits (FP8/INT8) reduz o uso da memória praticamente pela metade em relação à precisão de 16 bits, oferecendo ganhos substanciais de eficiência enquanto preserva a exatidão do modelo.
4 bits (INT4) reduz significativamente o tamanho do modelo e os requisitos de memória, permitindo a implantação em menos recursos. No entanto, pode apresentar uma degradação considerável na exatidão, a menos que seja cuidadosamente gerenciada com métodos avançados de quantização.

Redução da carga computacional com esparsidade

A esparsidade reduz as demandas computacionais zerando intencionalmente alguns parâmetros do modelo. Assim, os sistemas podem ignorar operações desnecessárias, como pular campos em branco em um formulário. Isso melhora a velocidade e a eficiência sem precisar retreinar totalmente o modelo.

A esparsidade 2:4 é uma abordagem estruturada que zera dois a cada quatro parâmetros. Isso permite que um hardware especializado rapidamente identifique e ignore os blocos desses parâmetros inativos, economizando tempo de cálculo e evitando cálculos redundantes, para ter um desempenho mais ágil.

Servidor cinza em 3D com botões vermelhos. 5 bolas vermelhas pairando em torno do servidor.

A evolução dos Large Language Models

Os Large Language Models (LLMs), desenvolvidos principalmente em arquiteturas de transformadores que usam mecanismos de autoatenção para modelar relações em sequências de texto, evoluíram de experimentos de pesquisa para ferramentas essenciais que impulsionam aplicações reais. A escala deles, muitas vezes chegando a dezenas ou centenas de bilhões de parâmetros, possibilita altos níveis de raciocínio, criatividade e contextualização. Para fazer isso, eles usam um processo chamado inferência.

A inferência é o procedimento pelo qual um modelo treinado processa novos dados de entrada e gera uma saída, como prever a próxima palavra em uma frase ou identificar um objeto em uma imagem. Ao contrário do treinamento, que envolve aprender com grandes conjuntos de dados, a inferência se concentra em aplicar o conhecimento adquirido para tomar decisões em tempo real. Sendo assim, a inferência deve ser rápida e eficiente, especialmente quando os modelos são implantados em ambientes de produção como suporte a aplicações interativas, análise em tempo real ou automação em larga escala.

Os modelos de inferência processam dados de entrada, como texto, imagens ou áudio, em forma de tokens, passando-os por arquiteturas de transformadores de várias camadas para gerar previsões. Tokens são as unidades discretas onde os dados de entrada são desmembrados antes de serem processados por um modelo. Em modelos baseados em texto, os tokens podem representar caracteres individuais, subpalavras ou palavras inteiras, dependendo da estratégia de tokenização usada.

Esses modelos passam tokens de entrada por arquiteturas de transformadores profundas e com várias camadas que aplicam uma sequência de operações matemáticas para analisar o contexto, avaliar as relações e determinar as prováveis saídas. Cada camada refina a compreensão do modelo sobre a entrada, levando à produção de uma previsão, um token de cada vez. Essa geração de tokens em etapas permite saídas altamente precisas e adequadas ao contexto, mas também contribui para a intensidade computacional das cargas de trabalho de inferência, especialmente em modelos grandes com muitas camadas.

Além dos LLMs baseados em texto, arquiteturas semelhantes agora sustentam uma variedade de domínios de IA, como modelos de visão e sistemas multimodais. Os modelos de visão aplicam os mesmos princípios da computação de transformadores baseada em tokens a imagens e vídeos. Em vez de dividir o texto em tokens, os dados de pixels são convertidos em embeddings. Esses embeddings capturam padrões espaciais, edges, texturas e relações entre elementos visuais, permitindo que o modelo realize tarefas como classificação de imagens, detecção de objetos, segmentação e resposta visual a perguntas. Quando implantados na produção, os modelos de visão podem auxiliar casos de uso como inspeção automatizada, diagnóstico por imagem e moderação de conteúdo.

Com as organizações adotando a IA mais amplamente, as arquiteturas de modelos continuam a crescer em tamanho e complexidade. Novas abordagens, como a combinação de especialistas (MoE), visam escalar o desempenho ativando apenas partes do modelo por inferência e, assim, reduzindo a computação geral necessária. Essas inovações abrem caminho para modelos ainda mais avançados enquanto ajudam a equilibrar o desempenho com as demandas de custo e energia.

Seja qual for o tamanho, todos os modelos exigem disponibilização e otimização eficientes para uma produção viável, tornando a engenharia de desempenho de inferência uma prioridade crítica para organizações que buscam implantar modelos.

duas estrelas brancas em 3D: uma grande e uma pequena.

Desafios do serviço de inferência

O serviço de inferência para modelos grandes apresenta vários desafios.

Modelos com bilhões de parâmetros exigem uma quantidade considerável de memória de GPU para armazenar pesos e estados intermediários, como caches de chave-valor (KV). Conforme o número de solicitações simultâneas ou a extensão das entradas aumenta, as restrições de memória se tornam obstáculos críticos, limitando a taxa de transferência e a capacidade de resposta do modelo. Os métodos de inferência mais básicos costumam sofrer com técnicas ineficientes de processamento em lotes, levando à subutilização de recursos de hardware e ao aumento da latência.

Além disso, as implementações de mecanismos de atenção em arquiteturas de transformadores podem ser computacionalmente intensas, em especial com entradas longas, atrasando bastante os tempos de resposta. Para responder a esses desafios, são necessárias otimizações de runtime sofisticadas, como gerenciamento eficiente da memória, estratégias avançadas de processamento em lotes e mecanismos de atenção otimizados, como a atenção paginada. Juntas, elas ajudam a melhorar o desempenho e a capacidade de resposta em aplicações reais.

Uma abordagem de full-stack para o desempenho da inferência

A otimização de inferência se refere ao processo de aprimorar a eficiência da execução de um modelo de IA depois de implantado na produção. Executar LLMs na produção pode logo se tornar caro, especialmente ao lidar com altos volumes de tokens, prompts longos e demandas de uso crescentes. A otimização de custos na inferência se resume a reduzir o consumo da memória, aumentar a taxa de transferência e minimizar as necessidades de hardware, tudo isso sem sacrificar a exatidão ou a experiência do usuário.

Embora o treinamento de modelos costume ser uma tarefa de instância única (exceto em casos de retreinamento), a inferência acontece constantemente, gerando saídas em tempo real em resposta às entradas dos usuários. Para LLMs e modelos de visão, a inferência pode logo se tornar a parte mais cara e que mais consome recursos de uma implantação de IA, especialmente quando escalada em uma infraestrutura híbrida ou global.

Disponibilizar efetivamente LLMs em grande escala requer uma estratégia de otimização abrangente e de full-stack que envolva tanto o modelo quanto o runtime. Embora nosso objetivo principal seja otimizar os parâmetros do modelo usando quantização e esparsidade, é possível ter mais ganhos de desempenho ao refinar o processo de inferência com técnicas como pré-processamento em blocos⁴, cache de prefixos⁵, decodificação especulativa⁶ e pré-processamento e decodificação desagregados⁷.

Visão geral dos formatos de modelo e runtimes de inferência

Como os runtimes básicos são um obstáculo, disponibilizar modelos grandes com eficiência exige a escolha do runtime de inferência certo. Estes são alguns dos runtimes mais conhecidos:

vLLM: o modelo virtual de linguagem de larga escala é uma biblioteca open source mantida pela comunidade de vLLM. Ele ajuda LLMs a fazer cálculos com mais eficiência e em grande escala. Mais especificamente, o vLLM é um servidor de inferência que acelera as respostas de aplicações de gen IA utilizando a memória da GPU com mais eficiência. Ele é amplamente adotado em todo o setor devido à sua taxa de transferência superior e desempenho de baixa latência, auxiliados por inovações como a atenção paginada, que permite processar mais tokens na memória da GPU.
Triton: muito confundido com um runtime independente, o Triton funciona mais como uma interface de programação de aplicações (API) de front-end para vários mecanismos de backend, como o TensorRT e o vLLM. Embora o Triton com TensorRT tenha um desempenho um pouco melhor nas GPUs da NVIDIA, ele aumenta a complexidade da configuração e oferece suporte limitado ao modelo. Os clientes costumam relatar que alcançar ganhos de desempenho com o Triton exige muito mais esforço do que com o vLLM.
SGLang: uma inserção mais recente, o SGLang é derivado do vLLM e otimizado para casos de uso específicos. Ele usa muitos dos mesmos componentes subjacentes que o vLLM, mas é compatível com menos arquiteturas de modelo. Embora consiga superar o vLLM em contextos restritos, suas limitações de flexibilidade e suporte da comunidade o tornam menos interessante para uma ampla adoção empresarial.

Uma abordagem dupla para a eficiência do modelo

1. Otimização do runtime de inferência (vLLM)

Limitações de runtime

Como mencionado anteriormente, disponibilizar LLMs com eficiência pode ser um desafio devido às limitações inerentes aos métodos básicos de inferência.

Entre essas limitações de runtime estão: memória da GPU mal utilizada, processamento em lotes ineficiente e lentidão na geração de tokens. É comum que os runtimes armazenem dados de computação intermediários, como caches de KV, ineficientemente, consumindo muita memória da GPU e limitando a capacidade para solicitações simultâneas. Além disso, estratégias de processamento em lotes simplistas podem deixar as GPUs ociosas ou subutilizadas, reduzindo significativamente a taxa de transferência. Runtimes básicos também sofrem com mecanismos de atenção lentos, causando latência estendida ao lidar com sequências longas de entrada.

Motivos para usar o vLLM

O vLLM responde a muitos desafios de runtime ao disponibilizar técnicas avançadas e otimizadas especificamente para o desempenho da inferência:

Processamento contínuo em lotes: o vLLM minimiza o tempo ocioso da GPU ao processar simultaneamente tokens de várias solicitações recebidas. Em vez de lidar com apenas uma solicitação por vez, ele agrupa tokens de diferentes sequências em lotes, melhorando consideravelmente a utilização da GPU e a taxa de transferência de inferência.
PagedAttention: o vLLM usa uma nova estratégia de gerenciamento de memória chamada PagedAttention, que lida adequadamente com caches de KV em grande escala. Por conta da alocação dinâmica de memória da GPU, essa técnica consegue lidar com muito mais solicitações simultâneas e sequências longas, sem sofrer com problemas de memória.

Para saber mais detalhes, confira este artigo do blog sobre vLLM.

Benefícios da implantação do vLLM

Recursos de integração abrangente: o vLLM pode carregar modelos diretamente de repositórios conhecidos, como o Hugging Face, e serve como um backend de alto desempenho em frameworks como o Triton Inference Server. Sua compatibilidade com diversas plataformas de hardware, inclusive GPUs da NVIDIA, GPUs da AMD e TPUs do Google, simplifica ainda mais a implantação em escala empresarial.

Padronização e independência de fornecedor: ao usar um runtime amplamente adotado como o vLLM, as organizações obtêm benefícios de padronização, que viabilizam um desempenho confiável em diversos ambientes de hardware e evitam a dependência de soluções proprietárias.

Para entender melhor as técnicas de paralelismo do vLLM, consulte este artigo detalhado.

2. Otimização do modelo de IA

A importância de otimizar Large Language Models

Um dos principais desafios na produção é gerenciar a memória e a eficiência computacional. Modelos grandes costumam exigir uma grande quantidade de memória da GPU para armazenar parâmetros e contexto no cache de KV, principalmente ao lidar com prompts longos ou várias solicitações simultâneas. Se os modelos não forem otimizados, a execução será ineficiente, levando a custos operacionais mais altos. A latência é outra preocupação crítica: os usuários esperam respostas em tempo real, e os atrasos causados pelo grande porte ou pela execução ineficiente do modelo podem afetar negativamente a experiência e a eficácia dos fluxos de trabalho downstream.

Motivos para compactar um modelo

Compactar um modelo ajuda a resolver alguns dos desafios mais significativos que as organizações enfrentam ao implantar a IA em grande escala: economia e otimização do desempenho.

Conforme os modelos aumentam para bilhões de parâmetros, a disponibilização deles na produção se torna intensiva, exigindo muita memória e capacidade computacional. As técnicas de compactação de modelos, como quantização e esparsidade, reduzem um pouco a precisão e o número de parâmetros e diminuem significativamente a área de ocupação da memória e os requisitos de computação, sem sacrificar demais a exatidão. Ao compactar os modelos, as organizações podem executar cargas de trabalho de IA com mais eficiência, usando menos GPUs ou outros aceleradores. Isso reduz muito os custos operacionais e possibilita inferências mais rápidas, essenciais para aplicações que exigem respostas em tempo real.

Como meu modelo pode ter custos otimizados para inferência?

Uma das maneiras mais eficazes de reduzir esses custos é compactar o modelo. Técnicas de compactação, como quantização e esparsidade, reduzem o tamanho do modelo e os requisitos de computação, permitindo que as cargas de trabalho de inferência sejam executadas em GPUs menores ou em menor número.

A quantização otimiza um modelo reduzindo a precisão de seus valores numéricos: mais especificamente, os pesos e as ativações. Os modelos costumam operar com precisão de 16 bits (ou até mesmo de 32 bits), usando formatos como FP16 ou BF16. A quantização compacta esses valores em formatos menores, como 8 bits (INT8 ou FP8) ou 4 bits (INT4). Esse processo reduz significativamente a memória necessária para armazenar os parâmetros, permitindo que modelos como um Llama de 70 bilhões de parâmetros passem de cerca de 140 GB para apenas 40 GB. Essas reduções não apenas liberam memória para cálculos adicionais, mas também aumentam a taxa de transferência, especialmente em situações limitadas pela memória. Por exemplo, uma GPU com 48 GB de VRAM processa um modelo de 40 GB mais rápido do que um de 140 GB.

No entanto, uma quantização intensa pode afetar a exatidão devido à perda de precisão. Para reduzir isso, a quantização de alta granularidade emprega fatores de escala que preservam a exatidão do modelo, geralmente com menos de 1% de degradação. A quantização pode dobrar a taxa de transferência computacional ao otimizar o uso do hardware, diminuindo significativamente a latência e os custos operacionais.

A esparsidade otimiza um modelo ao introduzir uma redução estruturada de parâmetros, essencialmente zerando uma grande parcela dos pesos do modelo. Essa técnica funciona com a identificação e eliminação de pesos redundantes ou menos críticos, simplificando os cálculos durante a inferência. A esparsidade pode levar a uma redução drástica na complexidade do modelo, diminuindo o uso de memória e o processamento, e levando a uma inferência mais rápida e a custos operacionais menores.

No entanto, essa técnica requer treinar novamente o modelo: uma etapa computacional intensiva que exige recursos iniciais significativos. A eficiência disso depende dos recursos de hardware, como a esparsidade semiestruturada compatível com aceleradores modernos, como GPUs, onde padrões específicos de pesos zerados possibilitam cálculos mais rápidos. A principal vantagem é a capacidade de reduzir consideravelmente os requisitos computacionais quando implementada corretamente.

Embora a esparsidade possa gerar benefícios notáveis, principalmente quando combinada a outros métodos de otimização, como a quantização, ela costuma demandar um processo de otimização mais complexo. Por isso, ela é recomendada para cenários com configurações de hardware especializadas ou de escala extensiva. Ao aplicar cuidadosamente a esparsidade, as organizações podem melhorar a eficiência da inferência. Porém, devido à complexidade envolvida, a quantização costuma ser mais recomendada como principal técnica de otimização.

Ao adotar fluxos de trabalho de compactação e runtimes validados, as organizações podem gerenciar melhor os custos operacionais, viabilizar a escalabilidade e se preparar para futuros aumentos no uso da IA sem comprometer demais os recursos de infraestrutura.

A exatidão será comprometida?

Embora as técnicas de compactação de modelos como quantização e esparsidade reduzam os requisitos de memória e computação, elas são projetadas especificamente para manter níveis aceitáveis de exatidão. Por exemplo, a quantização de 8 bits normalmente oferece uma exatidão próxima à linha de base e reduz o consumo de memória pela metade. Até mesmo modelos de 4 bits podem manter um alto desempenho quando otimizados com técnicas avançadas de quantização, como arredondamento de peso e calibragem. Padrões estruturados de esparsidade, como a esparsidade 2:4, permitem que os aceleradores de hardware ignorem operações redundantes sem prejudicar a qualidade da saída. Em vários cenários de produção, as equipes conseguem economias expressivas de recursos com pouca ou nenhuma redução no desempenho do modelo. O teste e a validação ainda são essenciais, mas, para a maioria das aplicações, uma compactação bem implementada gera inferências altamente eficientes sem afetar a exatidão.

Stack de servidores com uma linha pontilhada em volta e uma estrela vermelha em cima.

Red Hat AI

O que é o Red Hat AI?

O Red Hat AI é uma plataforma que acelera a inovação em IA e reduz o custo operacional de desenvolvimento e entrega de soluções de IA em ambientes de nuvem híbrida. Ele simplifica a integração com dados privados, ajuda a reduzir custos com modelos otimizados e inferência eficiente e acelera a entrega de fluxos de trabalho de agentic AI com uma plataforma escalável e flexível.

Com o Red Hat AI, as organizações podem gerenciar e monitorar o ciclo de vida dos modelos de IA preditiva e gen IA em grande escala, desde implantações em apenas um servidor até plataformas altamente distribuídas em escala. A plataforma é baseada em tecnologias open source e em um ecossistema de parceiros que priorizam desempenho, estabilidade e compatibilidade com GPUs em diversas infraestruturas.

O Red Hat AI inclui:

Modelos otimizados e validados: modelos pré-avaliados e comprovados para reduzir a carga de testes e ajustes finos.
Compressor de LLM: um kit de ferramentas que ajuda os usuários a aplicar técnicas de quantização e compactação em modelos conhecidos, reduzindo os requisitos de recursos para inferência sem comprometer a exatidão.
Personalização de modelos: ferramentas para ajustar ou adaptar modelos fundamentais a necessidades empresariais específicas.
Runtime de inferência de alto desempenho: um runtime otimizado baseado em vLLM que usa técnicas avançadas de gerenciamento de memória e processamento em lotes para um model serving eficiente, escalável e confiável.
LLMOps: práticas e ferramentas que simplificam a implantação, o monitoramento e o gerenciamento de LLMs em ambientes de produção.
Avaliações e segurança de IA: frameworks e metodologias para avaliar a exatidão, imparcialidade e robustez do modelo, assegurando a responsabilidade e credibilidade das implantações de IA.
Escala flexível e consistente: suporte à infraestrutura que assegura a flexibilidade e consistência ao escalar a IA em ambientes de nuvem híbrida.
Entrega acelerada de agentic AI: recursos projetados para implantar rapidamente sistemas de IA autônomos e avançados, mantendo as organizações à frente da inovação em IA.

Como otimizar modelos com o Red Hat AI

O Red Hat AI ajuda as organizações a otimizar modelos de IA com técnicas avançadas projetadas para equilibrar eficiência, precisão e economia.

Ele destaca dois aspectos principais da otimização de modelos: runtime eficiente e modelos compactados. Ao combinar essas abordagens, o portfólio de IA da Red Hat entrega um desempenho de inferência rápido e reduz o número de recursos computacionais necessários. Mais especificamente, o Red Hat AI Inference Server aplica processamento contínuo em lotes e métodos de uso eficiente da memória, fazendo os modelos processarem mais tokens por segundo, para obter uma taxa de transferência maior com menos uso da GPU.

O compressor de LLM do Red Hat AI oferece uma abordagem padronizada para aplicar as técnicas de compactação discutidas neste e-book e busca entregar otimização preservando 99% da exatidão. Ele ajuda os usuários a gerar versões otimizadas de modelos conhecidos que são ajustados para runtimes de inferência, como o vLLM. Com isso, fica mais fácil executar modelos compactados de alto desempenho em mais tipos de hardware.

O Red Hat AI oferece ampla validação para ajudar as organizações a selecionar, implantar e escalar modelos otimizados com confiança. Devido à grande variedade de LLMs disponíveis, as organizações costumam ter dificuldade de identificar os modelos que melhor se alinham aos casos de uso delas em termos de precisão, desempenho e economia. Para responder a esses desafios, o Red Hat AI usa ferramentas de validação open source (como GuideLLM, Language Model Evaluation Harness e vLLM) para fazer comparações rigorosas do desempenho do modelo em diversas tarefas de avaliação. Essa validação oferece suporte à reprodutibilidade e à seleção informada de modelos, reduzindo a complexidade e a incerteza.

O Red Hat AI também oferece orientação de capacidade para ajudar as organizações a planejar com precisão a infraestrutura de IA e otimizar o uso de recursos, abordando problemas comuns como subutilização de hardware, altos custos computacionais e ineficiências no momento da inferência. Com essa combinação de modelos validados, configurações de implantação otimizadas e recomendações de hardware personalizadas, as organizações podem aumentar a flexibilidade, acelerar as implantações e alcançar um desempenho previsível enquanto controlam os custos.

Com técnicas de compactação e runtimes otimizados, o Red Hat AI facilita a implantação de LLMs em grande escala, preparando as equipes para atender às demandas crescentes sem deixar de controlar gastos, complexidade e uso de recursos computacionais.

Vários pequenos cubos brancos e roxos claros e duas estrelas verde-azuladas brilhantes de quatro pontas, uma pequena e outra grande, acima deles.

Próximas etapas

Quer reduzir o custo e a complexidade da disponibilização de LLMs? Confira mais informações sobre o Red Hat AI Inference Server ou entre em contato com seu representante da Red Hat para saber por onde começar.

Laboone, Maxime. "Introduction to Weight Quantization." towards data science, 7 de julho de 2023.
"AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration." GitHub. Último acesso: 8 de agosto de 2025.
Turganbay, Raushan. "Unlocking Longer Generation with Key-Value Cache Quantization." Hugging Face, 16 de maio de 2024.
"Optimization and Tuning." vLLM, 7 de agosto de 2025.
"What is Automatic Prefix Caching?" vLLM. Último acesso: 8 de agosto de 2025.
"How Speculative Decoding Boosts vLLM Performance by up to 2.8x." vLLM, 17 de outubro de 2024.
Du, Kuntai. "vLLM Office Hours - Disaggregated Prefill and KV Cache Storage in vLLM - November 14, 2024." YouTube, 18 de novembro de 2024.