A importância da inferência de IA

Não existe IA sem inferência. 

A inferência é a base da IA generativa. No entanto, quando grandes modelos precisam executar estratégias ainda maiores, as coisas ficam complicadas. 

É por isso que detalhamos os desafios e as oportunidades associados à inferência de IA, desde a otimização de modelos com vLLM até os frameworks distribuídos open source mais recentes, como o llm-d.

cubo vermelho centralizado conectado a uma rede de nós cinza

Por que a inferência é tão importante?

A inferência é a etapa final de um processo longo e complexo de machine learning, quando um modelo gera o resultado desejado. 

Ela é uma função essencial para o sucesso de uma IA. 

Por isso, o hardware e o software que viabilizam a inferência podem determinar o sucesso ou o fracasso da sua estratégia de IA.

imagem de cubo feito com blocos vermelhos e cinza com brilhos representando a IA

O que está limitando sua capacidade de escalar?

Modelos em constante crescimento aumentam os requisitos da inferência. Conforme os modelos ficam mais complexos, a inferência tende a ficar mais lenta.

Para que a inferência seja bem-sucedida, os modelos de IA exigem um alto volume de processamento em pouco tempo. Portanto, o tamanho do modelo, o alto volume de acessos e as exigências de latência são fatores que podem limitar o desempenho.

Com o aumento da demanda por dados e memória, o hardware e os aceleradores passam a enfrentar limitações de desempenho.

66%

dos recursos de computação de IA devem ser consumidos pela inferência em 2026, ante 33% em 2023 e 50% em 2025.1

Como aprimorar a inferência de IA?

Ao otimizar a inferência, é possível executar modelos de IA com mais rapidez e inteligência.

Os métodos de otimização incluem o uso mais eficiente de GPUs, decodificação especulativa, esparsidade, compressão de modelos com quantização e inferência distribuída.

Ferramentas como o LLM Compressor aproveitam os avanços mais recentes em compressão de modelos para tornar os LLMs menores, mais rápidos e energeticamente eficientes. Isso reduz os requisitos de hardware e melhora a eficácia, sem sacrificar a precisão.

Otimizações como essas ajudam a manter a inferência de IA com custo eficiente, permitindo que ela escale à medida que suas equipes evoluem.

+ de 99%

de precisão mantida durante as otimizações com o LLM Compressor.2

gráfico de pizza

2x

mais capacidade de processamento com modelos comprimidos, sem comprometer a precisão.3

50%

de economia sem sacrificar o desempenho ao otimizar modelos com o LLM Compressor.4

cofre de porquinho

Como o vLLM otimiza a inferência?

Otimizar os modelos é só parte do problema. Você também precisa de um mecanismo de inferência de alto desempenho. É aí que o vLLM pode ajudar.

Os sistemas tradicionais de gerenciamento de memória para LLMs não organizam os recursos de forma eficiente, o que afeta o desempenho. O vLLM utiliza o PagedAttention, técnica que identifica valores de chave repetidos para eliminar o processamento redundante.

Isso permite que o vLLM faça um uso melhor da memória da GPU e acelere a inferência de IA generativa. Ele amplia a taxa de processamento, medida em tokens processados por segundo, para atender vários usuários simultaneamente.

O uso mais eficiente de aceleradores permite que os modelos executem mais cálculos em menos tempo, ampliando a capacidade de atender mais usuários e agentes.

50%

menos parâmetros com o uso de estruturas de esparsidade.5

gráfico de pizza

2,1x

menos latência de inferência com técnicas de decodificação especulativa.6

24x

mais desempenho de processamento com o vLLM em comparação aos concorrentes.7

Por que o vLLM está tão em alta?

O vLLM ajudou a responder aos principais desafios de utilização eficiente das GPUs, reduzindo o custo por token e oferecendo latência estável em grande escala. Tudo isso com uma implantação portátil e aberta.

Por isso a comunidade do vLLM é tão ativa e dinâmica. As contribuições surgem de grupos engajados como o Hugging Face, UC Berkeley, NVIDIA, Red Hat e muitos outros. A comunidade testa continuamente os limites do software e o aprimora no projeto open source.

Com suporte de Dia 0 para todos os principais modelos e aceleradores, sua acessibilidade é interessante para os setores empresariais e acadêmicos.

+ de 10 mil

commits* do vLLM no GitHub (um aumento de mais de 200%) em 2025.

A comunidade do vLLM hoje

+ de 500 mil

GPUs implantadas em tempo integral8

+ de 200

tipos de aceleradores9

+ de 500

modelos de arquitetura compatíveis9

+ de 2 mil

colaboradores exclusivos do vLLM9

Qual é o papel da inferência distribuída?

A inferência distribuída permite que modelos de IA dividam a execução da inferência entre um conjunto de dispositivos interconectados.

Quando um modelo consegue atender diferentes solicitações ao mesmo tempo, reduz significativamente a necessidade de hardware e aumenta a eficiência da inferência.

A inferência distribuída usa técnicas como paralelismo de tensores, programação inteligente de inferência e desagregação. Quando combinado ao vLLM, a inferência se torna altamente eficiente e capaz de lidar com múltiplas tarefas simultaneamente.

Isso ajuda a mantê-la observável, escalável e consistente.

gráfico de inferência distribuída

3,9x

mais desempenho no processamento de tokens usando o paralelismo de tensores, um tipo de arquitetura de inferência distribuída.10

Existe uma comunidade open source para isso?

Sim, e é chamada de llm-d.

O llm-d é um framework open source que oferece aos desenvolvedores um modelo para criar inferência distribuída em grande escala.

Sua arquitetura modular atende às demandas complexas de recursos de LLMs avançados e substitui processos manuais e fragmentados por fluxos integrados e bem definidos, reduzindo o tempo entre o piloto e a produção.

O llm-d traz a inferência para o Kubernetes, oferecendo ferramentas padronizadas para aplicar a inferência distribuída aos seus casos de uso empresariais exclusivos.

2x

mais consultas por segundo (QPS) sustentadas pelo llm-d em relação à linha de base.11

Mais recursos de IA

Para tomadores de decisões
Para profissionais

Red Hat AI Inference Server

Acelere a implantação dos seus LLMs em produção.

Baseado no vLLM, nosso mecanismo de inferência empresarial oferece mais velocidade sem afetar o desempenho. 

Escale na nuvem híbrida com o modelo de gen IA otimizado de sua preferência, em qualquer acelerador e em qualquer ambiente de nuvem.

Ícone ilustrando cubos de inferência com IA
Fontes citadas

[1] “Why AI’s Next Phase Will Likely Demand More Computing Power—Not Less .” The Wall Street Journal, 22 de janeiro de 2026. 

[2] Kurtić, Eldar, et al. “We ran over half a million evaluations on quantized LLMs—here's what we found.”, Blog Red Hat Developer, 17 de outubro de 2024.

[3] Condado, Carlos. “Inferência de IA: uma abordagem estratégica para o desempenho”, Blog da Red Hat, 15 de setembro de 2025.

[4] Zelenović, Saša. “Aproveite todo o potencial dos LLMs: otimize o desempenho com vLLM.”, Blog da Red Hat, 27 de fevereiro de 2025. 

[5] Kurtić, Eldar, et al. “2:4 Sparse Llama: Smaller models for efficient GPU inference.”, Blog Red Hat Developer , 28 de fevereiro de 2025.

[6] Marques, Alexandre, et al. “Fly Eagle(3) fly: Faster inference with vLLM & speculative decoding.”, Blog Red Hat Developer, 1 de julho de 2025. 

[7] Kwon, Woosuk, et al. “vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention.” Blog do vLLM, 20 de junho de 2023.

[8] Goin, Michael. “[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - December 18, 2025.”, YouTube, 8 de dezembro de 2025.

[9] Kwon, Woosuk. “Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale.”, X, 26 de janeiro de 2026. 

[10] Goin, Michael. “Distributed inference with vLLM.”, Red Hat Developer, 6 de fevereiro de 2025.

[11] Shaw, Robert. “llm-d: Kubernetes-native distributed inferencing.”, Red Hat Developers, 20 de maio de 2025.