A importância da inferência de IA

Não existe IA sem inferência.

A inferência é a base da IA generativa. No entanto, quando grandes modelos precisam executar estratégias ainda maiores, as coisas ficam complicadas.

É por isso que detalhamos os desafios e as oportunidades associados à inferência de IA, desde a otimização de modelos com vLLM até os frameworks distribuídos open source mais recentes, como o llm-d.

cubo vermelho centralizado conectado a uma rede de nós cinza

Por que a inferência é tão importante?

A inferência é a etapa final de um processo longo e complexo de machine learning, quando um modelo gera o resultado desejado.

Ela é uma função essencial para o sucesso de uma IA.

Por isso, o hardware e o software que viabilizam a inferência podem determinar o sucesso ou o fracasso da sua estratégia de IA.

Introdução à inferência de IA

O que acontece após o prompt?

Escale a IA com o open source

Veja por onde começar com a inferência de IA

imagem de cubo feito com blocos vermelhos e cinza com brilhos representando a IA

O que está limitando sua capacidade de escalar?

Modelos em constante crescimento aumentam os requisitos da inferência. Conforme os modelos ficam mais complexos, a inferência tende a ficar mais lenta.

Para que a inferência seja bem-sucedida, os modelos de IA exigem um alto volume de processamento em pouco tempo. Portanto, o tamanho do modelo, o alto volume de acessos e as exigências de latência são fatores que podem limitar o desempenho.

Com o aumento da demanda por dados e memória, o hardware e os aceleradores passam a enfrentar limitações de desempenho.

Expanda os limites da inferência de LLM com o Marlin

Como os aceleradores de IA aprimoram a inferência

Inferência acelerada com decodificação especulativa

Implante um modelo de IA leve

66%

dos recursos de computação de IA devem ser consumidos pela inferência em 2026, ante 33% em 2023 e 50% em 2025.¹

Como aprimorar a inferência de IA?

Ao otimizar a inferência, é possível executar modelos de IA com mais rapidez e inteligência.

Os métodos de otimização incluem o uso mais eficiente de GPUs, decodificação especulativa, esparsidade, compressão de modelos com quantização e inferência distribuída.

Ferramentas como o LLM Compressor aproveitam os avanços mais recentes em compressão de modelos para tornar os LLMs menores, mais rápidos e energeticamente eficientes. Isso reduz os requisitos de hardware e melhora a eficácia, sem sacrificar a precisão.

Otimizações como essas ajudam a manter a inferência de IA com custo eficiente, permitindo que ela escale à medida que suas equipes evoluem.

LLM Compressor: otimize LLMs para implantações com baixa latência

Aspectos econômicos do LLM Compressor

LLM Compressor em produção

Confira o projeto open source

+ de 99%

de precisão mantida durante as otimizações com o LLM Compressor.²

2x

mais capacidade de processamento com modelos comprimidos, sem comprometer a precisão.³

50%

de economia sem sacrificar o desempenho ao otimizar modelos com o LLM Compressor.⁴

Como o vLLM otimiza a inferência?

Otimizar os modelos é só parte do problema. Você também precisa de um mecanismo de inferência de alto desempenho. É aí que o vLLM pode ajudar.

Os sistemas tradicionais de gerenciamento de memória para LLMs não organizam os recursos de forma eficiente, o que afeta o desempenho. O vLLM utiliza o PagedAttention, técnica que identifica valores de chave repetidos para eliminar o processamento redundante.

Isso permite que o vLLM faça um uso melhor da memória da GPU e acelere a inferência de IA generativa. Ele amplia a taxa de processamento, medida em tokens processados por segundo, para atender vários usuários simultaneamente.

O uso mais eficiente de aceleradores permite que os modelos executem mais cálculos em menos tempo, ampliando a capacidade de atender mais usuários e agentes.

O que é o vLLM?

Otimize a inferência de LLM com o vLLM

vLLM: três casos de uso reais

Desenvolva uma IA mais eficiente com o vLLM

50%

menos parâmetros com o uso de estruturas de esparsidade.⁵

2,1x

menos latência de inferência com técnicas de decodificação especulativa.⁶

24x

mais desempenho de processamento com o vLLM em comparação aos concorrentes.⁷

Por que o vLLM está tão em alta?

O vLLM ajudou a responder aos principais desafios de utilização eficiente das GPUs, reduzindo o custo por token e oferecendo latência estável em grande escala. Tudo isso com uma implantação portátil e aberta.

Por isso a comunidade do vLLM é tão ativa e dinâmica. As contribuições surgem de grupos engajados como o Hugging Face, UC Berkeley, NVIDIA, Red Hat e muitos outros. A comunidade testa continuamente os limites do software e o aprimora no projeto open source.

Com suporte de Dia 0 para todos os principais modelos e aceleradores, sua acessibilidade é interessante para os setores empresariais e acadêmicos.

Junte-se à comunidade do vLLM

Inscreva-se em um evento do vLLM

vLLM Office Hours

*Commits são atualizações, mudanças e registros feitos no projeto open source conforme os colaboradores ajustam o vLLM para trabalhar para cada caso de uso.

+ de 10 mil

commits* do vLLM no GitHub (um aumento de mais de 200%) em 2025.

A comunidade do vLLM hoje

+ de 500 mil

GPUs implantadas em tempo integral⁸

+ de 200

tipos de aceleradores⁹

+ de 500

modelos de arquitetura compatíveis⁹

+ de 2 mil

colaboradores exclusivos do vLLM⁹

Qual é o papel da inferência distribuída?

A inferência distribuída permite que modelos de IA dividam a execução da inferência entre um conjunto de dispositivos interconectados.

Quando um modelo consegue atender diferentes solicitações ao mesmo tempo, reduz significativamente a necessidade de hardware e aumenta a eficiência da inferência.

A inferência distribuída usa técnicas como paralelismo de tensores, programação inteligente de inferência e desagregação. Quando combinado ao vLLM, a inferência se torna altamente eficiente e capaz de lidar com múltiplas tarefas simultaneamente.

Isso ajuda a mantê-la observável, escalável e consistente.

O que é inferência distribuída?

Introdução à inferência distribuída

3,9x

mais desempenho no processamento de tokens usando o paralelismo de tensores, um tipo de arquitetura de inferência distribuída.¹⁰

Existe uma comunidade open source para isso?

Sim, e é chamada de llm-d.

O llm-d é um framework open source que oferece aos desenvolvedores um modelo para criar inferência distribuída em grande escala.

Sua arquitetura modular atende às demandas complexas de recursos de LLMs avançados e substitui processos manuais e fragmentados por fluxos integrados e bem definidos, reduzindo o tempo entre o piloto e a produção.

O llm-d traz a inferência para o Kubernetes, oferecendo ferramentas padronizadas para aplicar a inferência distribuída aos seus casos de uso empresariais exclusivos.

O que é llm-d?

Conheça a inferência distribuída e o llm-d

Por que o llm-d é necessário?

Comece agora com os fluxos guiados do llm-d

2x

mais consultas por segundo (QPS) sustentadas pelo llm-d em relação à linha de base.¹¹

Mais recursos de IA

Para tomadores de decisões

E-book

Entenda a inferência com os especialistas do Red Hat AI

E-book

Sistemas de agentic AI com o Red Hat AI

Blog

Tenha uma IA mais inteligente com escalabilidade na inferência

Podcast

Desenvolva uma IA mais eficiente com o vLLM

Artigo

O que é IA generativa?

Artigo

Como escalar a IA na sua empresa

Blog

Por que modelos com compressão reduzem o custo da inferência

Para profissionais

Solução

Conheça o Red Hat AI Inference Server

Blog

Inferência distribuída nativa do Kubernetes

Blog

Ollama e vLLM

Vídeo

Expanda o vLLM com o llm-d

PODCAST

Engenharia de plataforma para agentes de IA

Blog

Escalonamento automático do vLLM com o OpenShift AI

Podcast

Crie um conjunto de ferramentas de IA pronto para produção

Blog

A estratégia da Irlanda para otimizar a entrega de IA

Podcast

Como a IA acelera descobertas na área da saúde

Red Hat AI Inference Server

Acelere a implantação dos seus LLMs em produção.

Baseado no vLLM, nosso mecanismo de inferência empresarial oferece mais velocidade sem afetar o desempenho.

Escale na nuvem híbrida com o modelo de gen IA otimizado de sua preferência, em qualquer acelerador e em qualquer ambiente de nuvem.

Veja mais

Teste a solução

Ícone ilustrando cubos de inferência com IA

Fontes citadas

[1] “Why AI’s Next Phase Will Likely Demand More Computing Power—Not Less .” The Wall Street Journal, 22 de janeiro de 2026.

[2] Kurtić, Eldar, et al. “We ran over half a million evaluations on quantized LLMs—here's what we found.”, Blog Red Hat Developer, 17 de outubro de 2024.

[3] Condado, Carlos. “Inferência de IA: uma abordagem estratégica para o desempenho”, Blog da Red Hat, 15 de setembro de 2025.

[4] Zelenović, Saša. “Aproveite todo o potencial dos LLMs: otimize o desempenho com vLLM.”, Blog da Red Hat, 27 de fevereiro de 2025.

[5] Kurtić, Eldar, et al. “2:4 Sparse Llama: Smaller models for efficient GPU inference.”, Blog Red Hat Developer , 28 de fevereiro de 2025.

[6] Marques, Alexandre, et al. “Fly Eagle(3) fly: Faster inference with vLLM & speculative decoding.”, Blog Red Hat Developer, 1 de julho de 2025.

[7] Kwon, Woosuk, et al. “vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention.” Blog do vLLM, 20 de junho de 2023.

[8] Goin, Michael. “[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - December 18, 2025.”, YouTube, 8 de dezembro de 2025.

[9] Kwon, Woosuk. “Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale.”, X, 26 de janeiro de 2026.

[10] Goin, Michael. “Distributed inference with vLLM.”, Red Hat Developer, 6 de fevereiro de 2025.

[11] Shaw, Robert. “llm-d: Kubernetes-native distributed inferencing.”, Red Hat Developers, 20 de maio de 2025.

A importância da inferência de IA

Por que a inferência é tão importante?

O que está limitando sua capacidade de escalar?

66%

Como aprimorar a inferência de IA?

+ de 99%

2x

50%

Como o vLLM otimiza a inferência?

50%

2,1x

24x

Por que o vLLM está tão em alta?

+ de 10 mil

A comunidade do vLLM hoje

+ de 500 mil

+ de 200

+ de 500

+ de 2 mil

Qual é o papel da inferência distribuída?

3,9x

Existe uma comunidade open source para isso?

2x

Mais recursos de IA

Entenda a inferência com os especialistas do Red Hat AI

Sistemas de agentic AI com o Red Hat AI

Tenha uma IA mais inteligente com escalabilidade na inferência

Desenvolva uma IA mais eficiente com o vLLM

O que é IA generativa?

Como escalar a IA na sua empresa

Por que modelos com compressão reduzem o custo da inferência

Conheça o Red Hat AI Inference Server

Inferência distribuída nativa do Kubernetes

Ollama e vLLM

Expanda o vLLM com o llm-d

Engenharia de plataforma para agentes de IA

Escalonamento automático do vLLM com o OpenShift AI

Crie um conjunto de ferramentas de IA pronto para produção

A estratégia da Irlanda para otimizar a entrega de IA

Como a IA acelera descobertas na área da saúde

Red Hat AI Inference Server

Acelere a implantação dos seus LLMs em produção.

Fontes citadas

Plataformas

Ferramentas

Experimente, compre e venda

Comunicação

Sobre a Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links