Red Hat AI Inference

O Red Hat® AI Inference é um stack integrado que oferece inferência rápida, consistente e econômica em grande escala.

Teste a solução

Fale com um especialista da Red Hat

Acesso rápido

Veja a documentação da solução

Aprenda a usar

Obtenha um treinamento hands-on

Faça o download do e-book

Is AI inference costing you too much? Duração do vídeo: 2:16

O que é o Red Hat AI Inference?

O Red Hat AI Inference oferece o controle operacional para executar todos os modelos em qualquer acelerador na sua nuvem híbrida.

Com as tecnologias de vLLM e llm-d, o stack de inferência de ponta a ponta otimiza a economia de tokens e a capacidade do hardware para obter respostas mais rápidas. Ao atuar como o mecanismo para os padrões de agentes de IA e Modelo como Serviço, a tecnologia open source aumenta a eficiência sem sacrificar o desempenho.

A importância da inferência de IA

vLLM: a tecnologia open source motivadora

O vLLM é um mecanismo de inferência de alta eficiência que resolve problemas de utilização de GPU com custo por token reduzido e latência estável em grande escala.

Com sua abordagem open source e portátil e uma comunidade em crescimento, o vLLM tem se destacado como o Linux® da inferência de gen AI.

Como colaboradora comercial líder do setor, a Red Hat oferece expertise exclusiva em vLLM para ajudar você a atingir suas metas de IA.

Conheça a comunidade do vLLM

A comunidade do vLLM hoje

Mais de 500 mil GPUs implantadas em tempo integral¹

Mais de 200 tipos de aceleradores diferentes²

Mais de 500 arquiteturas de modelos compatíveis²

Taxa de transferência 24 vezes maior em relação à concorrência ³

Benefícios

Flexibilidade de modelo e hardware

Mantenha a consistência operacional com qualquer modelo, hardware e nuvem.

Desacople a IA da infraestrutura subjacente para desenvolver uma arquitetura unificada de Modelo como Serviço, disponibilizar modelos e capacitar agentes com eficiência.

Gerenciamento da economia de tokens

Use vLLM e llm-d para aumentar a taxa de processamento e reduzir o custo por token.

Otimize os recursos existentes para executar agentes economicamente e escalar a IA com sustentabilidade.

Escala previsível

Faça uma distribuição inteligente do tráfego de inferência para atender a mais usuários e agentes na infraestrutura.

Gerencie diferentes casos de uso e demandas com confiança, desde fluxos de trabalho agênticos multimodais até assistentes de código e chatbots baseados em RAG.

Tenha acesso antecipado ao llm-d

O Red Hat AI Inference agora oferece acesso antecipado ao llm-d em ambientes Kubernetes de terceiros e recursos de inferência distribuída no Red Hat OpenShift®.

Mais informações sobre o llm-d

Você escolhe seus modelos

Desenvolva uma arquitetura unificada de modelo como serviço sem recriar seu stack de IA.

O Red Hat AI Inference oferece consistência operacional para qualquer combinação de modelos open source e aceleradores de hardware. Acelere as implantações com confiança usando nossa coleção de modelos de custo otimizado, validados para serem executados com eficiência na plataforma do Red Hat AI.

Confira o repositório de modelos no Hugging Face

233% de ROI com o Red Hat AI

A Red Hat encomendou um estudo Total Economic Impact™ (TEI) da Forrester Consulting para examinar o retorno sobre o investimento (ROI) que a implantação do Red Hat AI poderia gerar para empresas.

Após entrevistar clientes do Red Hat AI, a análise descobriu que uma organização multifacetada obteve um ROI de 233% em três anos, representando um valor total superior ao triplo do investimento inicial.⁴

Leia o estudo

Destaques da solução

Obtenha um stack de inferência completo e totalmente integrado, projetado para disponibilizar modelos com eficiência em grande escala.

Confira o datasheet

Funcionalidade	Detalhes	Benefício
llm-d	Execute recursos de inferência distribuída no OpenShift ou tenha acesso antecipado ao llm‑d em ambientes Kubernetes de terceiros.	Acelere a inferência e aproveite ao máximo sua infraestrutura de IA nas distribuições do Kubernetes que você preferir.	Veja a documentação
Telemetria específica para gen AI	Confira métricas de desempenho específicas do modelo, como tempo até o primeiro token, taxa de acertos do cache de chave-valor (KV cache) e utilização da GPU.	Receba insights para atender a rigorosos objetivos de nível de serviço (SLOs) e saber onde seus modelos podem melhorar.
Kit de ferramentas para otimização de modelos	Otimize modelos fundamentais ou personalizados com técnicas como esparsidade ou quantização.	Maximize a capacidade do hardware para minimizar os custos e acelerar a inferência.	Veja a documentação
Combinação de especialistas (MoE) esparsa	Execute arquiteturas de MoE esparsas com agentes de baixa latência e modelos de raciocínio sofisticados.	Reduza os custos de inferência sem sacrificar o desempenho com uma arquitetura de modelo eficiente.	Veja a documentação
Certificado para todas as soluções Red Hat	Os recursos do Red Hat AI Inference fazem parte do Red Hat AI Enterprise e do Red Hat OpenShift® AI. Ele também é compatível com o Red Hat OpenShift e o Red Hat Enterprise Linux.	Use soluções Red Hat ou implante-as em plataformas Linux e Kubernetes conforme nossa política de suporte de terceiros.	Veja a documentação

Como adquirir

O Red Hat AI Inference está disponível como uma solução independente ou como parte do Red Hat AI. Os recursos baseados em llm-d e vLLM estão incluídos no Red Hat AI Enterprise e no Red Hat OpenShift AI.

Fale com um consultor da Red Hat

IA que se adequa às suas necessidades e opera do seu jeito.

IA generativa

Produza conteúdos novos, como texto e código de software.

Com o Red Hat AI, execute os modelos de IA generativa que quiser com mais rapidez, menos recursos e custos de inferência reduzidos.

Conheça a IA generativa com o Red Hat AI

IA preditiva

Conecte padrões e antecipe resultados futuros.

Com o Red Hat AI, as organizações podem criar, treinar, disponibilizar e monitorar modelos preditivos. Tudo isso com a consistência na nuvem híbrida.

Conheça a IA preditiva com o Red Hat AI

IA operacionalizada

Crie sistemas que possibilitem a manutenção e a implantação da IA em grande escala.

Com o Red Hat AI, gerencie e monitore o ciclo de vida de aplicações, economize recursos e esteja em conformidade com as regulamentações de privacidade.

Conheça a IA operacionalizada com o Red Hat AI

Agentic AI

Crie fluxos de trabalho que executem tarefas complexas com supervisão limitada.

Com o Red Hat AI, você tem uma base estável e flexível para criar, gerenciar e implantar fluxos de trabalho de Agentic AI em aplicações existentes.

Conheça a Agentic AI com o Red Hat AI

Implantações com parceiros

Os especialistas e as tecnologias se juntam para nossos clientes fazerem mais com a IA. Conheça todos os parceiros que trabalham com a Red Hat para certificar a capacidade de operação deles com nossas soluções.

Navegue por parceiros do Red Hat AI

Casos de sucesso com a IA no Red Hat Summit e AnsibleFest 2025

Confira os destaques do Summit 2025

Turkish Airlines dobrou a velocidade de implantação com acesso a dados de toda a empresa.

A JCCM aprimorou os processos de avaliação de impacto ambiental (EIA) da região usando IA.

O Denizbank acelerou o time to market de dias para minutos.

A Hitachi operacionalizou a IA em todos os negócios com o Red Hat OpenShift AI.

Perguntas frequentes

Preciso comprar o Red Hat AI Enterprise ou o Red Hat OpenShift AI para usar o Red Hat AI Inference?

Não. Você pode adquirir o Red Hat AI Inference como uma solução Red Hat independente.

Preciso comprar o Red Hat AI Inference e o Red Hat AI Enterprise?

Não. Os recursos baseados em vLLM e llm-d do Red Hat AI Inference já fazem parte do Red Hat AI Enterprise e do Red Hat OpenShift AI.

Como adquirir o Red Hat Enterprise Linux AI

O Red Hat AI Inference pode ser executado no Red Hat Enterprise Linux ou no Red Hat OpenShift?

Sim, pode. O runtime baseado em vLLM dele também pode ser executado em ambientes Kubernetes e Linux de terceiros, conforme indicado no respectivo contrato. Ele também oferece acesso antecipado para executar os recursos de inferência distribuída baseados em llm-d em ambientes Kubernetes de terceiros.

Como funcionam os preços do Red Hat AI Inference?

O preço é cobrado por acelerador.

Confira mais recursos de IA

Como começar a usar a IA na empresa

Como começar a usar inferência de IA

Escale a inferência de IA empresarial na nuvem híbrida

Webinar: How to boost performance and optimize costs

Fale com a equipe de vendas

Fale com um especialista da Red Hat sobre o Red Hat AI

¹Goin, Michael. "[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - December 18, 2025." YouTube, 8 de dezembro de 2025.

²Kwon, Woosuk. "Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale." X, 26 de janeiro de 2026.

³Kwon, Woosuk, et al. "vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention." Blog do vLLM, 20 de junho de 2023.

⁴ Estudo da Forrester Consulting, patrocinado pela Red Hat. "Forrester: Total Economic Impact™ of Red Hat AI". Fevereiro de 2026.