-
Soluções e documentação Red Hat AI
Uma plataforma de soluções e serviços para desenvolvimento e implantação de IA na nuvem híbrida.
Red Hat AI Enterprise
Crie, desenvolva e implante aplicações com tecnologia de IA na nuvem híbrida.
Red Hat AI Inference Server
Otimize o desempenho do modelo com o vLLM e realize inferências de forma mais rápida, econômica e em escala.
Red Hat Enterprise Linux AI
Desenvolva, teste e execute modelos de IA generativa com recursos de inferência otimizados.
Red Hat OpenShift AI
Crie e implante modelos e aplicações com IA em escala em ambientes híbridos.
-
Aprenda Básico
-
Parceiros de IA
Red Hat AI Inference
O Red Hat® AI Inference é um stack integrado que oferece inferência rápida, consistente e econômica em grande escala.
Acesso rápido
Is AI inference costing you too much? Duração do vídeo: 2:16
O que é o Red Hat AI Inference?
O Red Hat AI Inference oferece o controle operacional para executar todos os modelos em qualquer acelerador na sua nuvem híbrida.
Com as tecnologias de vLLM e llm-d, o stack de inferência de ponta a ponta otimiza a economia de tokens e a capacidade do hardware para obter respostas mais rápidas. Ao atuar como o mecanismo para os padrões de agentes de IA e Modelo como Serviço, a tecnologia open source aumenta a eficiência sem sacrificar o desempenho.
vLLM: a tecnologia open source motivadora
O vLLM é um mecanismo de inferência de alta eficiência que resolve problemas de utilização de GPU com custo por token reduzido e latência estável em grande escala.
Com sua abordagem open source e portátil e uma comunidade em crescimento, o vLLM tem se destacado como o Linux® da inferência de gen AI.
Como colaboradora comercial líder do setor, a Red Hat oferece expertise exclusiva em vLLM para ajudar você a atingir suas metas de IA.
A comunidade do vLLM hoje
Mais de 500 mil GPUs implantadas em tempo integral1
Mais de 200 tipos de aceleradores diferentes2
Mais de 500 arquiteturas de modelos compatíveis2
Taxa de transferência 24 vezes maior em relação à concorrência 3
Benefícios
Flexibilidade de modelo e hardware
Mantenha a consistência operacional com qualquer modelo, hardware e nuvem.
Desacople a IA da infraestrutura subjacente para desenvolver uma arquitetura unificada de Modelo como Serviço, disponibilizar modelos e capacitar agentes com eficiência.
Gerenciamento da economia de tokens
Use vLLM e llm-d para aumentar a taxa de processamento e reduzir o custo por token.
Otimize os recursos existentes para executar agentes economicamente e escalar a IA com sustentabilidade.
Escala previsível
Faça uma distribuição inteligente do tráfego de inferência para atender a mais usuários e agentes na infraestrutura.
Gerencie diferentes casos de uso e demandas com confiança, desde fluxos de trabalho agênticos multimodais até assistentes de código e chatbots baseados em RAG.
Tenha acesso antecipado ao llm-d
O Red Hat AI Inference agora oferece acesso antecipado ao llm-d em ambientes Kubernetes de terceiros e recursos de inferência distribuída no Red Hat OpenShift®.
Você escolhe seus modelos
Desenvolva uma arquitetura unificada de modelo como serviço sem recriar seu stack de IA.
O Red Hat AI Inference oferece consistência operacional para qualquer combinação de modelos open source e aceleradores de hardware. Acelere as implantações com confiança usando nossa coleção de modelos de custo otimizado, validados para serem executados com eficiência na plataforma do Red Hat AI.
233% de ROI com o Red Hat AI
A Red Hat encomendou um estudo Total Economic Impact™ (TEI) da Forrester Consulting para examinar o retorno sobre o investimento (ROI) que a implantação do Red Hat AI poderia gerar para empresas.
Após entrevistar clientes do Red Hat AI, a análise descobriu que uma organização multifacetada obteve um ROI de 233% em três anos, representando um valor total superior ao triplo do investimento inicial.4
Destaques da solução
Obtenha um stack de inferência completo e totalmente integrado, projetado para disponibilizar modelos com eficiência em grande escala.
| Funcionalidade | Detalhes | Benefício | |
|---|---|---|---|
llm-d | Execute recursos de inferência distribuída no OpenShift ou tenha acesso antecipado ao llm‑d em ambientes Kubernetes de terceiros. | Acelere a inferência e aproveite ao máximo sua infraestrutura de IA nas distribuições do Kubernetes que você preferir. | |
Telemetria específica para gen AI | Confira métricas de desempenho específicas do modelo, como tempo até o primeiro token, taxa de acertos do cache de chave-valor (KV cache) e utilização da GPU. | Receba insights para atender a rigorosos objetivos de nível de serviço (SLOs) e saber onde seus modelos podem melhorar. | |
Kit de ferramentas para otimização de modelos | Otimize modelos fundamentais ou personalizados com técnicas como esparsidade ou quantização. | Maximize a capacidade do hardware para minimizar os custos e acelerar a inferência. | |
Combinação de especialistas (MoE) esparsa | Execute arquiteturas de MoE esparsas com agentes de baixa latência e modelos de raciocínio sofisticados. | Reduza os custos de inferência sem sacrificar o desempenho com uma arquitetura de modelo eficiente. | |
Certificado para todas as soluções Red Hat | Os recursos do Red Hat AI Inference fazem parte do Red Hat AI Enterprise e do Red Hat OpenShift® AI. Ele também é compatível com o Red Hat OpenShift e o Red Hat Enterprise Linux. | Use soluções Red Hat ou implante-as em plataformas Linux e Kubernetes conforme nossa política de suporte de terceiros. |
Como adquirir
O Red Hat AI Inference está disponível como uma solução independente ou como parte do Red Hat AI. Os recursos baseados em llm-d e vLLM estão incluídos no Red Hat AI Enterprise e no Red Hat OpenShift AI.
IA que se adequa às suas necessidades e opera do seu jeito.
IA generativa
Produza conteúdos novos, como texto e código de software.
Com o Red Hat AI, execute os modelos de IA generativa que quiser com mais rapidez, menos recursos e custos de inferência reduzidos.
IA preditiva
Conecte padrões e antecipe resultados futuros.
Com o Red Hat AI, as organizações podem criar, treinar, disponibilizar e monitorar modelos preditivos. Tudo isso com a consistência na nuvem híbrida.
IA operacionalizada
Crie sistemas que possibilitem a manutenção e a implantação da IA em grande escala.
Com o Red Hat AI, gerencie e monitore o ciclo de vida de aplicações, economize recursos e esteja em conformidade com as regulamentações de privacidade.
Agentic AI
Crie fluxos de trabalho que executem tarefas complexas com supervisão limitada.
Com o Red Hat AI, você tem uma base estável e flexível para criar, gerenciar e implantar fluxos de trabalho de Agentic AI em aplicações existentes.
Implantações com parceiros
Os especialistas e as tecnologias se juntam para nossos clientes fazerem mais com a IA. Conheça todos os parceiros que trabalham com a Red Hat para certificar a capacidade de operação deles com nossas soluções.
Casos de sucesso com a IA no Red Hat Summit e AnsibleFest 2025
Turkish Airlines dobrou a velocidade de implantação com acesso a dados de toda a empresa.
A JCCM aprimorou os processos de avaliação de impacto ambiental (EIA) da região usando IA.
O Denizbank acelerou o time to market de dias para minutos.
A Hitachi operacionalizou a IA em todos os negócios com o Red Hat OpenShift AI.
Perguntas frequentes
Preciso comprar o Red Hat AI Enterprise ou o Red Hat OpenShift AI para usar o Red Hat AI Inference?
Não. Você pode adquirir o Red Hat AI Inference como uma solução Red Hat independente.
Preciso comprar o Red Hat AI Inference e o Red Hat AI Enterprise?
Não. Os recursos baseados em vLLM e llm-d do Red Hat AI Inference já fazem parte do Red Hat AI Enterprise e do Red Hat OpenShift AI.
O Red Hat AI Inference pode ser executado no Red Hat Enterprise Linux ou no Red Hat OpenShift?
Sim, pode. O runtime baseado em vLLM dele também pode ser executado em ambientes Kubernetes e Linux de terceiros, conforme indicado no respectivo contrato. Ele também oferece acesso antecipado para executar os recursos de inferência distribuída baseados em llm-d em ambientes Kubernetes de terceiros.
Como funcionam os preços do Red Hat AI Inference?
O preço é cobrado por acelerador.
Confira mais recursos de IA
Como começar a usar a IA na empresa
Como começar a usar inferência de IA
Escale a inferência de IA empresarial na nuvem híbrida
Webinar: How to boost performance and optimize costs
Fale com a equipe de vendas
Fale com um especialista da Red Hat sobre o Red Hat AI
1Goin, Michael. "[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - December 18, 2025." YouTube, 8 de dezembro de 2025.
2Kwon, Woosuk. "Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale." X, 26 de janeiro de 2026.
3Kwon, Woosuk, et al. "vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention." Blog do vLLM, 20 de junho de 2023.
4 Estudo da Forrester Consulting, patrocinado pela Red Hat. "Forrester: Total Economic Impact™ of Red Hat AI". Fevereiro de 2026.