Da inferência aos agentes de IA: escale a IA com o Red Hat AI 3.4

12 de maio de 2026Jennifer Vargas, Carlos Condado, Younes Ben Brahim, Will McGrath8 minutos (tempo de leitura)

A IA empresarial está migrando de simples chatbots para agentes de IA. Esses sistemas utilizam raciocínio independente e planejamento em várias etapas para concluir tarefas complexas de maneira autônoma. Para criar essas aplicações habilitadas para IA, engenheiros de IA e desenvolvedores de agentes precisam de acesso imediato aos modelos por meio de endpoints de API confiáveis executados como cargas de trabalho de alto desempenho.

Agentes autônomos consomem muitos recursos por design. Eles operam 24 horas por dia, 7 dias por semana, em escala, e podem acessar a infraestrutura dezenas de vezes para resolver uma única tarefa, gerando carga sustentada e picos acentuados na demanda de computação. Sem uma base dedicada, o desempenho diminui e os custos aumentam. Quando combinadas com as demandas de segurança e governança de dados empresariais confidenciais, essas pressões se tornam sérias barreiras para a produção.

A solução Red Hat AI ajuda a superar esses desafios, oferecendo uma plataforma unificada de metal-a-agente que simplifica a implementação de soluções de IA. Ao oferecer um framework consistente para criadores e operadores, a Red Hat ajuda as organizações na transição de consumidoras para provedoras de tokens. Essa mudança permite que as empresas escalem sistemas autônomos enquanto mantêm a eficiência do hardware e o controle de custos computacionais necessários para transformar experimentos de IA em ativos prontos para produção.

Do serviço estático à orquestração de precisão: reduza os custos de inferência

A base de qualquer aplicação com IA é o engine de inferência. Para criar agentes eficazes, desenvolvedores precisam de baixa latência e alta taxa de transferência para oferecer suporte ao raciocínio da cadeia de pensamento. O Red Hat AI 3.4 introduz ferramentas para oferecer esse desempenho e, ao mesmo tempo, manter a sustentabilidade econômica.

Model-as-a-Service (MaaS) para empresas: nesta nova versão, a MaaS oferece aos engenheiros de plataforma uma interface de usuário [disponibilidade geral, GA] para permitir o gerenciamento de chaves de token de autosserviço para administração baseada em função [GA], rastreamento de uso e showback [prévia técnica, TP] e aplicar padrões de segurança usando modelos auto-hospedados [GA] e baseados em nuvem [TP].
Inferência distribuída com llm-d: essa versão torna a inferência distribuída mais fácil de operar e econômica em escala. Usuários que implementam modelos por meio da UI agora podem descobrir Gateways disponíveis em seu namespace e selecionar um ou mais para a implementação, removendo a dependência de um único padrão para todo o cluster [TP]. Um editor YAML integrado permite que usuários inspecionem e editem os recursos subjacentes [TP]. A priorização de solicita [TP] permite que o llm-d diferencie o tráfego interativo do tráfego em segundo plano no mesmo endpoint, processando primeiro as solicitações sensíveis à latência e descartando o trabalho de menor prioridade sob saturação. O autoscaling [TP] ajusta as réplicas automaticamente com base na contagem de solicitações ativas, na profundidade da fila e na utilização da GPU. A Batch Inference compatível com OpenAI [prévia para desenvolvedores, DP] adiciona um caminho persistente e simplificado para cargas de trabalho de alto volume, como classificação de documentos ou análise de logs.
Decodificação especulativa para desempenho [GA]: a plataforma Red Hat AI integra o servidor de inferência vLLM, que agora inclui suporte para decodificação especulativa. Ao usar modelos de rascunho altamente eficientes para acelerar o processamento, essa técnica pode aumentar as velocidades de resposta em 2 a 3 vezes sem perda de qualidade, reduzindo diretamente o custo por interação.
Flexibilidade de hardware em GPUs, CPUs e NPUs: o Red Hat AI 3.4 amplia as opções de aceleradores para inferência empresarial com o novo suporte da AMD em GPUs e CPUs, incluindo suporte a GPU AMD Instinct MI355X, suporte em preview para AMD Instinct MI350P PCIe e disponibilidade geral de vLLM CPU serving em processadores AMD EPYC. O lançamento também inclui a disponibilidade geral do vLLM CPU serving em processadores Intel Xeon e um container Rebellions certificado para ATOM NPU. Isso oferece às organizações mais flexibilidade para alinhar cada carga de trabalho à camada de computação adequada: GPUs para cargas de trabalho de raciocínio exigentes, CPUs para inferência lightweight e contínua, e NPUs para processamento de alto rendimento com eficiência energética. Esses recursos ajudam a reduzir o custo por interação, melhoram a utilização da infraestrutura e oferecem uma experiência consistente do Red Hat AI em ambientes heterogêneos de aceleradores.

O Red Hat AI Inference, que oferece suporte empresarial para vLLM e acesso a modelos validados e otimizados pela Red Hat, agora adiciona recursos de inferência distribuída com o llm-d no Red Hat OpenShift e em distribuições Kubernetes de terceiros [TP]. A versão inicial inclui disponibilidade no CoreWeave e nos serviços gerenciados de Kubernetes do Azure. As organizações agora podem executar a mesma stack de inferência em diferentes ambientes sem precisar re-arquitetar para cada provedor. Isso significa que as operações de IA permanecem consistentes e usam a mesma base aberta e de alto desempenho, independentemente do hardware subjacente ou do provedor de nuvem.

Valide a integridade do modelo por meio do desenvolvimento orientado por avaliação

Um modelo é tão eficaz quanto os dados que o fundamentam. O Red Hat AI 3.4 foca no desenvolvimento orientado por avaliação (EDD), substituindo testes subjetivos por dados e benchmarks concretos para verificar se os modelos e agentes estão prontos para produção.

Acompanhamento de experimentos com MLflow [GA]: a integração com o MLflow atua como a base para registrar automaticamente métricas, parâmetros e artefatos para permitir a reprodutibilidade e facilitar a comparação de resultados em cargas de trabalho preditivas e generativas. Isso inclui o gerenciamento de prompts, que trata os prompts como ativos corporativos governados e com controle de versão.
Experiências automatizadas [TP]: ferramentas como AutoRAG e AutoML automatizam tarefas complexas de IA para reduzir suposições dispendiosas e o processo manual de tentativa e erro. O AutoRAG automatiza a seleção de modelos de embedding e estratégias de chunking para RAG (retrieval-augmented generation), ajudando as equipes a passar de dados brutos para um pipeline de alto desempenho com muito mais rapidez. Da mesma forma, o AutoML lida com a engenharia de recursos e a seleção de modelos para análises preditivas, liberando os desenvolvedores para focar nos resultados de negócios em vez da preparação de dados.
Eval hub [TP]: o Red Hat AI 3.4 apresenta o eval hub, um control plane de avaliação de IA unificado e independente de framework para avaliar LLMs (large language models), aplicações de IA e agentes. Ele substitui métodos de teste fragmentados utilizando uma API REST unificada e um controlador Kubernetes ao oferecer coleções de avaliação personalizadas e selecionadas, um dashboard com MLflow incorporado e acesso a CLI (command line interface) e SDK (software development kit). Ao utilizar cartões de modelo da OCI (Open Container Initiative) para governança e um servidor MCP (Model Context Protocol) para avaliações detectáveis por agentes, ele oferece um ambiente nativo em cluster para os profissionais escalarem benchmarks reproduzíveis de laptops a pipelines de produção.

Reduza os riscos dos agentes de IA empresariais: maturidade e rastreabilidade

Os agentes autônomos exigem altos níveis de visibilidade, rastreabilidade e acesso governado a ferramentas para permanecerem nos limites operacionais prescritos. O Red Hat AI oferece o framework AgentOps para que esses sistemas sejam observáveis e protegidos.

Gerenciamento de prompts governado [TP]: a integração com o MLflow também viabiliza novos recursos de gerenciamento de prompts no playground do gen AI studio, um ambiente centralizado onde os desenvolvedores podem prototipar prompts, comparar modelos e verificar a segurança sem alternar entre várias ferramentas. Isso permite que os desenvolvedores controlem a versão, testem e refinem os prompts do agente como ativos governados. Gerenciar prompts como código ajuda as organizações a acelerar o time to value sem prejudicar a consistência.
Gerenciamento de identidade [DP]: o Red Hat AI implementa SPIFFE/SPIRE para identidades de agentes criptográficos, usando tokens de curta duração para eliminar chaves codificadas. Isso viabiliza a segurança zero-trust e permite que agentes operem sob princípios de privilégios mínimos em ambientes de produção.
Gerenciamento do ciclo de vida com Kagenti [DP]: para empresas que gerenciam ativos de agentes de IA, a plataforma apresenta o Kagenti. Essa ferramenta de gerenciamento de ciclo de vida permite que as equipes implantem, escalem e governem agentes sem alterar o código subjacente. O Kagenti permite a descoberta e a integração de agentes em todo o ciclo de vida, oferecendo suporte à transição do desenvolvimento para a produção.
Rastreabilidade de agentes via MLflow [GA]: o MLflow oferece rastreabilidade de agentes de ponta a ponta. O sistema rastreia cada chamada de LLM, execução de ferramenta e etapa de decisão. Esse é um requisito fundamental para depurar, auditar e avaliar sistemas autônomos.
Gerenciamento de MCP corporativo [DP/TP]: o Red Hat AI apresenta uma abordagem de plataforma para governar o acesso a ferramentas baseadas em MCP. O MCP catalog [DP] permite que as equipes descubram e implantem servidores MCP confiáveis da Red Hat e de parceiros de tecnologia. O MCP lifecycle operator [DP] gerencia esses servidores como cargas de trabalho nativas do Kubernetes. O MCP gateway [TP] oferece autenticação centralizada, controle de acesso no nível da ferramenta e observabilidade para os agentes acessarem apenas ferramentas autorizadas.

Expanda a base: segurança e observabilidade

Para a IA ser sustentável, ela deve ser executada em uma base estável e transparente. O Red Hat AI 3.4 funciona como um hub de operações abrangente, integrando MLOps, GenAIOps e AgentOps em uma única plataforma.

Criação integrada com prompt lab e registry [GA]: a plataforma oferece ferramentas unificadas para criar e gerenciar prompts. A lógica que orienta o comportamento dos agentes de IA é armazenada em um registro central, fornecendo uma única fonte de verdade para desenvolvedores e administradores.
Segurança de IA e red teaming [TP]: o Red Hat AI 3.4 integra a verificação automatizada de adversários diretamente ao ciclo de vida de desenvolvimento. Aproveitando a tecnologia da Chatterbox Labs acquisition, a plataforma utiliza o Garak para rastrear modelos e sistemas de agentes de IA em busca de riscos como jailbreaks, injeções de prompt e vieses. Esse recurso oferece análise de risco avançada para detectar falhas de segurança na lógica do modelo durante a fase de desenvolvimento, e não no runtime. Ao identificar e mitigar vulnerabilidades antecipadamente, as equipes podem avaliar a integridade das aplicações de IA para permitir uma transição mais segura para a implantação em produção.
Métricas centralizadas e observabilidade [TP]: esta versão oferece uma instância do Prometheus unificada e sem configuração com dashboards nativos básicos. Administradores de cluster podem monitorar a utilização de hardware e as métricas de MaaS [TP] em um único console. Ela também adiciona a capacidade de ver traces de execução passo a passo, cadeias de raciocínio, chamadas de ferramentas e interações de LLM de um agente diretamente no console [DP]. A plataforma mantém a flexibilidade para rotear essas métricas para coletores de observabilidade de terceiros existentes.

Red Hat AI em marketplaces de nuvem

Red Hat AI Enterprise estará disponível em breve para aquisição diretamente pelo AWS Marketplace, Microsoft Azure Marketplace e Google Cloud Marketplace. Isso oferece às organizações um caminho mais rápido e flexível para implantar a infraestrutura de IA na nuvem de sua preferência. As organizações podem aplicar os Enterprise Discount Programs (EDPs) e gastos comprometidos com a nuvem às subscrições do Red Hat AI, simplificando o processo financeiro e de aquisição.

Essa disponibilidade representa uma expansão das opções de nuvem do Red Hat AI existentes. A Red Hat já oferece o Red Hat Enterprise Linux AI nos 3 principais marketplaces para organizações com foco na execução de LLMs no image mode do Red Hat Enterprise Linux.

Red Hat AI Inference on IBM Cloud

Em conjunto com o IBM Cloud, também anunciamos a disponibilidade do Red Hat AI Inference on IBM Cloud, um serviço de inferência totalmente gerenciado que permite aos clientes executar modelos de IA em nível de produção. Ele oferece acesso rápido e econômico a modelos open source de base com governança integrada, como controles de acesso de nível empresarial, auditoria e governança de uso. Exemplos de catálogos de modelos atuais incluem Granite 4.0 H Small (IBM), Mistral-Small-3.2-24B-Instruct, Llama 3.3 70B Instruct e GPT-OSS-120B.

Considerações finais

O Red Hat AI 3.4 expande as funcionalidades necessárias para migrar de chatbots experimentais para agentes de IA de nível empresarial. Ao integrar inferência distribuída, pipelines de dados automatizados, AgentOps independente de framework e segurança proativa da IA, a Red Hat oferece uma base abrangente para a nuvem híbrida. Essa versão amplia as ferramentas para criar sistemas autônomos que são previsíveis, focados em segurança e economicamente sustentáveis em qualquer ambiente. Como uma plataforma abrangente para a era dos agentes de IA, o Red Hat AI ajuda as organizações a escalar a inovação com controle total sobre seus ativos de IA.

Conheça o Red Hat AI e descubra como criar uma IA para o seu mundo. O Red Hat AI 3.4 deve estar disponível ainda este mês.

Sobre os autores

Jennifer Vargas

Principal Product Marketing Manager

Jennifer Vargas is a marketer — with previous experience in consulting and sales — who enjoys solving business and technical challenges that seem disconnected at first. In the last five years, she has been working in Red Hat as a product marketing manager supporting the launch of a new set of cloud services. Her areas of expertise are AI/ML, IoT, Integration and Mobile Solutions.

Read full bio

Carlos Condado

Sr. Product Marketing Manager

Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.

With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.

Read full bio

Younes Ben Brahim

Principal Product Marketing Manager

Younes Ben Brahim is a Principal Product Marketing Manager at Red Hat, focusing on the strategic positioning and market adoption of Red Hat's AI platform offerings. Younes has spent over 15 years in the IT industry leading product marketing initiatives, managing product lifecycles for HPC & AI, and delivering consulting services.
Prior to Red Hat, he has worked with companies like NetApp, Dimension Data, and Cisco Systems, providing technical solutions and product strategy for enterprise infrastructure and software projects.

Read full bio

Will McGrath

Senior Principal Product Marketing Manager

Will McGrath is a Senior Principal Product Marketing Manager at Red Hat. He is responsible for marketing strategy, developing content, and driving marketing initiatives for Red Hat OpenShift AI. He has more than 30 years of experience in the IT industry. Before Red Hat, Will worked for 12 years as strategic alliances manager for media and entertainment technology partners.

Read full bio

Mais como este

Blog post

Pare de gerenciar o passado e comece a construir o futuro da TI

Blog post

O próximo ponto de inflexão da IA: transformando agentes em superusuários corporativos

Podcast original

Technically Speaking | Build a production-ready AI toolbox

Podcast original

Technically Speaking | Platform engineering for AI agents

Navegue por canal

Explore todos os canais

Da inferência aos agentes de IA: escale a IA com o Red Hat AI 3.4

Do serviço estático à orquestração de precisão: reduza os custos de inferência

Valide a integridade do modelo por meio do desenvolvimento orientado por avaliação

Reduza os riscos dos agentes de IA empresariais: maturidade e rastreabilidade

Expanda a base: segurança e observabilidade

Red Hat AI em marketplaces de nuvem

Red Hat AI Inference on IBM Cloud

Considerações finais

A empresa adaptável: da prontidão para a IA à disrupção

Sobre os autores

Jennifer Vargas

Carlos Condado

Younes Ben Brahim

Will McGrath

Mais como este

Leia mais

Navegue por canal

Plataformas

Ferramentas

Experimente, compre e venda

Comunicação

Sobre a Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links