Não é segredo – a indústria de tecnologia está adotando rapidamente o desenvolvimento de software agêntico para converter processos de negócios em fluxos de trabalho totalmente autônomos e agênticos. Embora o poder dessas ferramentas seja inegável, os atuais modelos de consumo apresentam um desafio. A maioria dessas soluções é entregue utilizando uma abordagem de modelo-como-serviço (model-as-a-service), que está prestes a desencadear uma versão de IA do paradoxo da nuvem: o paradoxo agêntico.

O paradoxo é simples. O caminho mais rápido para aumentar a velocidade dos processos de negócios é usar modelos de fronteira poderosos. No entanto, à medida que a adoção escala, essa estratégia se torna insustentável. Os custos de tokens corroem as margens de lucro, a latência imprevisível pode degradar o desempenho e o roteamento de dados sensíveis para APIs públicas pode violar requisitos de confidencialidade, soberania e regulamentação. Para aliviar essas tensões, as empresas precisam ir além do simples consumo e adotar uma estratégia de arquitetura híbrida que priorize a escolha.

O custo da inovação

Já existem pontos visíveis de atrito. Alguns relatórios mostram empresas esgotando todo o orçamento de nuvem com tokens até meados do segundo trimestre. Estamos nos aproximando de um ponto crítico em que precisamos de novas abordagens para inferência de modelos, a fim de retomar o controle sobre custos, desempenho e dados.

Como as organizações vão responder quando a conta da inovação de ontem chegar no amanhã? Estamos indo além da era de simplesmente usar modelos. Precisamos arquitetar os sistemas que os suportam. A adoção provavelmente seguirá um padrão híbrido. Parte do consumo de tokens utilizará um modelo gerenciado, enquanto outra parte será autogerenciada em nuvens públicas ou em data centers corporativos.

Uma mentalidade centrada em sistemas

Grande parte do nosso trabalho nos grupos de Pesquisa e Tecnologias Emergentes da Red Hat concentra-se na relação entre as camadas de inteligência e infraestrutura, resultando em projetos inovadores de comunidades open source, como uma base robusta baseada em imagens, recentemente desenvolvida para agentes de IA. Ao tratar as cargas de trabalho de IA com o mesmo rigor aplicado ao software empresarial tradicional, o open source proporciona a estabilidade necessária para ambientes de produção.

Essa mudança de arquitetura permite que as organizações deixem de ter uma visão centrada no modelo e passem a uma mentalidade centrada em sistemas. Nesse modelo, o valor está na confiabilidade de toda a stack, e não na API de um único provedor.

O mecanismo da escolha

À medida que uma empresa busca recuperar sua estabilidade financeira e estabelecer uma base para controle e consistência híbridos, o caminho inicial normalmente utiliza um proxy ou roteador de inferência. Essa é a abordagem menos disruptiva para reduzir custos de inferência em uma implementação agêntica existente, com mudanças mínimas de arquitetura. Ao manter consistentes os endpoints de inferência, as organizações podem alternar entre provedores de serviço ou modelos autogerenciados que ofereçam melhor custo-benefício.

É por isso que a Red Hat criou projetos como vLLM Semantic Routerllm-d – para explorar novas ideias em inteligência artificial e, no caso do vLLM Semantic Router, roteamento de inferência e economia de tokens. Essa pesquisa e desenvolvimento pioneiros são os alicerces que, eventualmente, moldam as plataformas da Red Hat. Projetos como o vLLM Semantic Router fornecem o roteamento inteligente e eficiente necessário para navegar em um cenário multimodal e, ao possuir essa camada de inteligência de roteamento, as organizações podem retomar o controle de suas cargas de trabalho em qualquer infraestrutura.

Uma realidade híbrida

Além do roteamento de inferência, o próximo passo para as organizações é explorar soluções autogerenciadas. Isso significa utilizar os mais recentes modelos open weight servidos por uma plataforma de inferência de alto desempenho como o vLLM, hospedada em sua própria infraestrutura.

Então surge um desafio central: como as organizações podem substituir os poderosos processos de negócios orientados a agentes, desenvolvidos via modelo-como-serviço, e os substituem por modelos open weight? Como as empresas podem replicar padrões de MaaS para deixar de ser consumidoras de tokens e se tornarem fornecedoras de IA? Quais serão os desafios que vão enfrentar durante essa transição? Como podem realizá-la com sucesso sem comprometer a eficácia?

Toda empresa possui anos de dados únicos, e modelos treinados no domínio público não têm esse contexto e treinamento específicos. Modelos open weight executados localmente podem ser conectados a essas fontes privadas de dados para aprimorar com segurança a precisão e as capacidades dos agentes. Enquanto alguns modelos open weight podem atuar como substituição imediata, outros exigem trabalho para reduzir a lacuna de desempenho por meio de fine-tuning, destilação e aprendizado por reforço. À medida que o aprendizado por reforço entra no mercado, a precisão desses modelos e das cargas de trabalho agênticas resultantes será ainda mais aprimorada. Esse caminho leva, em última instância, a uma arquitetura híbrida. Alguns modelos permanecem autogerenciados para workloads centrais, enquanto outros são consumidos por meio da interface de serviços gerenciados de terceiros.

A Red Hat é especializada em soluções híbridas. Da mesma forma que entregamos uma plataforma híbrida para o consumo na nuvem com Red Hat Enterprise LinuxRed Hat OpenShift, o Red Hat AI Enterprise oferece uma plataforma híbrida para implantações de agentes e inferência, independentemente do modelo utilizado ou de onde ele esteja hospedado, provando que a escolha chega por meio do open source. O futuro da IA é híbrido, e as plataformas para construir esse futuro já estão aqui, na Red Hat.

Para conhecer as novidades de executivos, clientes e parceiros da Red Hat, assista às keynotes do Red Hat Summit ao vivo no YouTube.

Saiba mais sobre o Red Hat Summit e veja todos os anúncios na sala de imprensa do Red Hat Summit. Siga @RedHatSummit ou #RHSummit no X para atualizações sobre o evento.


Sobre o autor

Steve Watt is a Distinguished Engineer and vice president of the Office of the CTO, which includes Red Hat Research and Emerging Technologies. Prior to joining Red Hat, Steve was the founder of the Hadoop Business and Hadoop Chief Technologist at HP and a Software Architect and Master Inventor at IBM Emerging Technologies. Prior to IBM, Steve worked for a number of consumer facing software startups in the USA and his native South Africa.

UI_Icon-Red_Hat-Close-A-Black-RGB

Navegue por canal

automation icon

Automação

Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes

AI icon

Inteligência artificial

Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente

open hybrid cloud icon

Nuvem híbrida aberta

Veja como construímos um futuro mais flexível com a nuvem híbrida

security icon

Segurança

Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias

edge icon

Edge computing

Saiba quais são as atualizações nas plataformas que simplificam as operações na borda

Infrastructure icon

Infraestrutura

Saiba o que há de mais recente na plataforma Linux empresarial líder mundial

application development icon

Aplicações

Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações

Virtualization icon

Virtualização

O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem