A TI moderna é impulsionada tanto por decisões econômicas quanto por conceitos técnicos. Os custos de hardware, serviços em nuvem, armazenamento, entre outros, influenciam a forma como CIOs e líderes de TI definem seus orçamentos e implementam suas estratégias. E agora, com a IA, temos outra decisão multidisciplinar a incorporar: a economia de tokens, neste caso, como nossas estratégias de IA consomem os custos voláteis dos modelos de IA subjacentes.
Atualmente, a maior parte da IA empresarial depende da chamada de APIs de modelos de fronteira e do pagamento pelos tokens consumidos e gerados. Embora esse seja um ponto de partida simples, a matemática está mudando. O consumo de tokens está disparando porque os novos modelos de raciocínio frequentemente consomem de 10 a 20 vezes mais tokens do que os modelos padrão apenas para “pensar” sobre um problema.
À medida que avançamos para a era dos agentes de IA que iteram, acionam ferramentas e encadeiam tarefas, esse consumo se multiplica exponencialmente. Para prosperar nesta nova economia, as organizações precisam evoluir de consumidoras de tokens para fornecedoras de tokens. Isso significa que o sucesso depende da posse da própria infraestrutura de inferência, do roteamento de consultas de modelos para o endpoint mais econômico e até mesmo da execução de modelos hospedados internamente, otimizados para as necessidades específicas do negócio.
Na Red Hat, vemos essa jornada como um caminho “do metal aos agentes”. Ela exige uma stack aberta e totalmente integrada, na qual cada camada — dos aceleradores físicos de IA aos próprios agentes — esteja conectada e construída com a segurança do sistema em primeiro plano. Essa base precisa suportar um ecossistema diverso de hardware, incluindo NVIDIA, AMD e Intel, além de silício customizado dos principais provedores de nuvem. Então, sobre essa camada de hardware, está a infraestrutura de IA, começando por ambientes Linux e Kubernetes centrados em segurança que oferecem confiabilidade consistente, seja em racks de servidores ou em satélites em órbita.
O coração pulsante de um sistema de IA é a inferência, fator determinante para escalar estratégias de IA. A liderança da Red Hat em projetos como vLLM e nosso trabalho com inferência distribuída usando llm-d significam que temos experiência única em otimizar a execução de modelos e a utilização de GPUs no nível do software. Em aplicações do mundo real, já vimos essas tecnologias entregarem uma redução de 10 vezes no tempo até o primeiro token e uma melhoria de 3 vezes na saída. Sem controle sobre desempenho e custo, as organizações vão acabar sendo forçadas a fazer concessões que nem as equipes financeiras nem os clientes vão aceitar.
Os modelos de IA, no entanto, não conhecem os diferenciais do seu negócio a menos que você os ensine. É por isso que Retrieval Augmented Generation (RAG) e fine-tuning transformaram a IA em um verdadeiro diferencial. As empresas podem conectar modelos a documentações internas exclusivas e históricos de clientes, criando modelos que realmente entendem a expertise específica e o conhecimento de domínio do negócio.
Tudo isso agora é essencial. A fronteira atual são os serviços de agentes. Os agentes não são mais experimentos; eles são o núcleo da estratégia empresarial moderna. Mas trazem consigo o desafio de “Traga Seu Próprio Agente”, no qual desenvolvedores, cientistas de dados e equipes de marketing usam ferramentas diferentes, de LangChain a OpenClaw. Uma estratégia eficaz precisa suportar essa liberdade de escolha enquanto mantém um rigoroso controle de TI. Isso significa fornecer a cada agente uma identidade verificada, conduzir o gerenciamento de ciclo de vida para controle de versões e reversões, e usar padrões emergentes, como MCP Services, para conectar agentes a ferramentas e dados sem criar brechas de segurança.
Vemos essa visão em ação com organizações como o BNP Paribas, que gerou quase US$ 600 milhões em valor ao industrializar mil casos de uso de IA em uma plataforma unificada. Eles transformaram o provisionamento de GPUs, que levava semanas, em um serviço realizado em minutos, provando que velocidade e soberania digital podem coexistir. Da mesma forma, o NASA Marshall Space Flight Center adotou essas plataformas unificadas para mover milhares de cargas de trabalho legadas para ambientes conteinerizados, reduzindo os tempos de implantação de dias para minutos para apoiar operações espaciais críticas.
Esses clientes estão transformando estratégias de IA, que antes se concentravam apenas em eficiência e redução de custos, em motores de crescimento. Sim, queremos ser mais eficientes com IA, mas focar apenas nisso é reducionista. O próximo grande salto da IA é alinhá-la ao crescimento; não apenas melhorar o resultado final, mas impulsionar a receita.
Em última análise, o objetivo de uma estratégia empresarial de IA deve ser garantir que, quando o mercado mudar novamente (e ele irá mudar), você seja dono da plataforma que sustenta aquilo que importa para VOCÊ. Você não precisa de uma escolha forçada entre o poder dos modelos de fronteira e segurança de controle/governança. Ao adotar uma stack aberta e integrada, é possível ter ambos. Você pode oferecer o acesso aos modelos que suas equipes precisam enquanto mantém uma postura de segurança que sua equipe de TI realmente consegue defender. Essa é a única forma de construir uma estratégia que se fortaleça a seu favor, transformando o ritmo acelerado da disrupção em uma vantagem competitiva de longo prazo.
Sobre o autor
Chris Wright is senior vice president and chief technology officer (CTO) at Red Hat. Wright leads the Office of the CTO, which is responsible for incubating emerging technologies and developing forward-looking perspectives on innovations such as artificial intelligence, cloud computing, distributed storage, software defined networking and network functions virtualization, containers, automation and continuous delivery, and distributed ledger.
During his more than 20 years as a software engineer, Wright has worked in the telecommunications industry on high availability and distributed systems, and in the Linux industry on security, virtualization, and networking. He has been a Linux developer for more than 15 years, most of that time spent working deep in the Linux kernel. He is passionate about open source software serving as the foundation for next generation IT systems.
Mais como este
O paradoxo agêntico e o argumento a favor da IA híbrida
Agentes de IA exigem um novo stack de infraestrutura: AMD e Red Hat entregam
Operating System Management | Compiler
Technically Speaking | Inside open source AI strategy
Navegue por canal
Automação
Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes
Inteligência artificial
Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente
Nuvem híbrida aberta
Veja como construímos um futuro mais flexível com a nuvem híbrida
Segurança
Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias
Edge computing
Saiba quais são as atualizações nas plataformas que simplificam as operações na borda
Infraestrutura
Saiba o que há de mais recente na plataforma Linux empresarial líder mundial
Aplicações
Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações
Virtualização
O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem