O que é AgentOps?
AgentOps (operações por agentes) é um framework de ferramentas que monitora o "cérebro" da IA em tempo real, conforme ela toma decisões. Ele é uma maneira de gerenciar e definir parâmetros para o "funcionário" de IA autônoma. Isso ajuda a assegurar que o agente conclua a tarefa atribuída a ele com eficiência, segurança e sem exceder o orçamento.
Por que o AgentOps é necessário?
As ações dos agentes são não determinísticas, ou seja, são decididas por uma série de distribuições de probabilidade aleatórias. Desse modo, não é possível prever as ações com precisão. Essa falta de previsibilidade permite que os agentes encontrem caminhos criativos para resolver problemas. Entretanto, em um ambiente de produção, a autonomia sem explicabilidade se torna um risco, que o AgentOps ajuda a reduzir.
Quatro considerações importantes sobre a implementação da tecnologia de IA
O que é a agentic AI?
A IA agêntica é um sistema de software criado para interagir com dados e ferramentas, exigindo o mínimo de intervenção humana. Ela prioriza o comportamento orientado a objetivos e realiza tarefas criando uma lista de etapas e as executando de forma autônoma.
A IA agêntica combina a automação e as habilidades criativas de um Large Language Model (LLM). Para usá-la, você concede a um LLM acesso a ferramentas externas e a algoritmos que ofereçam instruções sobre como os agentes de IA devem usar essas ferramentas.
Agente de IA e IA agêntica
Qual é a diferença entre agentes de IA e IA agêntica? O termo "agente" é um substantivo ("Estou desenvolvendo três agentes"), enquanto "agêntica" descreve uma característica ("Precisamos tornar nosso software mais agêntico").
Um agente de IA é uma entidade de software desenvolvida para realizar tarefas e executar uma função dentro de um sistema agêntico. IA agêntica descreve um sistema que planeja, toma decisões e age para alcançar objetivos com orientação humana limitada. Ela se refere às características comportamentais de um sistema.
O AgentOps beneficia os agentes de IA e a IA agêntica de diferentes maneiras.
Ele ajuda os agentes de IA com:
- Identidade e controle de versão: monitora as diferenças nos perfis e habilidades dos agentes.
- Gerenciamento de ferramentas: monitora quais agentes podem acessar cada interface de programação de aplicações (API) e banco de dados.
- Rastreamento de custos e recursos: monitora quanto dinheiro um agente gasta em relação a outro.
E ajuda a IA agêntica com:
- Rastreabilidade: mapeia a "linha de raciocínio" para que seja possível entender por que a IA tomou uma determinada decisão (por exemplo, por que a 3ª etapa foi realizada antes da 2ª).
- Taxas de sucesso: avalia o sucesso geral do seu sistema agêntico.
- Detecção de alucinações: identifica erros em tempo real antes que o agente desperdice recursos realizando ações falhas.
Agentes de IA e fluxos de trabalho agênticos podem ser tão autônomos quanto os programamos para ser. O AgentOps é importante para oferecer confiabilidade e supervisão aos fluxos de trabalho, independentemente do nível de autonomia deles.
Nível de autonomia | Estilo lógico | Por que o AgentOps é importante |
Menos agêntico | Faça A, depois B, então C. | Identifica alucinações do LLM e falhas da API. |
Semiagêntico | Faça A, então decida entre B e C. | Entende por que a IA escolheu B em vez de C. |
Totalmente agêntico | Nosso objetivo é tal. Descubra como alcançá-lo. | Entende o raciocínio, a avaliação e a otimização. |
Benefícios do AgentOps
Os fluxos de trabalho agênticos ajudam a resolver problemas criativamente. No entanto, é preciso gerenciar a criatividade para que os sistemas não saiam do controle. O AgentOps reduz os riscos da IA agêntica, observando, avaliando, governando e otimizando os sistemas agênticos.
Observabilidade
Os agentes simulam um processo de raciocínio por meio de um ciclo de "pensar, agir e observar". Se houver um erro nesse processo, a tarefa inteira poderá ser comprometida. Quando um agente faz algo inesperado, é preciso questionar a lógica utilizada por ele para encontrar o erro. O AgentOps oferece uma linha de raciocínio rastreável, permitindo detectar a causa raiz de uma decisão incorreta.
Avaliação em tempo real
É possível usar os processos do AgentOps para configurar um agente secundário encarregado de supervisionar o trabalho do agente principal. Caso note que o agente principal está alucinando ou desviando do objetivo, o agente supervisor pode interromper o sistema ou sinalizar a situação para que seja feita uma intervenção humana.
Governança
É preciso definir salvaguardas ao delegar tarefas para os agentes. Essas proteções mantêm os sistemas de IA funcionando dentro dos padrões estabelecidos. O AgentOps permite implementar verificações Human-in-the-loop (HITL) e assegurar que os agentes não executem ações importantes (como excluir arquivos ou efetuar despesas) sem a aprovação de uma pessoa.
Otimização de custos
O AgentOps fornece os registros necessários para identificar se o agente está sendo ineficiente. Por exemplo, quando ele recorre a um modelo caro demais ou resolve um problema consumindo mais recursos do que o necessário.
Com o AgentOps, você pode definir instruções para seu sistema, como:
- "Interrompa a tarefa se o custo exceder US$ 5,00".
- "Interrompa a tarefa se ela exigir mais de 20 etapas para ser concluída".
- "Bloqueie o comando
'delete'".
AgentOps e IA soberana
O AgentOps é um elemento essencial para quem busca implementar práticas de IA soberana. Nessa abordagem, você tem a propriedade da tecnologia, os dados são mantidos no local, e os sistemas de IA refletem seus valores e requisitos legais.
O AgentOps oferece transparência aos sistemas, algo essencial do ponto de vista jurídico. Afinal, o argumento de que "foi a IA que decidiu fazer assim" não vai convencer ninguém em um tribunal.
Estamos deixando de usar a IA como ferramenta para responder perguntas e passando a usá-la como um sistema que entende contexto. Portanto, as organizações precisam criar camadas semânticas e gateways de Model Context Protocol (MCP) para poder permitir que os agentes de IA acessem todo o acervo de dados empresariais com segurança. O AgentOps permite:
- Acompanhar o consumo de recursos de hardware.
- Monitorar as taxas de alucinação.
- Assegurar a criptografia dos dados.
- Fornecer registros auditáveis das operações dos agentes.
- Encerrar um processo em caso de violações de política.
Em um sistema de IA soberana, o AgentOps oferece registros verificáveis de decisões, fluxos de dados e interações com as ferramentas, permitindo entender como o sistema funciona.
AgentOps e explicabilidade
Um agente totalmente autônomo toma decisões, seleciona ferramentas e corrige erros por conta própria. Isso envolve um processo complexo de tomada de decisões, o que cria algo conhecido como "problema de caixa preta".
Uma caixa preta é um modelo de IA complexo demais para ser entendido e/ou que não revela sua lógica. Isso cria um cenário em que ninguém, nem mesmo os cientistas e engenheiros de dados que criaram o algoritmo, consegue explicar como o modelo chegou a um determinado resultado. Para resolver o problema da caixa preta, precisamos da IA explicável (XAI).
A XAI é uma filosofia e conjunto de práticas que busca tornar as ações da IA compreensíveis para humanos. O AgentOps é o conjunto de ferramentas que viabiliza isso.
O AgentOps oferece um mapa cronológico de cada loop de raciocínio, chamadas de ferramenta e observação feitos por um agente de IA. Isso ajuda a explicar por que o agente optou por determinada ferramenta, e não outra. Ele também permite que humanos forneçam feedback por meio de aprendizagem por reforço para corrigir o agente em caso de erro.
Por exemplo, o AgentOps pode oferecer uma interface que permite aos humanos ler o raciocínio por trás de cada ação do agente. Com isso, podemos orientar o agente: "A 3ª etapa foi uma decisão ruim, pois usou um modelo muito caro".
AgentOps e outras operações
O AgentOps é um novo membro da família Ops (operações), como DevOps, AIOps, MLOps e LLMOps. Vejamos a definição dos diferentes tipos de operações e como eles atuam juntos.
- DevOps é a base para desenvolver todas as outras operações. Esse conjunto de práticas busca assegurar que todo software seja desenvolvido, testado e implantado de maneira confiável. O objetivo do DevOps é acelerar a entrega de software.
- A AIOps (IA para operações de TI) aplica a IA ao DevOps. O objetivo é usar IA para automatizar as operações de TI e impedir a ocorrência de bugs. A AIOps monitora os servidores e evita falhas.
- O MLOps (operações de machine learning) gerencia o ciclo de vida do modelo de machine learning. O objetivo é impedir desvios na precisão do modelo com a chegada de novos dados.
- O LLMOps (operações de LLM) é um subconjunto do MLOps específico para gerenciar LLMs. Seu objetivo é gerenciar prompts e reduzir as alucinações e o custo das chamadas de API.
O que isso tem a ver com o AgentOps?
Para usar o AgentOps com eficiência, o LLMOps e o DevOps precisam estar em operação. A AIOps e o MLOps também podem ser úteis. Vejamos como todos eles podem atuar em conjunto:
- DevOps: para criar um agente, você precisa de um código, que deve ser processado e transmitido pelos servidores de maneira confiável e escalável. O DevOps garante que isso ocorra.
- LLMOps: processa a lógica do prompt do usuário e ajuda o agente a transformá-lo em um plano de ação.
- MLOps: garante a precisão dos modelos de machine learning que o agente acessa. O modelo é atualizado automaticamente com dados recentes, garantindo que os agentes chamem sua versão mais nova.
- AIOps: a queda de um servidor pode disparar 1.000 alertas. A AIOps identifica que todos têm a mesma origem e notifica o humano com um único alerta de "incidente crítico". Isso aumenta a eficiência e evita confusão.
Práticas recomendadas de AgentOps
O AgentOps deve ser aplicado em todas as fases de um fluxo de trabalho agêntico, abrangendo a base operacional, as medidas de segurança e a escalabilidade avançada.
O ponto de partida é uma base operacional sólida. Para isso, os seguintes sistemas devem estar em operação:
Protocolos padronizados
Para que os agentes interajam em um ecossistema digital, precisam compartilhar uma linguagem comum com as ferramentas que usam. O MCP viabiliza a conexão bidirecional e a comunicação padronizada entre aplicações de IA e serviços externos. Sem um protocolo padronizado, como o MCP, os agentes de IA pensam e planejam, mas não conseguem interagir com sistemas externos.
Mecanismos de gerenciamento de erros
Ao executar fluxos de trabalho agênticos, é importante considerar cenários de instabilidade e limitações operacionais. Crie políticas de segurança em seu sistema para lidar com os erros quando eles surgirem, como um airbag em um carro. Essas capacidades são conhecidas como recursos de autorrecuperação.
- Lógica de repetição: os elementos do sistema usados pelo agente podem falhar temporariamente, causando instabilidade. Em vez de interromper todo o fluxo de trabalho, implementar uma lógica de repetição é uma boa linha de defesa. Para isso, crie instruções de como proceder e realizar correções automáticas a fim de evitar loops de raciocínio infinitos (e seus altos custos).
- Modelo de fallback: o modelo secundário assume quando o modelo principal está indisponível ou se torna muito caro. Por exemplo, se o agente estiver usando a OpenAI e o modelo sair do ar, ele poderá trocar para um modelo local, como Llama 3.
Salvaguardas da ferramenta
Enquanto os mecanismos de gerenciamento de erros são airbags acionados quando ocorre uma batida, as salvaguardas são os freios que impedem o acidente. Você pode definir regras para o agente, como excluir arquivos somente com aprovação humana.
Governança e conformidade
A governança e a conformidade asseguram que todas as ações dos agentes sejam registradas e justificadas. Isso é especialmente importante para setores regulados por leis de privacidade rigorosas, como o Regulamento Geral sobre a Proteção de Dados (GDPR) ou a Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA).
Otimização da memória
Talvez os agentes fiquem confusos se o histórico da conversa for muito longo. Isso sobrecarrega a janela de contexto e pode causar desvios de atenção, levando a alucinações ou à incapacidade de atingir o objetivo. O vLLM usa o PagedAttention como técnica de gerenciamento da memória, o que ajuda os sistemas agênticos a processar históricos contextuais longos em grande escala e com eficiência. O vLLM é especialmente útil para fluxos de trabalho agênticos, pois oferece alto desempenho mesmo nos cenários mais complexos.
Frameworks de colaboração multiagente
A colaboração multiagente é a prática de atribuir funções, memórias e ferramentas distintas para vários LLMs independentes. Um agente pode atuar como "pesquisador" e outro como "construtor", transmitindo mensagens entre si para chegar ao resultado final. O objetivo da colaboração multiagente é superar as limitações de um único modelo ao fazer os agentes trabalharem juntos e se avaliarem mutuamente.
Desafios e limitações do AgentOps
O dilema da autonomia
A independência pode levar a resultados incríveis ou ao caos. Encontrar o nível de autonomia ideal para os agentes é complexo, demorado e envolve a definição de salvaguardas para criar o equilíbrio adequado. Os desenvolvedores devem implementar verificações humanas (HITL) para assegurar que os agentes atuem somente dentro dos limites aprovados.
Questões éticas e de conformidade
Os agentes buscam alcançar um objetivo e podem decidir tomar atalhos, como oferecer um desconto não autorizado para um cliente fechar um acordo. Isso pode violar leis de concessão de crédito ou políticas internas. Solucionar isso requer camadas de aplicação de política e auditorias para assegurar que as ações agênticas estejam em conformidade com as normas legais e corporativas.
Questões de privacidade
Como os agentes acessam muitas fontes de dados, existe o risco de compartilharem acidentalmente informações confidenciais ou sensíveis com quem não deveria acessá-las. Uma forma de se proteger é criar uma lista de ações proibidas.
Custos inesperados
Os agentes funcionam em loop (pensar, agir, observar), e esse ciclo pode sair do controle rapidamente, gerando custos elevados. É importante se prevenir, criando limites orçamentários e salvaguardas para evitar o consumo excessivo de recursos.
Escalabilidade
Executar um agente em um laptop é diferente de ter mil agentes executando mil fluxos de trabalho simultaneamente. Ferramentas como a inferência distribuída, o llm‑d e o vLLM ajudam a gerenciar os diversos requisitos de memória e processamento necessários para executar uma frota de agentes.
Casos de uso do AgentOps
Confira exemplos de como uma empresa pode usar o AgentOps para gerenciar fluxos de trabalho:
Fiscalização financeira
Uma equipe de agentes monitora diariamente milhares de transações e sinaliza fraudes ou violações de política. Eles ingerem dados, cruzam referências com políticas internas e sinalizam atividades suspeitas para análise humana.
Auxiliar de suporte autônomo
Os agentes recebem a capacidade de testar e corrigir códigos em um ambiente de sandbox. Quando um ticket de trabalho é enviado, o agente reproduz o bug em um sandbox, escreve uma possível correção e executa testes. Ao entender como corrigir o problema, o agente notifica um humano para revisar e aprovar o trabalho.
Supervisão da cadeia de suprimentos
O sistema agêntico monitora o clima global, greves de transportadoras e congestionamentos portuários. Ele alerta a equipe sobre as condições climáticas, calcula o custo de rotas alternativas e propõe mudanças.
Como a Red Hat pode ajudar
O Red Hat® AI operacionaliza todo o ciclo de vida de um agente com um control plane de AgentOps dedicado. Isso garante que cada implantação seja protegida, observável e eficiente em todo o ambiente de nuvem híbrida.
A plataforma oferece governança de nível empresarial com salvaguardas integradas. A infraestrutura subjacente usa o vLLM e o llm‑d para viabilizar uma inferência distribuída de alto desempenho, permitindo escalar fluxos de trabalho intensivos, de ambientes on-premise para a edge.
O Red Hat AI foi criado para oferecer inferências rápidas, flexíveis e eficientes por meio de um servidor com tecnologia vLLM. Ele conecta modelos aos seus dados de maneira confiável para unificar a personalização e o desenvolvimento de agentes especializados na mesma plataforma. Desenvolvidas sobre uma base open source, nossas soluções de IA oferecem controle total sobre os fluxos de trabalho de IA, de ponta a ponta, em qualquer escala.
Artificial Intelligence (AI)
See how our platforms free customers to run AI workloads and models anywhere