L'AgentOps, qu'est-ce que c'est ?

Publié 24 avril 2026•11 minutes (temps de lecture)

L'AgentOps (Agent Operations, ou exploitation des agents) fait référence à un ensemble d'outils qui permettent de surveiller le raisonnement des systèmes d'IA en temps réel, pendant la prise de décision. Cette approche offre aux équipes un moyen de gérer et configurer les systèmes d'IA autonomes qu'elles exploitent. Elle permet de s'assurer que lorsqu'un agent reçoit une tâche, il est capable de l'accomplir de manière sûre et efficace, sans dépasser le budget fixé.

Découvrir Red Hat AI

Les actions des agents sont non déterministes, c'est-à-dire qu'elles résultent de processus probabilistes. Il est donc impossible de les prévoir avec précision. Cette marge d'imprévisibilité permet aux agents de trouver des solutions créatives aux problèmes. Cependant, en production, un certain niveau d'explicabilité s'impose pour garder le contrôle sur les systèmes autonomes. C'est là que l'AgentOps entre en jeu.

L'IA agentique est un système logiciel conçu pour interagir avec les données et les outils, avec un minimum d'intervention humaine. Elle privilégie un comportement axé sur les objectifs et accomplit des tâches en établissant une liste d'étapes et en les suivant de façon autonome.

L'IA agentique offre un moyen d'associer l'automatisation aux capacités de création d'un grand modèle de langage (LLM). Afin de mettre en application l'IA agentique, il faut fournir au LLM un accès à des outils externes, ainsi que les algorithmes qui donnent aux agents IA des instructions pour utiliser ces outils.

Agent IA et IA agentique

Dans le terme « agent IA », agent est un nom (« Notre équipe a créé trois agents IA »), tandis que dans le terme « IA agentique », agentique est un adjectif qualificatif (« Notre logiciel doit être plus agentique »).

Un agent IA est une entité logicielle qui fonctionne et remplit un rôle au sein d'un système agentique. Une IA agentique est un système doté de capacités de planification, de prise de décision et d'action, qui peut atteindre des objectifs avec un minimum d'intervention humaine. L'IA agentique fait référence aux caractéristiques comportementales d'un système.

L'AgentOps répond différemment aux besoins des agents IA et de l'IA agentique.

Pour les agents IA, l'AgentOps facilite les tâches suivantes :

Gestion des identités et des versions : suivi des différences de profils et de capacités entre les agents
Gestion des outils : suivi des droits d'accès des agents aux interfaces de programmation d'application (API) et aux bases de données
Suivi des coûts et des ressources : suivi de la somme que dépense l'agent A par rapport à l'agent B

Pour l'IA agentique, l'AgentOps facilite les tâches suivantes :

Traçabilité : reconstitution de la structure du raisonnement de l'IA (ou « arbre de décision ») afin de permettre à un humain de comprendre ses choix (par exemple, pourquoi elle a effectué la troisième étape avant la deuxième)
Suivi du taux de réussite : mesure du taux de réussite de l'ensemble du système agentique mis en place
Détection des hallucinations : repérage des erreurs en temps réel avant que l'agent consomme trop de ressources pour la mauvaise action

Le niveau d'autonomie des agents IA et des workflows agentiques dépend des paramètres définis. L'AgentOps apporte la fiabilité et la capacité de supervision nécessaire pour tous les types de workflows agentiques.

Niveau d'autonomie	Schéma de raisonnement	Rôle de l'AgentOps
Faiblement agentique	Faire A, puis B, puis C	Repérer les hallucinations des LLM et les pannes d'API
Semi-agentique	Faire A, puis décider entre B et C	Comprendre pourquoi l'IA a choisi B plutôt que C
Entièrement agentique	Déterminer comment atteindre un objectif donné	Comprendre le raisonnement, l'évaluation et l'optimisation

Si les workflows agentiques peuvent proposer des solutions créatives aux problèmes, ils doivent toutefois être bien gérés pour éviter toute dérive. L'AgentOps contribue à réduire les risques liés à cette technologie en assurant l'observation, l'évaluation, la gouvernance et l'optimisation des systèmes.

Observabilité

Les agents simulent un raisonnement selon une boucle de type « penser, agir, observer ». Une erreur dans ce processus peut entraîner l'échec de la tâche en cours. Si un agent adopte un comportement inattendu, il est nécessaire d'analyser son raisonnement pour en identifier l'origine. L'AgentOps fournit une chaîne de raisonnement traçable, qui permet à un humain de remonter à la cause profonde d'une mauvaise décision.

Évaluation en temps réel

Il est possible de mettre en place un agent secondaire chargé de surveiller l'agent principal (via des processus AgentOps). Si cet agent superviseur détecte une hallucination ou un écart de l'agent principal par rapport à l'objectif, il peut interrompre le système ou envoyer une alerte à l'équipe humaine.

Gouvernance

Il est indispensable d'établir des mesures de sécurité avant de déléguer des tâches à des agents. Ces mécanismes visent à maintenir les systèmes d'IA dans un cadre d'action défini. L'AgentOps permet de conserver une intervention humaine à certains points de contrôle et avant toute opération sensible, comme la suppression d'un fichier ou un paiement.

Réduction des coûts

L'AgentOps fournit une visibilité détaillée sur les coûts, ce qui permet d'identifier les inefficacités, notamment l'utilisation d'un modèle trop cher ou le recours à une solution trop complexe et coûteuse en ressources.

L'AgentOps permet de configurer le système à l'aide d'instructions précises :

« Annule la tâche si elle coûte plus de 5 $. »
« Annule la tâche si elle nécessite plus de 20 étapes. »
« Bloque la commande delete. »

L'AgentOps joue un rôle essentiel dans la mise en œuvre des pratiques d'IA souveraine, dont le principe est de posséder les technologies, de conserver les données en local et de s'assurer de l'adéquation des systèmes avec les valeurs de l'entreprise et les exigences réglementaires.

L'AgentOps garantit un bon niveau de transparence des systèmes, ce qui est important d'un point de vue juridique puisqu'il ne serait pas recevable d'attribuer toute la responsabilité à l'IA.

L'utilisation de l'IA est en pleine transition. Les entreprises ne se contentent plus de lui poser des questions : elles l'exploitent comme un système qui comprend le contexte. Par conséquent, elles doivent créer des couches sémantiques et des passerelles MCP (Model Context Protocol) qui permettent aux agents IA de parcourir en toute sécurité l'ensemble de leur parc de données. L'AgentOps peut se charger de plusieurs tâches pour assister les équipes :

Suivre l'utilisation du matériel
Surveiller les taux d'hallucination
Garantir le chiffrement des données
Fournir un journal auditable des actions effectuées par l'agent
Mettre fin à un processus en cas de violation d'une politique

Dans un système d'IA souveraine, l'AgentOps peut produire un historique vérifiable des décisions, des flux de données et des interactions entre les outils, afin d'éclaircir le fonctionnement du système.

Un agent entièrement agentique peut prendre des décisions, choisir des outils et corriger ses erreurs de façon autonome. La prise de décision devient alors très complexe, ce qui transforme le système en « boîte noire ».

Une boîte noire est un modèle d'IA qui est trop complexe pour être compris ou qui ne dévoile pas son raisonnement, voire les deux. Dans ce cas, même les spécialistes de la science des données et de l'ingénierie qui ont créé l'algorithme ne peuvent pas expliquer exactement comment le modèle parvient au résultat qu'il propose. L'IA explicable offre une solution à ce problème.

L'IA explicable est à la fois une philosophie et un ensemble de pratiques concrètes qui visent à rendre les actions de l'IA compréhensibles pour un humain. Pour ce faire, elle s'appuie sur les outils de l'AgentOps.

L'AgentOps fournit une chronologie de l'ensemble des boucles de raisonnement, des appels d'outils et des observations qu'un agent IA réalise, ce qui permet de clarifier les choix d'outils de ce dernier. Cette approche donne aussi aux équipes la possibilité de corriger un agent qui commet une erreur par le biais de l'apprentissage par renforcement.

En pratique, l'AgentOps pourrait fournir une interface qui explique clairement les décisions d'un agent. Celle-ci permettrait à l'utilisateur d'identifier les inefficacités et, par exemple, d'indiquer au système qu'à la troisième étape, l'agent a utilisé un modèle trop coûteux.

L'AgentOps s'inscrit dans la lignée des approches « Ops » (pour Operations, ou exploitation), aux côtés du DevOps, de l'AIOps, du MLOps et du LLMOps. Arrêtons-nous un instant sur la définition de ces différentes approches et sur la manière dont elles s'articulent entre elles :

Le DevOps est à la base de toutes les approches « Ops ». Il s'agit d'un ensemble de pratiques dont le but est d'assurer la fiabilité du développement, des tests et du déploiement de tous les logiciels. Le DevOps vise à accélérer la distribution des logiciels.
L'AIOps permet d'appliquer l'IA aux pratiques DevOps. Cette approche vise à automatiser l'exploitation informatique et à prévenir les bogues grâce à l'IA. Elle aide à surveiller les serveurs et à éviter les pannes.
Le MLOps couvre la gestion du cycle de vie des modèles d'apprentissage automatique. Cette approche vise à éviter la dérive des modèles lors de l'ajout de données.
Le LLMOps est un sous-ensemble du MLOps, axé sur la gestion des LLM. Cette approche vise à gérer les instructions génératives, à limiter les hallucinations et à réduire le coût des appels d'API.

En savoir plus sur l'AIOps avec Red Hat

Quel est le lien avec l'AgentOps ?

Un produit d'entreprise ne peut fonctionner correctement avec l'AgentOps que si des pratiques LLMOps et DevOps sont déjà en place. L'AIOps et le MLOps peuvent également s'avérer utiles. Voyons comment ces approches peuvent se combiner :

DevOps : la création d'un agent nécessite du code. Ce code doit être traité et transmis de manière fiable et évolutive par l'intermédiaire de serveurs. Le DevOps garantit que tout se déroule comme prévu.
LLMOps : cette approche interprète l'instruction générative et aide l'agent à établir un plan d'action.
MLOps : cette approche veille à la précision des modèles d'apprentissage automatique auxquels l'agent accède. Par exemple, un processus peut être mis en place pour alimenter automatiquement un modèle avec de nouvelles données, puis pour vérifier que l'agent appelle le modèle mis à jour, et non l'ancienne version.
AIOps : une seule panne de serveur peut déclencher un millier d'alertes. L'AIOps peut déterminer qu'elles proviennent toutes du même incident et les regrouper pour envoyer seulement une alerte critique à l'utilisateur. Plus efficace, cette pratique réduit la confusion.

Il est recommandé d'appliquer l'AgentOps à toutes les phases d'un workflow agentique, du déploiement de la base opérationnelle à la mise en œuvre de mesures de sécurité et à la mise à l'échelle avancée.

Il est essentiel de partir d'une base opérationnelle solide, ce qui implique la mise en place préalable des systèmes suivants :

Protocoles standardisés

Pour interagir au sein d'un écosystème numérique, les agents ont besoin d'un langage commun avec les outils qu'ils utilisent. Le protocole MCP permet une connexion bidirectionnelle et une forme de communication standardisée entre les applications d'IA et les services externes. Sans protocole standardisé de ce type, l'IA agentique peut raisonner et planifier des actions, mais elle est incapable d'interagir avec des systèmes externes.

Mécanismes de gestion des erreurs

Avec les workflows agentiques, l'instabilité et l'incapacité sont des facteurs à prendre en compte. Il faut créer des mécanismes de protection au sein du système, capables de gérer les erreurs dès leur apparition, à la manière d'un airbag qui se déclenche lors d'un accident de voiture. On parle parfois de capacités « d'autoréparation ».

Logique de nouvelle tentative : le système que l'agent utilise peut devenir instable en raison d'une panne temporaire de ses composants. Il est alors plus efficace de mettre en place une logique de nouvelle tentative plutôt que d'arrêter tout le workflow. Cette pratique implique la création d'instructions sur la procédure à suivre et l'autoréparation, afin que le système ne reste pas coincé dans une boucle de raisonnement coûteuse.
Modèle de basculement : ce modèle secondaire se tient prêt à prendre le relais si le premier cesse de fonctionner ou devient trop coûteux. Par exemple, si un agent utilise OpenAI, il peut basculer vers un modèle local, comme Llama 3, en cas d'interruption du service.

Mesures de sécurité des outils

Pour reprendre la comparaison avec la voiture, si les mécanismes de gestion des erreurs s'apparentent à un airbag qui se déploie lors d'un choc violent, les mesures de sécurité sont les freins qui visent à éviter l'accident en amont. Les équipes peuvent définir des règles que l'agent doit suivre, par exemple attendre la validation d'un humain avant de supprimer un fichier.

Gouvernance et conformité

Les pratiques de gouvernance et de conformité visent à consigner et prendre en compte toutes les actions de l'agent. Elles sont particulièrement importantes dans les domaines soumis à des réglementations strictes sur la confidentialité, comme le Règlement général sur la protection des données ou la loi américaine HIPAA (Health Insurance Portability and Accountability Act).

Optimisation de la mémoire

Les agents perdent parfois le fil de la conversation si celle-ci devient trop longue. Dans ce cas, leur fenêtre de contexte est surchargée et leur attention peut dévier, ce qui entraîne des hallucinations ou les empêche d'accomplir une tâche donnée. Le framework vLLM permet d'optimiser la mémoire. Grâce au mécanisme PagedAttention (utilisé comme technique de gestion de la mémoire), il aide les systèmes agentiques à gérer les longs historiques de manière efficace et évolutive. Ce framework se révèle très utile dans les workflows agentiques, car il maintient un haut niveau de performances même lorsque la complexité augmente.

En savoir plus sur vLLM

Frameworks de collaboration entre les agents

La collaboration entre les agents est une pratique qui consiste à attribuer des rôles, mémoires et outils distincts à plusieurs LLM indépendants. Un agent peut être chargé des recherches tandis qu'un autre s'occupe de la création. Ils échangent des messages pour générer un résultat. Cette collaboration vise à dépasser les limites d'un modèle unique. Elle force les agents à collaborer et à s'évaluer mutuellement.

Dilemme de l'autonomie

L'indépendance peut ouvrir la voie à d'excellents résultats comme à des conséquences désastreuses. Il est difficile de trouver le bon équilibre entre autonomie et contrôle, et cette longue phase de recherche implique de nombreux ajustements des mesures de sécurité. Les équipes de développement doivent donc instaurer des points de contrôle qui leur permettent de vérifier manuellement que les agents agissent conformément aux limites définies.

Problèmes d'éthique et de conformité

Dans le but d'atteindre l'objectif fixé, les agents peuvent faire preuve de créativité et prendre des raccourcis, par exemple en offrant une remise non autorisée à un client pour conclure un contrat. Ces initiatives risquent d'enfreindre les lois sur l'équité en matière de prêt ainsi que les politiques internes. Pour éviter ce type de problème, il faut mettre en place des audits et des couches d'application des politiques afin de vérifier que les actions des agents respectent le cadre juridique et les normes de l'entreprise.

Préoccupations relatives à la confidentialité

Parce qu'ils ont accès à de nombreuses sources de données, les agents pourraient accidentellement partager des informations sensibles ou privées avec un utilisateur non autorisé. Les entreprises peuvent se prémunir contre ce risque en définissant une liste d'actions interdites.

Coûts imprévus

Les agents fonctionnent selon une boucle (penser, agir, observer) dans laquelle ils peuvent rapidement s'enfermer, augmentant ainsi les coûts. Il est essentiel d'anticiper et de mettre en œuvre des plafonds budgétaires et des filets de sécurité qui limiteront l'utilisation des ressources.

Évolutivité

Les exigences d'un ordinateur portable qui exécute un seul agent ne sont pas les mêmes que celles d'un système hébergeant 1 000 agents qui exécutent 1 000 workflows en même temps. Les outils tels que l'inférence distribuée, llm‑d et vLLM aident à gérer les besoins importants en mémoire et en puissance de calcul liés à l'exécution d'une flotte d'agents.

Voyons maintenant quelques exemples de l'utilisation de l'AgentOps pour gérer les workflows d'entreprise :

Surveillance financière

Plusieurs agents surveillent des milliers de transactions chaque jour et signalent les fraudes et les violations de politiques. Ils ingèrent les données, les comparent par recoupement avec les politiques internes et font remonter toute activité suspecte pour la soumettre à une vérification manuelle.

Outil d'aide autonome pour le service d'assistance

Les agents peuvent tester et corriger le code dans un environnement de type sandbox. Lors de la création d'un ticket d'assistance, un agent reproduit le bogue dans le sandbox, rédige un correctif possible, puis effectue des tests. Une fois qu'il a la solution au problème, il la soumet à l'équipe humaine pour vérification et validation.

Supervision de la chaîne d'approvisionnement

Un système agentique surveille les conditions météorologiques, les grèves dans le secteur des transports et la congestion des ports à l'échelle mondiale. Il envoie une alerte en cas de perturbations météorologiques, calcule le coût du changement d'itinéraire et propose une solution de remplacement.

La gamme Red Hat® AI met en œuvre l'ensemble du cycle de vie d'un agent au moyen d'un plan de contrôle AgentOps dédié. Ce mécanisme garantit que chaque déploiement est observable, efficace et sécurisé dans tout l'environnement de cloud hybride.

Cette plateforme fournit un niveau de gouvernance adapté aux entreprises grâce à des mesures de sécurité intégrées. Basée sur vLLM et llm‑d, son infrastructure sous-jacente favorise la haute efficacité de l'inférence distribuée, permettant de mettre à l'échelle les workflows qui utilisent beaucoup de ressources, et ce, du datacenter sur site jusqu'à la périphérie du réseau.

La gamme Red Hat AI offre des fonctionnalités d'inférence rapides, flexibles et efficaces au moyen d'un serveur basé sur vLLM. Elle relie de manière fiable les modèles aux données pour unifier la personnalisation et le développement d'agents spécialisés sur une seule et même plateforme. Conçus sur une base Open Source, nos produits d'IA donnent un contrôle total sur les workflows d'IA, de bout en bout et à toutes les échelles.

En savoir plus

L'approche MoE, qu'est-ce que c'est ?

L'approche MoE (Mixture of Experts) repose sur une architecture de modèle qui permet d'accélérer l'inférence d'IA en adressant les tâches à la partie du modèle la plus adaptée.

L'IA souveraine, qu'est-ce que c'est ?

L'IA souveraine est un concept qui repose sur la possession des technologies d'IA, la conservation des données au niveau local et l'adéquation des systèmes avec les valeurs uniques de l'entreprise et les exigences réglementaires.

L'apprentissage profond, qu'est-ce que c'est ?

L'apprentissage profond est une technique d'intelligence artificielle (IA) qui apprend aux ordinateurs à traiter des données en utilisant un algorithme qui s'inspire du cerveau humain.

IA/ML : ressources recommandées

Produit recommandé

Red Hat AI

Des solutions flexibles qui accélèrent le développement et le déploiement de solutions d'IA dans les environnements de cloud hybride.