De l'observabilité à l'automatisation de l'AIOps

Copier l'URL

Les outils d'observabilité permettent d'observer et de comprendre les environnements informatiques complexes. Si les informations qu'ils fournissent sont utiles, elles pourraient cependant être mieux exploitées.

Avec l'automatisation des workflows AIOps (Artificial Intelligence for IT Operations, ou IA pour l'exploitation informatique), les informations recueillies peuvent être transformées en actions à l'aide de l'IA. Les équipes peuvent ainsi gagner en efficacité et développer des systèmes informatiques fiables et évolutifs.

En association, l'observabilité, l'AIOps et l'automatisation forment une stratégie unifiée dans le cadre de laquelle chaque pratique renforce les avantages des autres. Cependant, et malgré d'importants investissements, de nombreuses entreprises peinent à coordonner ces trois pratiques. Le grand nombre d'alertes que peuvent émettre les outils d'observabilité entraînent du stress et de la lassitude au sein des équipes, même quand l'IA est utilisée pour hiérarchiser ou optimiser ces alertes. Pour éviter d'avoir à gérer d'énormes volumes de données inexploitables, qui ne permettent pas d'agir de manière cohérente à grande échelle avec une plateforme d'automatisation, il faut un contexte approprié et des intégrations efficaces.

Cet article s'intéresse aux avantages qu'offre l'association de l'observabilité et de l'intelligence opérationnelle, avec notamment la solution Red Hat® Ansible® Automation Platform et son composant Event-Driven Ansible. Après avoir défini l'observabilité, l'AIOps, les événements et l'automatisation, nous verrons comment allier ces concepts essentiels pour accélérer la prise de décisions basées sur l'IA avec des processus automatisés déterminés. 

Tout commence avec une ressource vitale : les données.

Lire un rapport d'analyste sur l'AIOps

Les données sont essentielles pour optimiser l'automatisation avec l'IA. Pour les exploiter, il faut commencer par mettre en place des outils d'observabilité. Face à la complexité croissante des environnements informatiques, il n'est plus suffisant de réagir aux problèmes qui apparaissent dans les journaux d'erreurs. Il faut une vision d'ensemble.

L'observabilité approfondit la surveillance. Son objectif est de fournir des informations qui permettent de résoudre les problèmes de manière proactive et d'optimiser les systèmes informatiques et les applications. Les outils d'observabilité peuvent exploiter des données traditionnelles comme les journaux, les indicateurs de mesure et les traces, et d'autres sources d'information comme les métadonnées, le comportement des utilisateurs, la topologie du réseau ou des éléments du code. 

Il existe un large choix d'outils d'observabilité. Les plateformes Red Hat sont compatibles avec les principales solutions d'observabilité, notamment Splunk, Dynatrace, IBM Instana et LogicMonitor, ainsi qu'avec les technologies du secteur, telles que les bus d'événements, Kafka et les webhooks. Souvent, les équipes combinent plusieurs de ces outils pour mieux observer différents systèmes et comportements.

Toutes ces informations améliorent la vision d'ensemble. En plus des problèmes, l'observabilité aide à identifier les causes profondes et les solutions possibles.

Les outils d'observabilité se révèlent donc très utiles. Ils mettent en évidence les dysfonctionnements et les recours possibles afin de faciliter la gestion des processus d'exploitation. Les équipes d'exploitation peuvent toutefois être confrontées à un trop grand nombre d'alertes. C'est un autre problème auquel il faut remédier.

L'une des solutions consiste à coder une série de règles prédéfinies qui se déclenchent pour chaque alerte. Ce processus est cependant chronophage et engendre une dette technique qui compliquera tout changement dans le fonctionnement des systèmes.
 

Utilisée seule, l'observabilité manque d'efficacité. Il faut exploiter intelligemment les données et informations de l'entreprise. C'est là qu'intervient l'AIOps.

Télécharger le livre numérique sur l'observabilité avec Event-Driven Ansible

L'observabilité, qu'est-ce que c'est ?

Lorsque les alertes d'observabilité s'accumulent, un plan d'action s'impose. L'AIOps aide à élaborer ce plan. 

L'AIOps fait davantage référence à un concept qu'à une catégorie de produit ou à une plateforme. Cette approche applique l'apprentissage automatique et l'intelligence artificielle pour faciliter l'automatisation. Dans l'idéal, les workflows AIOps fournissent les informations nécessaires pour déclencher des mesures automatisées en vue d'obtenir le résultat souhaité. Les équipes chargées de l'ingénierie de plateforme et de l'ingénierie de la fiabilité des sites peuvent s'en servir pour atteindre leurs objectifs.

Pour mettre en œuvre l'AIOps, une entreprise doit recueillir les données de ses sources d'observabilité afin d'obtenir une vue unifiée de son environnement informatique. Elle peut ensuite utiliser l'apprentissage automatique afin de détecter des anomalies, d'identifier des schémas et de générer des recommandations utiles en temps réel. Les systèmes basés sur l'IA sont aussi capables de s'améliorer au fil du temps. Lorsqu'ils sont confrontés plusieurs fois au même événement, ils peuvent analyser la situation et ajuster leur approche pour atteindre les résultats souhaités plus efficacement. 

Il existe de multiples façons d'intégrer l'IA aux processus d'exploitation. De nombreux outils d'observabilité intègrent désormais leurs fonctionnalités d'IA. Il est aussi possible d'utiliser des modèles d'IA personnalisés pour alimenter les workflows d'automatisation.

L'association des données d'observabilité aux informations en temps réel que fournissent les workflows AIOps est donc particulièrement avantageuse. Il reste encore toutefois à transformer ces informations en actions utiles. C'est ce qui nous amène aux événements.

Le terme « événement » désigne toute activité significative et détectable dans un système informatique. Il peut s'agir du changement d'état d'une application, du matériel, d'un logiciel, d'une instance cloud ou d'autres technologies, par exemple un démarrage ou un arrêt, l'ouverture ou la fermeture d'une connexion réseau, ou le dépassement d'un seuil. Toutes ces activités sont des événements. 

Certains événements ont besoin de réponses totalement différentes en fonction des circonstances. Dans un processus d'exploitation standard, la surcharge d'un système peut déclencher l'envoi d'une simple notification, mais si les charges de travail exécutées sont sensibles, il faudra possiblement un arrêt complet et immédiat pour prévenir tout risque de sécurité. Les outils d'observabilité permettent de détecter les événements, et les workflows AIOps aident à les mettre en contexte afin de déclencher les mesures automatisées qui s'imposent. 

En combinant les événements aux informations déjà obtenues, les entreprises peuvent mettre en place un plan d'action parfaitement adapté à de nombreuses situations différentes et apprendre à gérer les nouveaux types d'événements qui surviennent. Elles disposent ainsi de la base nécessaire pour tirer pleinement parti de l'automatisation orientée événements.

L'automatisation orientée événements permet de lancer des workflows automatisés d'exploitation informatique sur la base de données d'observabilité. Elle aide les équipes à suivre le fonctionnement des systèmes complexes, notamment le cloud hybride, l'IA et les environnements d'edge computing. Elle réduit aussi le nombre de tâches courantes et répétitives, permettant aux équipes de travailler sur des missions plus importantes.

Comme nous l'avons vu précédemment, il est possible d'appliquer l'IA aux données d'observabilité pour améliorer la prise de décisions automatisées. Cette pratique permet de résoudre les problèmes efficacement et de mieux exploiter les workflows d'automatisation orientée événements.

La solution Red Hat Ansible Automation Platform inclut le composant Event-Driven Ansible qui offre des fonctions de traitement des événements pour automatiser les tâches dans tous les domaines informatiques. 

Le fonctionnement d'Event-Driven Ansible repose sur trois grands éléments :

  • Les sources fournissent des données d'événement sur les conditions de l'environnement informatique. Ces événements sont envoyés à Event-Driven Ansible via des plug-ins ou des webhooks.
  • Les rulebooks contiennent des ensembles de règles et de conditions qui déclenchent une action. Ces règles définissent la réponse appropriée à chaque événement.
  • Les actions sont le résultat de l'automatisation. Elles visent à gérer ou corriger l'événement.

Comme les playbooks Ansible, les rulebooks Ansible sont écrits dans le langage YAML lisible par un humain. Néanmoins, à la différence des playbooks, ils s'appuient sur des règles conditionnelles pour déterminer le moment où un événement déclenche une action. Event-Driven Ansible surveille les événements, les reconnaît, puis exécute automatiquement l'action appropriée.

La solution Ansible Automation Platform peut s'utiliser avec des outils Open Source comme Prometheus Alertmanager ou Apache Kafka. Ces outils intégrés sont rapides à déployer à partir des collections certifiées et validées de l'écosystème.

Associée aux outils existants, l'automatisation orientée événements offre de nombreux avantages. 
En savoir plus sur Event-Driven Ansible

Quand l'automatisation orientée événements suit le modèle AIOps, ce sont les données d'observabilité, les informations issues de l'IA et la logique basée sur des règles qui permettent d'automatiser les innombrables tâches manuelles. Les mesures proactives peuvent alors supplanter les processus manuels réactifs. 

Voici les avantages de cette approche :

  • Détection proactive : la détection des anomalies avec l'IA contribue à prévenir les problèmes avant qu'ils touchent les utilisateurs.
  • Analyse intelligente : l'identification automatisée des causes profondes et les recommandations permettent de gagner du temps et d'obtenir des réponses précises au bon moment.
  • Réponse plus rapide : les équipes peuvent agir rapidement en prenant des décisions qui s'appuient sur l'IA avec des processus automatisés déterminés.
  • Apprentissage continu : les systèmes basés sur l'IA ne sont pas limités à un ensemble de règles immuables. Ils peuvent améliorer leurs recommandations au fil du temps.

Tous ces avantages permettent aux entreprises de bénéficier d'une infrastructure fiable, de coûts réduits et d'une résolution plus rapide des problèmes. Passons maintenant à des cas d'utilisation spécifiques qui tirent parti de ces avantages.

Les pratiques d'observabilité, d'automatisation et AIOps peuvent s'avérer utiles dans différents cas d'utilisation concrets.

Fiabilité de l'infrastructure

L'approche AIOps peut être utilisée pour gérer automatiquement les alertes courantes. La plateforme d'observabilité tient alors compte de l'analyse et des recommandations optimisées par l'IA pour déclencher des actions automatisées. 

En cas de dysfonctionnement dans un système en particulier, les processus automatisés s'occupent de redémarrer les services, de vider les journaux, de réallouer les ressources ou de mettre à l'échelle l'infrastructure. Cette stratégie permet de résoudre les problèmes avant qu'ils s'aggravent, de réduire le temps moyen de résolution et d'améliorer la fiabilité des systèmes.

Ajout de détails aux tickets d'assistance

Les équipes chargées de l'infrastructure peuvent plus facilement traiter les tickets de gestion des services informatiques si elles disposent d'une vision précise de la situation. L'utilisation d'outils d'analyse, qui exploitent l'IA pour détailler les événements, leur permet d'obtenir des informations utiles pour améliorer les processus de suivi et de gestion des tickets. De cette manière, les tickets sont analysés et hiérarchisés avant même d'entrer dans la file d'attente, le temps moyen de résolution diminue et le travail manuel est réduit.

Les équipes utilisent ce contexte supplémentaire pour mieux comprendre les événements et résoudre les problèmes plus rapidement, en limitant les temps d'arrêt.

Vidéo sur trois étapes à automatiser pour accélérer la résolution des tickets ServiceNow avec Ansible Automation Platform (durée : 10 min 54 s)

Optimisation de l'infrastructure d'IA

Les exigences des charges de travail d'IA peuvent être difficiles à satisfaire pour les équipes responsables de l'infrastructure informatique. Les outils d'observabilité et d'automatisation aident à assurer le bon fonctionnement de ces systèmes complexes et à réduire l'intervention manuelle. Il est possible d'automatiser les tâches répétitives liées à l'optimisation de l'IA, notamment le redimensionnement de l'infrastructure et la maîtrise de la prolifération des ressources, ainsi que de renforcer la fiabilité des systèmes en automatisant les schémas d'optimisation et les configurations. La combinaison de ces approches prévient les problèmes de performances avant qu'ils affectent les utilisateurs.

Les équipes ont ainsi les moyens d'accélérer les cycles de développement de l'IA et de faire passer les modèles d'IA en production selon des procédures testées et fiables. Toute l'entreprise peut innover plus rapidement et conserver un avantage concurrentiel. 

Automatisation de la détection et de la correction des écarts de configuration

Les écarts de configuration (c'est-à-dire les différences entre un système informatique et l'état souhaité) représentent une source courante d'instabilité et de vulnérabilités de sécurité. S'il est possible de les gérer avec des pratiques traditionnelles de surveillance, les workflows AIOps vont plus loin en mettant en contexte les risques et leurs effets ainsi qu'en hiérarchisant les corrections à apporter. 

Lorsque les outils de surveillance ou d'observabilité identifient un écart de configuration, l'automatisation optimisée par l'IA peut être utilisée pour déterminer la priorité des corrections en fonction des risques et des conséquences sur l'activité. Elle permet également de prévoir les éventuelles répercussions en cascade avant d'appliquer les corrections en évitant au maximum les interruptions. Grâce à cette approche, les problèmes de sécurité et de stabilité qui résultent des écarts de configuration sont résolus sans engendrer davantage de perturbations.

Application des politiques et mise en conformité

Les équipes informatiques suivent des politiques établies pour utiliser des systèmes conformes aux réglementations et aux normes de l'entreprise. Ces politiques peuvent aussi être appliquées aux systèmes d'automatisation orientée événements pour garantir la conformité.

Dans le cadre de l'approche AIOps, la prise de décisions automatisées peut également intégrer ces politiques. Lorsqu'un système d'IA exécute une opération d'inférence et lance un processus automatisé, les autres systèmes peuvent réaliser des vérifications de conformité.

Maintenant que les cas d'utilisation ont été présentés, il faut s'intéresser aux méthodes d'intégration de ces systèmes. 

Découvrir cinq cas d'utilisation de l'AIOps pour Ansible Automation Platform

Pour bénéficier de l'automatisation intelligente basée sur les données, il est nécessaire d'intégrer les outils d'observabilité à la plateforme d'automatisation. Red Hat Ansible Automation Platform offre plusieurs options :

  • Event-Driven Ansible : ce composant convient au traitement d'un grand nombre d'événements. Nous le recommandons aux clients qui doivent gérer des pics élevés d'alertes d'observabilité ou des flux d'événements asynchrones.
  • MCP (Model Context Protocol) : conçu pour les agents IA, le protocole MCP est une norme Open Source pour la communication entre les applications d'IA et les services externes. Il est particulièrement adapté aux workflows agentiques et aux opérations assistées par l'IA. Le protocole MCP est à privilégier pour l'intégration d'un modèle d'IA à Ansible Automation Platform.
  • Webhooks : un webhook permet d'établir une communication légère et orientée événements entre les applications via le protocole HTTP. Les capacités des webhooks sont assez limitées. Ils sont plutôt adaptés aux actions d'envoi simples, comme le déclenchement d'un ticket de gestion des services informatiques.
  • API (interface de programmation d'application) REST : Ansible Automation Platform peut interagir avec d'autres applications à l'aide d'une API REST, selon une norme établie pour le partage des informations entre les applications. Si cette ancienne norme convient aux pipelines de CI/CD (intégration et distribution continues) et aux systèmes existants qui fonctionnent avec l'API REST, il sera certainement plus avantageux d'appliquer l'une des méthodes précédentes dans les nouvelles installations.

Voyons maintenant comment nos solutions peuvent aider les équipes à tirer parti de l'observabilité, de l'AIOps et de l'automatisation. 

En savoir plus sur le serveur MCP pour Ansible Automation Platform

Nous aidons les entreprises à mettre en œuvre une stratégie AIOps avec des solutions unifiées qui permettent d'automatiser des processus dans tous les environnements et de déployer des modèles d'IA validés et optimisés.

Red Hat Ansible Automation Platform

Solution d'automatisation complète pour les systèmes informatiques d'entreprise, Red Hat Ansible Automation Platform contribue à stimuler la productivité des équipes et à éliminer les silos. Ses intégrations aux outils existants d'IA et d'observabilité aident à transformer les informations en processus automatisés reproductibles et déterminés dans tous les environnements informatiques.

Incluse dans toute souscription pour Ansible Automation Platform, Event-Driven Ansible est une solution d'automatisation réactive et évolutive, capable de traiter des événements contenant des informations distinctes et utiles. Les équipes informatiques peuvent s'en servir pour identifier la réponse appropriée à un événement, puis pour exécuter des actions automatisées permettant de traiter ou corriger cet événement. 

Lire le livre numérique sur l'automatisation orientée événements

Red Hat AI

L'offre Red Hat AI comprend des produits et services qui permettent aux entreprises d'avancer dans le déploiement de l'IA. Ces solutions facilitent le déploiement de modèles d'IA générative et prédictive, notamment dans le cadre d'une stratégie AIOps.

Red Hat AI inclut Red Hat AI Inference Server, une solution qui optimise l'inférence pour accélérer le déploiement des modèles et réduire les coûts. Red Hat AI Inference Server intègre le référentiel Red Hat AI, un ensemble de modèles tiers validés et optimisés, qui favorise la flexibilité des modèles et la cohérence entre les équipes.

En association, ces solutions permettent de transformer les informations basées sur l'IA en actions automatisées, avec à la clé une prise de décisions plus rapide à grande échelle.

Ressource

Unlock the full potential of AIOps with automation

Pour réussir la mise en œuvre de l'IA, l'automatisation de cette technologie doit être intégrée dès le départ. Pour en savoir plus, téléchargez le document.

Automatiser les workflows AIOps avec Red Hat Ansible Automation Platform

Red Hat® Ansible® Automation Platform est une solution d'automatisation de bout en bout qui fournit des fonctionnalités et des outils basés sur l'IA pour de nombreuses tâches d'exploitation informatique.

En savoir plus

Why choose Red Hat Ansible Automation Platform as your AI foundation?

Red Hat® Ansible® Automation Platform crée une base solide pour les mises en œuvre de l'IA en simplifiant le déploiement, la gestion, la configuration et le cycle de vie des modèles d'IA et des composants de l'infrastructure.

Why choose Red Hat for automation?

La solution Red Hat Ansible Automation Platform comprend tous les outils nécessaires au partage des processus d'automatisation entre les équipes et à la mise en œuvre de l'automatisation à l'échelle de l'entreprise.

Learning Ansible basics

Ansible est un outil d'automatisation des processus informatiques. Apprenez les bases d'Ansible grâce à ce tutoriel.

Automatisation et gestion : ressources recommandées

Produit recommandé

Articles associés