可観測性から AIOps 自動化への道のり

URL をコピー

可観測性ツールは、複雑な IT 環境において何が起こっているのかを可視化し、理解するのに役立ちます。そのインサイトはもちろん有益ですが、もしそれ以上のことができるとしたらどうでしょうか。

IT 運用のための人工知能 (AIOps) 自動化では、インサイトに AI を適用して具体的なアクションへとつなげます。このアプローチをとることで、業務をより効率化し、信頼性が高くスケーラブルな IT システムを提供するという、まさに希望どおりの結果が得られます。

可観測性、AIOps、自動化を組み合わせ、統一された戦略の一部としてデプロイすると、それぞれの強みをさらに大きく引き出すことができます。しかし多くの組織が、これらの分野に多額の投資を行ってはいるものの、望む結果が得られず苦労しています。可観測性ツールは大量のアラートを生成する可能性があり、チームはそれによってアラート疲れや大きなストレスにさらされることになります。これは、AI を適用してアラートの優先順位付けを行ったり、付加価値を高めたりした後でも変わりません。膨大な量のデータがあっても、コンテキストがなく、自動化プラットフォームと効果的に統合されていなければ、信頼できる自動化ツールを使ってそのデータに基づく一貫性のあるアクションを大規模に実行することはできません。

この記事では、インテリジェンスを備えた可観測性がどのように運用上のメリットをもたらすのかを、Red Hat® Ansible® Automation Platform とそれに付属する Event-Driven Ansible に重点を置きながら説明します。可観測性、AIOps、イベント、自動化といった中核的なコンセプトから始め、それらの連携と統制された自動化によって、AI を活用した迅速な意思決定がいかに実現されるかを示します。 

まずは重要なリソース、つまりデータから見ていきましょう。

アナリストペーパー:『AIOps のギャップを解消』を読む

AI を活用した自動化を実現するための原材料となるのがデータです。そして、データから価値を引き出すための第一歩が可観測性です。 IT 環境が複雑化するにつれて、エラーログを監視してそれに対応するだけでは足りず、より包括的な視点が必要になってきます。

可観測性は、監視をさらに一歩進めたものです。可観測性の目的は、IT システムやアプリケーションのトラブルシューティングと最適化をプロアクティブに行うのに役立つインサイトを得ることです。 可観測性ツールは、ログ、メトリクス、トレースといった従来のデータに加えて、メタデータ、ユーザー行動、ネットワークトポロジー、コードレベルの詳細といった追加のソースを組み合わせることができます。 

可観測性ツールには多くの選択肢があります。Red Hat プラットフォームは、SplunkDynatraceIBM InstanaLogicMonitor などの一般的な可観測性プラットフォームに加え、イベントバス、Kafka、Webhook などの業界標準テクノロジーとも統合できます。さまざまなシステムや動作をより詳細に観察するために複数の可観測性ツールを同時に使用することは珍しくありません。

これらの情報をすべてまとめることで、より多くのことが見えてきます。可観測性があれば、問題が発生したという事実だけでなく、その根本原因と対処法も把握できます。

ここまでが強みです。可観測性ツールは、運用管理に欠かせない「何が問題か」、「何をする必要があるのか」​といった情報を可視化することに優れています。しかし一方で、運用チームに大量のアラートが押し寄せてしまう可能性があります。それに対処するにはどうすればよいでしょうか。

一つのアプローチは、各アラートへの対応方法を一連のルールとして事前に定義し、コード化することです。しかし残念ながら、この方法は時間がかかるうえに技術的負債となり、システムの動作に変更が生じるたびに大きな労力が必要となります。
 

可観測性だけではうまくいかないのです。データとそこから得られたインサイトを、インテリジェントに活用する必要があります。そこで登場するのが AIOps です。

e ブック『可観測性と Event-Driven Ansible』を入手

可観測性とは

可観測性によるアラートは瞬く間に対応できる量を超えて押し寄せます。そのような状況で、何をすべきかをどう判断すればよいのでしょうか? その答えとなるのが AIOps です。 

AIOps は、製品カテゴリやプラットフォームではなく概念であり、機械学習と人工知能を適用して IT 自動化の複雑さを管理する手法です。理想的な状態で機能する AIOps は、望ましい成果につながる自動化されたアクションを実行するのに必要なインテリジェンスを提供します。AIOps の概念は、プラットフォーム・エンジニアリング・チームおよび SRE (サイト信頼性エンジニアリング) チームの目指すものとよく調和します。

AIOps を実装するには、可観測性ソースからデータを収集し、IT 環境を統合的に見ることができるようにします。そうすることで、機械学習を使って異常を検出し、パターンを特定し、有用な推奨事項をリアルタイムで得ることができます。さらに、AI を活用したシステムは時間とともに向上していきます。イベントに対して常に同じ反応を返すだけではなく、観察し、調整することで、望ましい結果をより適切に達成できるようになります。 

AI を業務に組み込む方法は一つではありません。現在、多くの監視ツールには AI 機能が組み込まれています。また、それとは別に独自の AI モデルを用意して自動化ワークフローに組み込むこともできます。

ここまでで、可観測性データとリアルタイムの AIOps インテリジェンスを組み合わせることで得られる価値が見えてきたのではないでしょうか。しかし、これだけでは情報を実用的なアクションへと変換する方法がありません。ですから、次はイベントについて説明します。

イベントとは、IT システム内で発生する、検出可能で意味のあるあらゆる事象を指します。たとえば、アプリケーション、ハードウェア、ソフトウェア、クラウドインスタンス、またはその他のテクノロジーの状態変化はイベントです。何かが起動または停止する、ネットワーク接続が開くまたは閉じる、あるアクティビティが一定のレベルを超えるなど、これらもすべてイベントです。 

イベントによっては、状況に応じてまったく異なる対応が必要となる場合があります。たとえば、システムで高負荷が発生したとして、通常運用時であれば通知を出せば十分でしょう。しかし、機密性の高いワークロードを実行しているときにそうなった場合は、セキュリティリスクを防ぐために直ちにシャットダウンすることも必要です。可観測性ツールはイベントを検出することを可能にし、一方で AIOps はイベントのコンテキスト情報を提供して、担当者が適切な自動応答をトリガーできるようにします。 

イベントをインテリジェンスで補強することで、幅広い状況に対して最適な行動方針を判断し、新たな種類のイベントが発生した場合にも適応できるようになります。これが、イベント駆動型自動化から最大限の価値を引き出すために必要な基盤となります。これを踏まえて、次の章へと進みましょう。

イベント駆動型自動化とは、可観測性データに基づいて、自動化された IT 運用ワークフローを起動する方法です。 イベント駆動型自動化は、ハイブリッドクラウド、AI、エッジ環境などの複雑なシステムを人間が常に把握できるようにするのに役立ちます。定型的な繰り返し作業が削減され、IT 運用チームはより重要な業務に集中できるようになります。

前述のとおり、可観測性データに AI を適用することで、より高い精度で自動的に意思決定を行うことができます。イベント駆動型自動化ワークフローにより、問題を効率的に解決し、より大きな価値を引き出すことが可能になります。

Red Hat Ansible Automation Platform を使用している場合は、付属の Event-Driven Ansible という機能セットを使用することにより、IT ドメイン全体にわたってタスクを自動化するためのイベント処理機能が得られます。 

Event-Driven Ansible は、以下の 3 つのコンポーネントで構成されます。

  • ソース:IT 環境の状況に関するイベントデータを提供します。それらのイベントは、プラグインまたは Webhook を介して Event-Driven Ansible に送信されます。
  • ルールブック:アクションをトリガーする一連のルールと条件が含まれています。ルールはイベントに対する適切な対応を規定します。
  • アクション:その自動化の結果です。イベントに対処したり、是正したりするために講じられる措置です。

Ansible Rulebook は、Ansible Playbook と同様に、人間が読める YAML 形式で記述されます。ルールブックは playbook とは異なり、条件付きルールを使用して、どのようなイベントが発生したときにアクションを実行するかを定義します。 Event-Driven Ansible は、イベントを監視し、イベントが発生したことを認識し、適切なアクションを自動的に実行します。

Ansible Automation Platform は、Prometheus AlertmanagerApache Kafka などのオープンソースツールと統合できます。認証済みで検証済みのエコシステム・コレクションから選択すれば、これらの自動化統合をより迅速にデプロイできます。

イベント駆動型自動化を既存のツールと組み合わせると、多くのメリットを得ることができるようになります。次のセクションではそれについて説明します。 
Event-Driven Ansible の詳細はこちら

イベント駆動型自動化に対して AIOps アプローチをとると、手作業では扱いきれないほどの膨大な量の作業を、可観測性データ、AI によるインサイト、ルールベースのロジックを適用して自動化できます。そのため、起こったことに対して手作業で対処するのではなく、先回りしてプロアクティブに対策することができます。 

このアプローチのメリットには以下のようなものがあります。

  • プロアクティブな検出:AI を活用した異常検出は、ユーザーに影響が及ぶ前に問題を防ぐのに役立ちます。
  • インテリジェントな分析:自動的な根本原因特定と推奨事項により、時間を節約し、必要なときに正確な回答を得ることができます。
  • 応答の迅速化:統制された自動化によって AI を活用した意思決定を行うことで、チームは迅速に行動できるようになります。
  • 継続的学習:AI を活用したシステムは、固定された一連のルールに基づいて動作するのではなく、時間の経過とともに推奨事項を改善していくことができます。

その結果、インフラストラクチャの信頼性が向上し、コストが削減され、問題解決が迅速化されます。次に、これらのメリットが活きる具体的なユースケースをいくつか見ていきましょう。

可観測性、自動化、AIOps は、さまざまな実際のビジネスユースケースへの対応に役立ちます。

インフラストラクチャの信頼性

AIOps のアプローチを使用して、一般的なアラートに自動的に対処できます。この戦略では、AI で強化された分析と推奨事項に基づいて、可観測性プラットフォームが自動化されたアクションをトリガーします。 

特定のシステムに障害が発生し始めると、自動化機能が作動し、サービスの再起動、ログのクリア、リソースの再割り当て、インフラストラクチャのスケーリングなどを行います。これにより、問題が深刻化する前に解決できるのに加え、平均解決時間 (MTTR) の短縮やシステムの信頼性向上にも役立ちます。

サービスチケットの自動情報補完

状況を明確に把握することができれば、インフラストラクチャ・チームは IT サービス管理 (ITSM) チケットへの対応をより適切に行うことができます。イベントを AI 分析によって補完する分析ツールを使用すると、ITSM のチケット発行・追跡プロセスに有益な情報を追加できます。キューに入る前にチケットの予備分析と優先順位付けを行って、MTTR (平均復旧時間) を短縮し、手作業の負担を軽減できます。

そうした追加のコンテキストがあれば、チームはイベントをより深く理解し、問題を迅速に解決してダウンタイムを最小限に抑えることができます。

Ansible Automation Platform を使用して ServiceNow ITSM チケットの解決を迅速化する 3 つの自動化ステップ(動画の再生時間:10:54)

AI インフラストラクチャの最適化

IT インフラストラクチャ・チームにとって、AI ワークロードの要求を満たすことは簡単ではありません。可観測性と自動化を適用することで、これらの複雑なシステムを、より少ない手作業で安定的に稼働させることができます。AI のチューニングではインフラストラクチャのサイズ変更やリソーススプロールの抑制などの反復的な作業が発生しますが、それらが自動化の対象となります。最適化パターンと構成を自動化して、システムの信頼性を向上させることもできます。これらのアプローチを組み合わせることで、ユーザーに影響が及ぶ前にパフォーマンスの問題に対処できます。

その結果、チームは AI 開発サイクルを加速させ、実績のある信頼性の高いパスに沿って AI モデルを開発段階からプロダクション環境へと移行させることができます。それにより、組織はイノベーションを加速し、競争力を維持できます。 

構成ドリフトの自動検出と修正

構成ドリフト (IT システムが本来あるべき状態から逸脱すること) は、セキュリティ脆弱性や不安定性の一般的な原因となります。従来の監視による方法で構成ドリフトを管理することもできますが、AIOps のアプローチなら、リスクと影響に関するコンテキストが提供され、優先的に修正すべき事項が示されるので、より多くのことが可能になります。 

監視ツールや可観測性ツールで構成ドリフトが検出されたら、AI で強化された自動化機能を使用して、リスクとビジネスへの影響に基づいて修正の優先順位を付けることができます。また、修正措置によって連鎖的な影響が発生する場合は前もってそれを予測し、影響が最小限となるタイミングで適用することも可能です。そのため、構成ドリフトによって生じるセキュリティや安定性の問題を、新たな混乱を招くことなく軽減できます。

ポリシー適用とコンプライアンス

システムを規制や組織の基準に準拠させるために、IT チームは確立されたポリシーを使用しています。イベント駆動型自動化システムは、そうしたポリシーに適合させてコンプライアンスの維持に活用できます。

そのためには、AIOps のアプローチの一環として、それらのポリシーを自動化された意思決定に組み込みます。AI システムが推論を行って自動化されたアクションを開始する際には、システムがその動作を検証し、ポリシーに準拠していることを確認します。

次のステップでは、これらのユースケースを念頭に置きつつ、これらの統合を機能させるための具体的な方法を見ていきましょう。 

Ansible Automation Platform における 5 つの AIOps ユースケース

データ駆動型のインテリジェントな自動化からメリットを得るには、可観測性ツールを自動化プラットフォームと統合する必要があります。Red Hat Ansible Automation Platform をお使いの場合はいくつかの選択肢があります。

  • Event-Driven Ansible:Event-Driven Ansible は大量のイベント処理に最適です。大量に発生した可観測性アラートや非同期イベントのストリームを処理する場合に推奨される選択肢です。
  • モデルコンテキストプロトコル (MCP):AI エージェント向けに設計された MCP は、AI アプリケーションと外部サービス間の通信のためのオープンソース標準です。エージェント型ワークフローや AI 支援による運用に最適です。AI モデルを Ansible Automation Platform と統合する場合は、MCP が最適な選択肢です。
  • Webhook: Webhook は、HTTP を介してアプリケーション間で軽量なイベント駆動型通信を行うための手段です。Webhook はできることが限られており、ITSM チケットの発行などの単純なプッシュ型アクションに適しています。
  • REST アプリケーション・プログラミング・インタフェース (API):Ansible Automation Platform は、REST API を使用し、アプリケーション間で情報を共有するための確立された標準に従って他のアプリケーションと連携できます。これは、継続的インテグレーションおよび継続的デリバリー (CI/CD) パイプラインと、REST API 標準に基づいて構築された既存のシステムをサポートするのに役立ちます。ただし新規インストールの場合は、従来の REST API 標準と比較すると上記いずれかの方法のほうが大きなメリットを得られることが多いでしょう。

次のセクションでは、これらの統合アプローチを踏まえ、Red Hat ソリューションが可観測性、AIOps、自動化の活用にどう役立つのかを説明します。 

Red Hat Ansible Automation Platform 向け MCP サーバーの詳細

AIOps 戦略を支援するために、Red Hat の統合ソリューションでは、複数の環境にわたる自動化と、検証済みで最適化されたAIモデルのデプロイが可能です。

Red Hat Ansible Automation Platform

Red Hat Ansible Automation Platform は、生産性の向上とチーム間の障壁の解消を支援する、包括的な IT エンタープライズ自動化ソリューションです。Ansible Automation Platform は、既存の AI ツールや可観測性ツールとの連携を通じて、インテリジェンスを IT 環境全体にわたる再現可能で統制された自動化へと変換するのに役立ちます。

Ansible Automation Platform サブスクリプションに含まれている Event-Driven Ansible はスケーラブルで応答性に優れた自動化ソリューションであり、個別の実用的なインテリジェンスを含むイベントを処理できます。これにより、IT チームはイベントに対する適切な対応を判断し、自動化されたアクションを実行して対処または修復できます。 

e ブック『イベント駆動型の自動化』を読む

Red Hat AI

Red Hat AI は、AI 導入のあらゆる段階で役立つ製品およびサービスのプラットフォームです。AIOps のためにデプロイするものを含め、生成 AI および予測型 AI モデルの提供に役立ちます。

Red Hat AI を使用すると、Red Hat AI Inference Server にアクセスしてモデル推論を最適化し、より迅速でコスト効率の高いデプロイを実現できます。Red Hat AI Inference Server には Red Hat AI リポジトリが含まれています。これは、サードパーティによって検証および最適化されたモデルのコレクションであり、モデルの柔軟性を実現し、チーム間の一貫性を促進します。

これらのソリューションを組み合わせることで、AI を活用したインテリジェンスを自動化されたアクションに変換し、チームが大規模かつ迅速に意思決定を行う方法を改善できます。

リソース

自動化で AIOps の可能性を最大限に引き出す

AI の効果的な運用を可能にするには、最初から IT 自動化を取り入れる必要があります。ダウンロードして詳細をご覧ください。

Red Hat Ansible Automation Platform による AIOps 自動化

Red Hat® Ansible® Automation Platform は、幅広い IT 運用に AI 機能とツールを提供するエンドツーエンドの自動化ソリューションです。

関連情報

Why choose Red Hat Ansible Automation Platform as your AI foundation?

Red Hat Ansible Automation Platform は、AI モデルとインフラ・コンポーネントのデプロイ、管理、設定、ライフサイクルを単純化し、AI 実装用の自動化基盤を提供します。

Learning Ansible basics

Ansible は、プロビジョニングや構成管理、アプリケーションのデプロイメント、オーケストレーションなどの IT プロセスを自動化する、オープンソースの自動化ツールです。

What is an Ansible Playbook?

Ansible Playbook とは、一連のタスクを YAML 形式で記述したファイル、また自動化タスクの手順書です。ホストで実行され、管理対象ノードに実行内容と順序を指示します。

自動化と管理リソース

注目の製品

  • Red Hat Ansible Automation Platform

    エンタープライズ規模で自動化を実装するプラットフォーム。お客様が自動化導入のどの段階にいる​かは関係ありません。

関連記事