AIOps について

URL をコピー

AIOps (IT 運用のための AI) は、機械学習やその他の高度な AI 技術を用いて IT 運用を自動化するアプローチです。リアルタイムで観察し、学習し、アクションを実行できるインテリジェントシステムを利用します。これにより、IT チームは複雑性への対処、手作業の削減、インシデント対応の加速化が可能になり、より迅速で効果的な意思決定につながります。 

複雑な IT 環境では利用できる運用データの量が膨大になり、そのため問題の迅速な特定と解決が困難になることがあります。人間は、先進的な IT 運用の要求に応えられるほどの速さでこのデータを処理し整理することができません。また、従来の監視ツールは冗長なアラートや些細なアラートを生成することが多く、アラート疲れを引き起こすため、最も重要なアラートが見逃される可能性があります。 

その結果生じるインシデント対応の遅延と、そもそも時間のかかる手動のトラブルシューティングが相まって、平均解決時間 (MTTR) とダウンタイムのリスクが増加することになります。 

AIOps はこれらの問題を緩和し、IT チームがインシデントに迅速に対応できるよう支援します。AIOps には、大量の運用データからシステムが学習できるように、機械学習のアルゴリズムと技術が組み込まれています。IT 自動化を活用してイベントにリアルタイムで対応し、可視性の向上、よりプロアクティブな IT 管理、運用コストの削減を実現します。

e ブックを読む

AIOps プラットフォームやそのアプローチは、大量の運用データを収集し、機械学習アルゴリズムを適用してパターンと問題を特定し、修復を自動化し、過去のインシデントから学習します。つまり、AIOps は IT 運用を事後対応型のトラブルシューティングから、プロアクティブでインテリジェントな管理へと変革します。 

データの収集、処理、クリーニング

AIOps プラットフォームは、ネットワーク、アプリケーション、データベース、その他さまざまなソースから大量の情報を収集、整理、コンテキスト化します。そうしたデータには以下のようなものがあります。

  • リアルタイムおよび過去のイベントデータ
  • パフォーマンス指標および監視
  • システムおよびアプリケーションのログ
  • インフラストラクチャおよび構成データ
  • セキュリティおよびインシデントデータ
  • 非構造化データまたはストリーミングデータ

プラットフォームはデータを収集すると、それを一箇所に集約し、そこで整理、インデックス作成、クリーニングを行います。しかし、ほとんどの先進的な環境ではデータは一元化されておらず、複数の共存する可観測性プラットフォームに分散しているため、集約は重要な最初のステップとなります。データの「クリーニング」とは、収集されたデータ内のエラーの特定および修正を通じて、データセットと分析結果の信頼性を高めることです。これには、重複データの削除、誤ったラベル付けの修正、不完全な箇所の補完などが含まれます。

AI/ML アルゴリズムの適用

AIOps は機械学習を使用してパターンを発見し、自然言語処理を使用してデータソース内のテキストを解釈し、生成 AI を使用して洞察を合成および要約します。ログやチケットなど、複数のソースから非構造化テキストを解釈することで、過去のデータにおける異常の検出と根本原因分析 (RCA) の実施に必要なコンテキストを得ることができます。このプロセスにおいて、生成 AI は明確なインシデントサマリーを作成し、具体的な修正を提案することで、修復を加速させます。AIOps はまた、履歴データ、統計モデリング、データマイニング技術、機械学習を活用した予測分析を用いて、問題が発生する前に問題を予測することができます。 

自動化された対応と修復

AIOps プラットフォームがインシデントやパターンを特定したら、IT チームは自動化とオーケストレーションを組み込んで問題を迅速に解決できます。AIOps は、事前に定義されたポリシーに従い、サービスの再起動やインシデントチケットの生成といった、自動化された自己修復ワークフローをトリガーできます。この自動化は、ダウンタイムと手動介入を削減するとともに、一般的な問題への対応をスケーラブルで反復可能なものにします。また、システムが学習を続け、将来の対応を改善していく中で、複雑な問題は人間によるレビューにエスカレーションさせることもできます。 

AIOps アプローチの成功は、IT 環境全体から信頼できる唯一の情報源を作成できるプラットフォームの選択にかかっています。単体の可観測性ツールは、問題の発生源である、基盤となるインフラストラクチャにアクセスできないことが少なくありません。したがって、さまざまなソースからのデータの収集、正規化、相関分析が可能なプラットフォームを選択することがきわめて重要となります。そのようなプラットフォームにより有用な洞察を得ることができ、より効率的な修復ワークフローをサポートできます。

エージェント型 AI システムは、システムを自律的に監視し、リアルタイムでパッチを作成することで、AIOps プロセスを支援できます。そのためには、エージェントが API を介してサーバーログや監視ツールから大量の情報にアクセスできる必要があります。 モデルコンテキストプロトコル (MCP) は、アクションや出力を作成するために外部データをどのように処理し使用するかをエージェントが判断できるようにするツールです。 

Red Hat のリソース

AIOps は IT 運用に大きなメリットをもたらしますが、独自の課題も伴います。組織はデータ管理、専門知識、統合に関連する障壁に直面しており、それによって AIOps ソリューションの成果が現れるまでの時間や全体的な成功の度合いに影響が及ぶ可能性があります。

課題

  • データ管理:品質と一貫性をサポートするためのデータの収集、整理、クリーニングは複雑です。AIOps の成果はデータソースの品質に直接結びつくため、意味のあるデータと重要でないデータを区別することは簡単ではありません。
  • 専門知識とインフラストラクチャの要件:自社で AIOps ソリューションを開発しようとする場合、熟練した社内データサイエンティストが必要になりますが、これが大きな障壁となる可能性があります。AIOps の設計と管理に必要な専門知識を持つ人材は見つけるのに時間がかかることが多く、既存スタッフのトレーニングには多額のコストがかかります。プラットフォームと機能が標準化されていない場合、システムの設計、構築、管理も複雑で時間がかかるため、変化するインフラストラクチャに合わせて AIOps をトレーニングすることは困難です。
  • 成果が現れるのに時間がかかる:AIOps システムは設計、実装、導入、管理が難しい場合もあり、そのため投資対効果 (ROI) を確認できるまでに時間がかかることがあります。
  • 既存システムとの統合: AIOps ソリューションを成功させるには、既存のインフラストラクチャやツールと連携させる必要があります。この統合は、特にハイブリッド環境やマルチクラウド環境では困難になる可能性があります。
  • 信頼とステークホルダーの合意形成:組織は、AI が倫理的に使用されていること、その手法に透明性があること、結論が検証可能であることを保証する必要があります。さらに、明確な運用目標を定義するには多くのステークホルダーの合意が必要であり、それを得るのは容易ではありません。

データ管理から統合に至るこれらの課題は、克服の難しい障壁に思えるかもしれません。しかし、成熟した AIOps プラットフォームはまさにこれらの課題を解決するために構築されています。組織は統合ソリューションを活用することで、一般的な導入障壁を克服し、主要なメリットを実現できます。 

より迅速な拡張を求めている企業の間で特に人気が高まっているソリューションの 1 つが vLLM です。これは、LLM が GPU をより効率的に使用できるようにする推論サーバーです。 vLLM は、連続バッチ処理、PagedAttention 技術、量子化などの技術を使用して、LLM メモリーストレージをより有効に活用します。

vLLM を活用して効率的に拡張している 3 社の事例をご覧ください。

メリット

  • 問題解決の迅速化とダウンタイムの削減: AIOps は、問題を発生間際で検出してそれに対応することでダウンタイムを削減し、MTTR を短縮します。これは、根本原因を迅速に特定し、解決策を自動化することで実現します。このプロアクティブな機能により、エンドユーザーに影響を与える前、あるいはコストのかかるシステム停止を引き起こす前に問題を解決する自己修復システムが構築されます。
  • 生産性の向上: AIOps は、手作業や繰り返しタスクを自動化することで人的ミスを削減し、IT スタッフの効率性を向上させます。これによりチームは高付加価値の戦略的プロジェクトに注力する時間を確保でき、インフラストラクチャと人的資源をより効率的に活用できるようになります。
  • 可観測性と洞察の強化:AIOps は、さまざまなソースから膨大な量のデータを収集・相関分析し、IT 環境を一元的に可視化します。さらに、機械学習によって異常を検知し、パターンを特定し、予測可能な分析を提供することで、生データを有用な洞察へと変換します。
  • コストの削減: AIOps は、システム停止の防止、リソース割り当ての最適化、IT スタッフの効率性向上を通じて運用コストを低減させ、IT インフラストラクチャの総所有コストを削減します。
  • 顧客と従業員のエクスペリエンス向上:AIOps は、重要なサービスやアプリケーションの稼働時間を維持し、顧客のエクスペリエンスの向上に貢献します。また、最も重要なアラートのみを表示することで IT チームのアラート疲れを軽減し、士気と意思決定を向上させます。 

IT 自動化により AI の信頼できる基盤を構築する

 

AIOps は、IT 運用における幅広い課題に適用できます。AI と自動化を統合することで、事後対応的な問題解決から、プロアクティブでインテリジェントな IT 管理へと移行できます。

インフラストラクチャとクラウドの管理

AIOps は、仮想マシン (VM)、ハイブリッドクラウド、ネットワークエッジでの運用など、複雑な IT 環境の管理に不可欠です。イベント駆動型自動化を活用し、CPU (中央処理装置) 使用率の急上昇やネットワークサービス障害といった一般的なアラートに自動的に対応します。また、IT チームは AIOps によってリソースをより有効に活用できるようになるので、コストが削減し、インフラストラクチャの手動管理も不要になります。 

AIOps は、分散推論などのさまざまなコスト削減手法の管理に使用できます。分散推論では、相互接続されたデバイスのグループに対して推論の労力が分割されるため、AI モデルでワークロードをより効率的に処理できます。llm-d のようなフレームワークは、大規模な分散推論をサポートし、組織全体の生成 AI アプリケーションを高速化します。

ネットワークとエッジの最適化

AIOps は、ネットワーク・パフォーマンスの向上と IT チームによる問題対応の迅速化に重要な役割を果たします。有線、無線、ソフトウェア定義広域ネットワーク (SD-WAN)、WAN エッジ、データセンター、セキュリティドメインなど、ネットワーク全体にわたって自動化と AI インサイトを提供します。これには、基本的なネットワーク・トラブルシューティング・タスクの自動化や、構成の問題の修復が含まれます。また、イベント駆動型自動化を活用すれば、ネットワークエッジでもアプリケーションの再デプロイをトリガーできます。

ビジネスインパクト評価とサービスヘルスモニタリング

AIOps を使用すると、IT の問題がビジネスサービスに与える影響をより深く理解できます。AIOps は大量のデータを収集・分析し、サイト信頼性エンジニア (SRE) によるアプリケーション、ハードウェア、ネットワーク・インフラストラクチャのパフォーマンス監視を支援します。パフォーマンスの問題とそれがサービスの稼働時間に与える影響をより詳細に把握できるため、重大度と関連性に基づいて修復作業の優先順位を決定できます。

セキュリティとコンプライアンス 

AIOps は、異常検知とイベント相関分析を通じてデータ侵害などの潜在的な脅威を AI によってプロアクティブに特定し、セキュリティポスチャを強化します。また、変更を検知するだけでなく、リスクと影響に関するコンテキストを提供して自動修正の優先順位付けを支援するため、構成ドリフトにも対処できます。ガバナンスを維持するために、AI によって開始される自動化処理の内容を、事前に定義されたセキュリティポリシーに照らして実行前に検証できます。これにより、AI のコンプライアンスが維持され、結果の信頼性が向上します。 

業界固有のアプリケーション

AIOps ソリューションは、金融サービス、医療、通信、製造など、さまざまな業界の固有のニーズに合わせてカスタマイズできます。IT 運用全体を包括的に可視化するツールもありますが、ドメイン中心のアプリケーションを使用すれば専門的な洞察を得ることができます。これらのアプリケーションは、業界関連のデータセットでトレーニングされた AI モデルを使用して、特定の課題やユースケースに対応します。

Red Hat Ansible Automation Platform による 5 つの AIOps ユースケース

DevOps は、アプリケーションライフサイクル全体における継続的かつ漸進的な改善を目指しています。したがって、DevOps にとって大きな課題はダウンタイムであり、AIOps はこの部分で決定的な役割を果たします。AIOps は、開発プロセスと運用プロセスにデータサイエンスを統合することで、DevOps 文化をサポートします。

DevOps と AIOps の間の実際の境界線はかなり曖昧ですが、AIOps は DevOps プロセスの前後いずれにもうまく適合します。

  • DevOps の前段階では、AIOps が大量のインフラストラクチャ・データを消費し、DevOps エンジニアに基盤となる統合開発環境 (IDE) の問題を警告したり、問題を完全に修正したりすることができます。
  • 後段階では、AIOps はプロダクションでの冗長な IT の問題を自動的に解決できると同時に、新規のリリースごとに発生する新たなバグの修正方法を学習します。 

DevOps と同様に、AIOps も多様なツールセットと高度に連携したアプローチを活用して、より迅速かつ効率的な IT 運用をサポートします。統合型 AIOps プラットフォームは開発環境とプロダクション環境をまたいで統合、分析、実行できますが、基盤となるツールは IT 設定によって異なります。

DevOps の詳細

AIOps は推論に代わるものではなく、推論を適切な方向に調整するものであることを理解することが重要です。

生成 AI の中核が推論であることは変わりません。そのため、AI 戦略の成否は推論にかかっています。インテリジェントな推論の成功をサポートする適切なインフラストラクチャ (ハードウェアとソフトウェアの両方) を持つことは、依然として重要です。

健全な AIOps 戦略は、以下の機能によって推論をサポートできます。

  • パフォーマンス監視
  • キャパシティ・プランニング
  • コストの最適化
  • インテリジェントな推論スケジューリング

概して、強力な AIOps 戦略は、より強力な AI 推論機能の確保につながります。

AI 推論を重視すべき理由

Red Hat® Ansible® Automation Platform は、幅広い IT 運用に AI 機能とツールを活用できるエンドツーエンドの自動化ソリューションです。モデルとインフラストラクチャ・コンポーネントのデプロイ、構成、管理を自動化することで、AI インフラストラクチャのデリバリーを効率化します。 

Event-Driven Ansible を使用すると、可観測性データを自動化されたアクションに変換し、IT 環境の変化にリアルタイムで対応する自己修復型インフラストラクチャを構築できます。 

Ansible Automation Platform は Red Hat AI と連携して動作します。 vLLM 搭載のサーバーにより、高速かつ柔軟で効率的な推論を実現するよう構築された Red Hat AI は、モデルをデータと確実に接続し、単一のプラットフォーム上で専用エージェントのカスタマイズと開発を行えるようにします。 

また、Red Hat AI ポートフォリオには AI 推論、エージェント型 AI ワークフロー、AI 対応アプリケーションをあらゆるインフラストラクチャ上でデプロイ、管理、スケーリングするためのプラットフォームである Red Hat AI Enterprise が含まれています。 

AIOps の可能性を実現するには、Ansible Automation Platform のイベント駆動型自動化機能と Red Hat パートナーの AI 機能を組み合わせることが不可欠です。SplunkDynatraceDatadog などの可観測性ツールを使って異常検知を行うと、Event-Driven Ansible はそれらの洞察に基づいてアクションを実行できます。これにより、既存の可観測性ツールの投資対効果 (ROI) を最大化すると同時に、MTTR を短縮し、繰り返しタスクからチームを解放できます。

Ansible Automation Platform の生成 AI サービスである Red Hat Ansible Lightspeed は、自動化チームのスキルギャップの解消、よりスマートな作業、運用上の問題の迅速な解決を支援します。Ansible Lightspeed コーディングアシスタントにより、開発者と運用担当者は自然言語プロンプトからタスク、Ansible Playbook、Ansible Role などの自動化コンテンツを生成できます。また、Ansible Automation Platform の管理者は、信頼できる Red Hat データソースでトレーニングされた Ansible Lightspeed インテリジェントアシスタントを活用することで、直感的なチャット・インタフェースを介してプラットフォーム内で直接、管理業務のオンボーディングとトラブルシューティングを実行できます。

Ansible Automation Platform で AI インテリジェンスをアクションに変換する

Red Hat Ansible Automation Platform

エンタープライズ規模で自動化を実装するプラットフォーム。自動化導入のあらゆる段階に対応します。

関連情報

What is Mixture of Experts (MoE)?

混合専門家 (MoE) は、タスクをモデル内の最適な部分に振り分けて AI 推論を高速化するモデルアーキテクチャ手法です。

What is AgentOps?

AgentOps (エージェント・オペレーション) とは、AI が意思決定を行う際の「頭脳」をリアルタイムで監視するツール群のフレームワークです。

What are predictive analytics

現在と過去のデータを分析し、将来のイベントを予測する手法。機械学習、統計モデリング、データマイニング等による傾向、行動、成果、ビジネス機会の特定を支援します。

AI/MLリソース