从可观测性到 AIOps 自动化的演进之路

复制 URL

在复杂的 IT 环境中,借助可观测性工具,您能够洞察并理解正在发生的一切。这些洞察分析固然有价值,但如果我们能更进一步呢?

借助面向 IT 运维的人工智能(AIOps)自动化,您可以运用 AI,将洞察转化为行动。这种方法有助于您取得所期望的成果:提升工作效率,并交付可靠且可扩展的 IT 系统。

若将可观测性、AIOps 与自动化作为统一战略的一部分协同部署,三者能够相互增强、放大各自的价值。然而,许多企业组织在这些领域投入了大量资源,却难以将它们有效地整合起来。可观测性工具往往会生成大量警报,导致团队深陷警报疲劳和高压之中,即便已经利用 AI 对警报进行优先级排序或增强分析,这一问题依旧存在。如果缺乏上下文,且未能与自动化平台进行有效集成,您可能会面临海量数据,却无法借助信赖的自动化,以一致且可规模化的方式采取行动。

本文将阐述智能化的可观测性如何助力提升运营效益,并重点介绍红帽® Ansible® 自动化平台及其内置的事件驱动的 Ansible。我们将以可观测性、AIOps、事件和自动化的核心概念为基础,展示它们如何协同运作,从而帮助您通过受治理的自动化快速执行由 AI 提供信息依据的决策。 

我们的旅程始于一项重要的资源:数据。

阅读分析机构文章:弥合 AIOps 差距

数据是实现 AI 增强型自动化的基础原料。要从数据中获取价值,第一步就是打造可观测性。 随着 IT 环境日益复杂,仅靠监控错误日志并作出被动响应已远远不够。您需要的是对系统运行状态形成更全面的洞察。

可观测性是在监控基础上的进一步延伸。它旨在产出有价值的洞察,帮助您以更主动的方式对 IT 系统和应用进行故障排查与优化。 可观测性工具可能会将日志、指标和跟踪等传统数据,与元数据、用户行为、网络拓扑及代码级细节等其他数据源相结合。 

可观测性工具的选择十分丰富。红帽平台可与 SplunkDynatraceIBM InstanaLogicMonitor 等热门可观测性平台无缝集成,同时也支持事件总线、Kafka 和 Webhook 等行业技术。它通常会同时使用多种可观测性工具,以便更好地监控不同的系统和行为。

整合所有这些信息,将有助于您洞察更多信息。借助可观测性,您不仅能知晓问题已发生,还能了解根本原因并明确下一步应对措施。

到目前为止,一切都很顺利。可观测性工具在揭示问题所在及所需采取的措施方面表现出色,为运维管理提供了有力支持。但与此同时,运维团队也可能因海量警报而不堪重负。那么,接下来该怎么办?

一种常见做法,是为每一类警报编写一系列预定义规则来规定响应方式。不过,这个过程不仅耗时费力,且会产生技术债务,一旦系统运行方式发生变化,这些规则就需要随之调整并付出代价。
 

可观测性本身作用有限,您需要更智能地应用数据和洞察,而这便是 AIOps 登场之时。

获取“可观测性与事件驱动的 Ansible”电子书

什么是可观测性?

面对潮水般涌来的可观测性警报,如何判断该采取什么行动? AIOps 给出了答案。 

不妨将 AIOps 视为一种理念,而非独立的产品类别或平台。AIOps 是一种方法,它运用机器学习和人工智能来帮助管理 IT 自动化的复杂性。理想情况下,AIOps 可提供所需的智能洞察,触发自动化操作,从而实现期望的成果。AIOps 的理念与平台工程站点可靠性工程团队的目标相辅相成。

要实施 AIOps,需从可观测性数据源收集数据,形成对 IT 环境的统一视图。然后,您可以利用机器学习实时发现异常、识别模式并生成有价值的建议。更进一步,AI 驱动的系统还能够持续学习与优化。它们不是简单地以相同的方式对每个事件做出响应,而是会进行观察并做出调整,以更好地实现预期结果。 

将 AI 整合到运维流程的方式多种多样,没有统一的路径。如今,许多可观测性工具都内置了 AI 功能。您也可以选择将自有的 AI 模型整合到自动化工作流。

到目前为止,您应该已经看到了将可观测性数据与实时 AIOps 智能相结合所带来的价值。但仅有洞察还不够——关键在于将其转化为行动。而这,正是事件发挥作用的地方。

事件是指 IT 系统中发生的任何可检测且有意义的状况。它可能是您任何应用、硬件、软件、云实例或其他技术中的状态变化:某个组件启动或关闭;网络连接建立或断开;某项活动超过设定的阈值——这些都属于事件。 

不同事件在不同情境下可能需要完全不同的响应方式。例如,在正常运行情况下,系统负载升高可能只需触发通知;但如果该系统正在处理敏感工作负载,则可能需要立即关停,以避免安全风险。可观测性工具能够检测事件,而 AIOps 则可以帮助您分析事件背景,从而触发相应的自动化响应。 

当事件经过智能分析后,您可以针对各种场景制定最佳应对策略,并随着新类型事件的出现不断进行适配。至此,事件驱动自动化的基础已经就位——接下来,让我们进入下一阶段。

事件驱动自动化是一种基于可观测性数据启动自动化 IT 运维工作流的方法。 它帮助人类更好地掌控复杂系统,包括混合云、AI 和边缘环境,同时减少日常重复性任务,让运维团队能够专注于更高价值的工作。

如前所述,您可以将 AI 应用于可观测性数据,从而做出更优的自动化决策。这不仅能够高效解决问题,也能让事件驱动自动化工作流释放更大价值。

对于红帽 Ansible 自动化平台用户而言,内置的事件驱动的 Ansible 功能集提供了跨 IT 领域自动化任务的事件处理能力。 

事件驱动的 Ansible 以三大核心组件为基础:

  • 事件源:提供有关 IT 环境状况的事件数据。这些事件通过插件或 Webhook 发送至事件驱动的 Ansible。
  • Rulebook:包含一系列触发特定操作的规则和条件,用于定义在不同事件发生时应采取的响应。
  • 操作:自动化执行的结果,用于处理或修复事件。

Ansible Playbook 类似,Ansible Rulebook 同样采用人类可读的 YAML 格式编写。但不同的是,Rulebook 使用条件规则来定义事件何时应触发操作。 事件驱动的 Ansible 会监控事件、识别事件何时发生,并自动执行相应的操作。

您可以将 Ansible 自动化平台与 Prometheus AlertmanagerApache Kafka 等开源工具集成。您可以从经过认证和验证的生态系统集合中进行选择,以更快速地部署这些自动化集成。

将事件驱动自动化与现有工具结合,您将逐步体验到一系列价值提升,而这也引出了下一部分内容。 
进一步了解事件驱动的 Ansible

通过采用 AIOps 方法实现事件驱动自动化,您可以将可观测性数据、AI 洞察和基于规则的逻辑结合起来,从而自动化原本需要大量人工处理的工作,并从“被动响应”转向“主动预防”。 

这种方法的主要优势包括:

  • 主动检测:依托 AI 的异常检测,有助于在问题影响用户之前加以预防。
  • 智能分析:自动化的根因识别和建议功能,有助于您节省时间,并在需要时获得准确答案。
  • 更快响应:团队可以基于 AI 洞察做出决策,并通过受治理的自动化快速执行。
  • 持续学习:不同于依赖固定规则的系统,AI 驱动的系统能够随着时间不断优化其建议。

最终,它能让基础架构更加可靠、成本更低,且问题解决速度更快。接下来,我们将看看这些能力如何在实际场景中发挥作用。

可观测性、自动化和 AIOps 可帮助应对多种现实业务场景。

基础架构可靠性

您可以采用 AIOps 方法来自动处理常见警报。通过这一策略,您的可观测性平台会基于 AI 增强的分析和建议来触发自动化操作。 

当某个系统开始出现故障时,自动化会立即介入,例如重启服务、清理日志、重新分配资源或对基础架构进行弹性扩展。这种方法有助于在问题升级前进行修复,缩短问题的平均解决时间(MTTR),并提升系统可靠性。

增强型服务工单

当基础架构团队能够清晰掌握事件全貌时,就能更有效地响应 IT 服务管理(ITSM)工单。通过使用将事件与 AI 分析相结合的分析工具,您可以将实用信息添加到 ITSM 工单和跟踪流程中。在工单进入队列之前,您就能提供初步分析和优先级评分,从而缩短 MTTR 并减少手动工作量。

借助这些补充的上下文信息,您的团队能够更深入地理解事件,从而快速解决问题并最大限度地减少停机时间。

三个自动化步骤,助您利用 Ansible 自动化平台更快解决 ServiceNow ITSM 工单。视频时长:10:54。

优化的 AI 基础架构

满足 AI 工作负载的需求,对 IT 基础架构团队而言是一项挑战。通过运用可观测性与自动化,可以在减少人工负担的同时,保障这些复杂系统的稳定运行。您可以自动化重复性的 AI 调优任务,包括调整基础架构规模和减少资源蔓延。您还可以通过自动化优化模式和配置,提升系统的可靠性。多种手段协同作用,有助于在问题影响用户之前预防性能问题的发生。

因此,您的团队能够加快 AI 开发周期,沿着经过测试且可靠的路径,将 AI 模型从开发阶段顺利推向生产阶段。您的企业组织将能够更快地进行创新,并保持竞争力。 

自动检测并修正配置偏移

当 IT 系统偏离预期状态时,就会发生配置偏移,这是造成安全漏洞和不稳定的常见原因。传统的监控方式可以在一定程度上管理配置偏移,但 AIOps 方法更胜一筹,能够提供有关风险和影响的上下文信息,并优先处理最需要修复的问题。 

当您的监控或可观测性工具识别出配置偏移时,您可以利用 AI 增强的自动化,根据风险和业务影响来确定修复优先级。您还可以在应用修复措施之前预测可能产生的连锁反应,并选择在影响最小的时候进行修复。这样,您就能在不引入额外中断风险的情况下,减少因配置偏移导致的安全和稳定性问题。

策略实施与合规

您的 IT 团队依赖既定策略来确保系统符合法规和企业组织标准。通过将事件驱动自动化与这些策略对齐,您可以在自动化执行过程中持续保持合规。

作为 AIOps 方法的一部分,您可以将这些策略纳入自动化决策流程。当 AI 系统进行推理并触发自动化操作时,您的系统可以对该操作进行验证,确保其符合既定策略要求。

了解这些用例之后,我们下一步来看看让这些集成落地的具体方式。 

红帽 Ansible 自动化平台的五大 AIOps 用例

要想从数据驱动的智能自动化中获益,您需要将可观测性工具与自动化平台进行集成。红帽 Ansible 自动化平台用户有多种选择:

  • 事件驱动的 Ansible:事件驱动的 Ansible 非常适合处理海量事件。它是处理大量突发性的可观测性警报或异步事件流的推荐选择。
  • 模型上下文协议(MCP):MCP 专为 AI 代理设计,是 AI 应用与外部服务之间通信的开源标准。它非常适合代理式工作流和 AI 辅助运维。如果您要将 AI 模型与 Ansible 自动化平台集成,MCP 是理想之选。
  • Webhook: Webhook 是一种通过 HTTP 在应用之间发送轻量级事件驱动通信的机制。其功能相对有限,适用于简单的推送式操作,例如触发 ITSM 工单。
  • REST 应用编程接口(API):Ansible 自动化平台可通过 REST API 与其他应用交互,遵循通用的信息共享标准。这有助于支持持续集成和持续交付(CI/CD)管道,以及基于 REST API 标准构建的现有系统。不过,对于新的部署,采用上述任一方法都可能比旧版 REST API 标准更具优势。

了解这些集成方法后,我们接下来看看红帽解决方案如何帮助团队将可观测性、AIOps 与自动化真正落地。 

了解面向 Ansible 自动化平台的 MCP 服务器

为了支持您的 AIOps 策略,红帽的统一解决方案可以帮助您跨环境实现自动化,并部署经过验证和优化的 AI 模型。

红帽 Ansible 自动化平台

红帽 Ansible 自动化平台是一套全面的 IT 企业自动化解决方案,可帮助您提高生产力并打破团队之间的协作壁垒。通过与现有 AI 和可观测性工具集成,Ansible 自动化平台能够帮助您将智能分析结果,转化为可复用、受治理的自动化,在整个 IT 环境中规模化应用。

事件驱动的 Ansible 包含在您的 Ansible 自动化平台订阅中,它是一个可扩展且响应迅速的自动化解决方案,能够处理包含关键信息的事件。它使 IT 团队能够根据事件判断最佳响应方式,并自动执行相应操作,以处理或修复问题。 

阅读“事件驱动的 Ansible 简介”电子书

红帽 AI

红帽 AI 是一套由多种产品与服务构成的平台,可在企业 AI 发展的各个阶段提供支持。它能够帮助交付生成式与预测式 AI 模型,包括用于支撑 AIOps 场景的模型。

借助红帽 AI,您可以使用红帽 AI 推理服务器来优化模型推理,从而实现更快、更具成本效益的部署。红帽 AI 推理服务器内置红帽 AI 存储库,该库汇集了经过第三方验证和优化的模型,既能提供模型灵活性,又能优先保障跨团队的一致性。

这些解决方案共同发力,助您将 AI 驱动的洞察转化为自动化行动,提升团队在大规模场景下的决策效率与速度。

资源

自动化助力释放 AIOps 全部潜能

若要成功实施 AI,必须从一开始就整合 IT 自动化能力。下载以了解详情。

借助红帽 Ansible 自动化平台实现 AIOps 自动化

红帽® Ansible® 自动化平台是一款端到端自动化解决方案,支持在广泛的 IT 运维中引入 AI 能力和工具。

扩展阅读

What is IT automation?

IT 自动化是指利用软件,在减少人工协助的情况下执行重复性的 IT 任务和流程。

What's business automation?

业务自动化是使业务流程管理(BPM)和业务规则管理(BRM)与现代应用开发方向保持一致,满足日新月异市场需求。了解如何通过业务自动化改进业务流程,BPA 与 BPM 的区别?

What is configuration management

配置管理是指将计算机系统、服务器和软件维持在所需的一致状态的过程。它可以通过自动化进行管理。

自动化与管理 相关资源

特色产品

相关文章