一个长着红色长发的人,在桌旁面对电脑工作
快速跳转

什么是 AIOps?

复制 URL

AIOps 是用于 IT 运维的人工智能。它既是指一种 IT 运维方法,也是一种集成式软件系统,使用数据科学来增强人工解决问题和通过系统解决问题的能力。AIOps 将大数据与人工智能或机器学习相结合,以增强或部分取代广泛的 IT 运维流程和任务。

在 AIOps 的 AI 部分发挥作用之前,它需要处理一些东西。它需要数据——运维方面的数据,具体包括正常运行时间、停机时间、处理使用、网络流量、应用日志、错误、身份验证尝试、防火墙警报,以及历史数据等等。这种数据收集、整理和清理操作通常比融合算法和学习模型更为困难。

有了这些数据,就可以确定服务级别目标和指标了。使用可跟踪的指标定义运维健康状况,然后将其作为 AIOps 系统的基线。许多企业级平台都附带(或关联了)运维观测组件:红帽® OpenShift® 包含了红帽 OpenShift Observability红帽企业 Linux® 使用了红帽卫星,而红帽 Ansible® 自动化平台则使用了 Prometheus 和 Grafana

定义了运维健康状况后,您就能应用 AI 了。而且,将 AI 融入项目中已经变得前所未有的简单。 

由于有大量这些机会,自然语言处理(NLP)、人工智能(AI)、机器学习(ML)深度学习(DL)已融入我们生活的方方面面。

优势

  • 解决速度:AIOps 可通过检测和应对新出现的问题来缩短停机时间,从而减少平均解决时间(MTTR)。
  • 自我修复系统自我修复基础架构可以显著改进性能和正常运行时间。 
  • 大数据:AIOps 可以通过清理、分析和执行操作等方式来运用大数据
  • 效率和规模:通过使用 AI 模型的见解来识别行动和扩展检测,从而提高人员的效率。
  • 创新:消除重复性工作后,IT 团队可以开发和交付更具战略性和更有价值的项目。
  • 简化:AIOps 可以简化许多重复的 IT 服务管理任务。
  • 实时数据关联和决策:如果 AIOps 包含自动化引擎,它可以根据数据来自动响应,从而减少人为干预和错误,同时最大限度地减轻噪音干扰。
  • 规模化数据关联和预测:AIOps 可以自动分析每一种可能的排列,远远超出人类手动操作的能力范围。

挑战

  • 专业知识:由于 AIOps 需要广泛的数据科学专业知识,即使是入门也有很高的门槛。
  • 基础架构:如果没有标准化的平台和功能(例如红帽 OpenShift 和 Ansible 自动化平台提供的平台和能力),针对特定基础架构训练 AIOps 可能很有挑战性。
  • 价值实现时间:AIOps 系统可能很难设计、实施、部署和管理,因此可能需要一些时间才能看到投资回报。
  • 数据:现代 IT 运维所产生数据的数量、质量和一致性可能会变得让人不知所措,难以掌控,而 AIOps 的结果质量又取决于数据源的质量。
  • 集体协议:为系统健康奠定基础并制定标准运维目标需要多方的广泛支持,而这可能很难达成共识。
  • 范围:要考虑因素之多,可能会让人顾及不暇。或者,环境可能变化太过频繁而无法建立基线。
  • 失败率:AI 项目的失败率非常高。根据 IDC 的 AI InfrastructureView 研究报告,31% 的受访者在生产中使用了 AI,但只有三分之一在全企业/机构范围实现效益。

我们来走近看看:为什么不同类型的专业人员都要使用 AIOps?

  • 应用站点可靠性工程师(SRE)可以定义 AI 能关注的 4 个黄金信号:延迟、错误率、流量和饱和。
  • 开发人员可以使用 AIOps 分析来执行自己的根本原因分析(RCA),或者开发人员可以允许 AIOps 引擎在无人干预下执行 RCA。
  • 业务负责人可以使用 AIOps 来监控 SRE 所用的黄金信号,从最终用户角度了解应用的性能。
  • 基础架构运维人员可以使用 AIOps 来监控混合云、多云和基于微服务的 IT 环境,无论监控几十个虚拟机(VM)还是数千个集群都不在话下,同时还可简化 Day 2 运维

每一个用例都表明,AIOps 可以帮助团队检测和应对潜在问题,但距离 AIOps 系统完全取代经验丰富的 IT 系统管理员和其他运维团队成员,我们还有很长的路要走。像大多数 IT 革命一样,AIOps 只是让机器替我们完成杂务,而方向盘仍由我们操控。

因此,机器不会取代人类。不过,数据科学家和 DevOps 工程师等依然应该好好利用这场即将到来的 IT 革命来拓宽自己的技能。

  • 应用性能监控(APM)能力将变得更加重要,因为企业选拔人才时会更加关注候选人在性能驱动方面的能力。
  • 要能理解、整合或编写底层 AI 脚本,以及将事件关联和警报引擎转化为执行引擎,自动化技能也将变得更加重要。 
  • 如果您已经精通 AI,那就去尝试将 AI 应用于网络领域(比如:SD-WAN、Wi-Fi 等),当然要务必保证安全。

DevOps 的重点是在整个应用生命周期中不断地进行微小的增量改进。因此,DevOps 的痛点是停机时间,而这正是 AIOps 的用武之地。AIOps 通过在开发和运维过程中添加数据科学来增强 DevOps 文化。 

AIOps 不会取代 DevOps,而是 DevOps 的一种演进。AIOps 是同一数字化转型生命周期中的另一个点。AIOps 和 DevOps 有着相同的职责。AIOps 只是用一个机械化的大脑来辅佐人类智力。 

虽然 DevOps 和 AIOps 之间的实际界限有些模糊,但 AIOps 在 DevOps 流程的任一端都很胜任:

  • 在前端,AIOps 可以使用大量基础架构数据,警示 DevOps 工程师底层的集成开发环境(IDE)问题(或者直接修复它们)。  
  • 在后端,AIOps 可以自动解决生产中的冗余 IT 问题,同时学习修复每个新的增量版本中出现的新错误。 

与 DevOps 一样,没有单一的 AIOps 工具、AIOps 平台或 AIOps 产品。就像您的 IT 堆栈(硬件和软件)一样,用于构建 DevOps 和 AIOps 功能的工具数量众多,而且因企业或机构的需求而不同。这是因为,每个企业和机构的开发和生产环境都有自己的特点和独特之处,您构建的任何 AIOps 解决方案必须能够整合、分析这些各种因素并进行处理。

AIOps 在开源领域有着深厚的影响力,不管是作为上游项目还是现身于许多社区中。虽然还没有单一的产品能涵盖整个 AIOps 解决方案,但有许多开源开发、运维、AI 和自动化项目可以作为您的独特 AIOps 解决方案的一部分。此外,还有许多特有的开源项目正在开发中,为具体的 AIOps 问题提供 AIOps 解决方案。

许多企业都正在将其下游 AI 产品代码作为上游项目发布:

  • 当今全球最大的社交媒体集团 Meta 以开源项目的形式发布了 Llama 2 大型语言模型。
  • 红帽希望 Project Thoth 开源项目能带来企业级的强化产品,就像 Project Wisdom 带来 Ansible 自动化平台的 Ansible Lightspeed 加 IBM watsonx Code Assistant 组件一样。
  • 我们也在为其他机构牵头的 AIOps 项目出力,比如 人工智能卓越中心(AICoE)的 AIOps 项目。

将我们的自动化平台与合作伙伴的 AI 功能搭配使用,企业可以在打造战略性 AIOps 解决方案方面获得巨大的领先优势——将 AI 的可观测性能力与我们自动化引擎的事件驱动架构强强结合。 

使用 Event-Driven Ansible 可针对 AI 的成果采取行动。将我们的自动化平台与合作伙伴的因果 AI 引擎(如 Dynatrace 和其他现代可观测性工具提供的引擎)搭配使用。此外,使用 Ansible Lightspeed 加 IBM watsonx Code Assistant 来帮助技能级别不等的开发人员和运维团队利用 AI 生成的建议编写语法正确的代码。

扩展阅读

文章

Ansible 基础知识入门

Ansible 是一种对 IT 流程自动化的工具,如置备和配置管理等流程。希望能通过这篇 Ansible 关键概念的介绍,帮助您了解 Ansible 的基础知识。

文章

什么是业务流程管理?

业务流程管理(BPM)是指对端到端业务流程进行建模、分析和优化,以实现战略业务目标。

文章

为什么选择红帽实现自动化?

红帽 Ansible 自动化平台中包含了在团队间分享自动化以及实现企业级自动化所需的各种工具。

详细了解自动化

产品

红帽的战略顾问将从大局出发,以战略性视角审视企业发展,分析您当前面临的业务挑战,并提供全面、低成本、高效益的解决方案,帮助您轻松应对各项挑战。

无论您处于自动化之旅的哪个阶段,这个实施企业级自动化的平台都能助您一臂之力

相关资源

培训

免费培训课程

Ansible 必备:轻松实现自动化之技术概览

免费培训课程

针对 SAP 的红帽 Ansible 自动化

红帽 Ansible 自动化平台学习中心

利用红帽专门准备的学习材料和工具,一步步学习使用红帽® Ansible® 自动化平台。

利用 Ansible 实现红帽企业 Linux 自动化

了解如何使用红帽 Ansible 自动化平台来自动化 Linux 系统管理任务。