什么是 AIOps?
AIOps(AIfor IT Operations)是一种利用机器学习及其他先进 AI 技术来实现 IT 运维自动化的方法。它依托能够实时观察、学习并采取行动的智能系统,帮助 IT 团队应对复杂的运维环境、减少手动操作,并加快事件响应速度,从而更快、更有效地制定决策。
复杂 IT 环境中的运维数据体量庞大,这使得快速识别并解决问题变得困难重重。人类根本无法以足够快的速度处理和整理这些数据,因而也难以满足现代 IT 运维的需求。而且,传统的监控工具常常会生成大量冗余或无关紧要的警报,这可能会引发警报疲劳现象,导致最重要的警报被忽视。
事件响应因此出现延迟,再加上手动故障排除本身耗时的特点,使得平均解决时间(MTTR)延长,并增加停机风险。
而 AIOps 能够有效缓解这些问题,帮助 IT 团队更快响应事件。它融合了机器学习算法与技术,使系统能够从大量运维数据中学习;同时还借助 IT 自动化来实时响应各类事件,进而提升系统可见性,实现更主动的 IT 管理,并降低运维成本。
AIOps 是如何运作的?
AIOps 平台或方法会收集大量运维数据,应用机器学习算法来识别模式和问题,自动进行修复,并从过往事件中学习。换言之,AIOps 将 IT 运维从“被动式故障排除”转变为“主动式智能管理”。
数据收集、处理和清洗
AIOps 平台会从网络、应用、数据库及其他各类来源中收集大量信息,进行适当整理,并将其置于上下文环境中进行分析。这些数据可能包括:
- 实时及历史事件数据。
- 性能指标与监控数据。
- 系统和应用日志。
- 基础架构和配置数据。
- 安全防护和事件数据。
- 非结构化或流数据。
平台收集的数据会集中到统一位置,便于进行整理、索引与清洗,实现高效管理。然而,在大多数现代环境中,数据并非集中存储,而是分散于多个共存的可观测性平台上,因此数据汇总成为至关重要的首要步骤。数据“清洗”则是指识别并更正收集到的数据中的错误,以确保数据集和分析结果的可靠性。具体可能包括删除重复数据、修正错误标签的数据或补全缺失数据等。
应用 AI/ML 算法
AIOps 运用机器学习来识别模式,借助自然语言处理技术来解读数据源中的文本,并利用生成式 AI 来整合与提炼见解。通过对日志、工单等多来源的非结构化文本进行解读,可为识别历史数据中的异常情况以及开展根本原因分析(RCA)提供上下文支撑。在此过程中,生成式 AI 可以生成清晰的事件摘要并提出具体的修复建议,从而加快修复速度。AIOps 还可以使用预测分析,该技术依托于历史数据、统计建模、数据挖掘技术及机器学习,能够在问题发生前进行预判。
自动化响应与修复
在 AIOps 平台识别出事件和模式后,IT 团队可以引入自动化与编排技术来快速解决问题。AIOps 能够依据预先设定的策略,触发自动化的自我修复工作流,例如重启服务或生成事件工单。这种自动化处理方式使得对常见问题的响应具备可扩展性和可重复性,同时减少了停机时间和人工干预。此外,它还为复杂问题保留了人工审核的空间,同时系统会不断学习并完善未来的响应策略。
成功实施 AIOps 方法的关键在于,选择一个能够从整个 IT 环境中创建单一事实来源的平台。在许多情况下,单个可观测性工具可能无法触及问题根源所在的底层基础架构。因此,选择一个能够跨不同来源进行数据整合、规范化处理并建立关联的平台至关重要,这有助于团队获取有用的见解,并支持更高效的修复工作流运作。
红帽资源
AIOps 的优势与挑战
AIOps 为 IT 运维工作带来了显著优势,但同时也伴随着一系列挑战。企业组织在数据管理、专业实力以及系统集成方面会面临诸多障碍,这些因素将直接影响 AIOps 解决方案的见效周期以及整体实施成效。
挑战
- 数据管理难度大。收集、整理和清理数据以保障其质量和一致性,这一过程颇为复杂。从海量数据中甄别有价值信息与无关信息也并非易事,但又至关重要,因为 AIOps 的成效直接取决于数据源的质量。
- 专业知识和基础架构要求高。企业组织若想自主开发 AIOps 解决方案,需配备专业的内部数据科学家团队,而这本身就可能构成一道相当大的障碍。寻找在 AIOps 设计和管理方面具备所需专业知识的人员往往非常耗时,而培训现有员工则成本高昂。此外,如果平台和功能未实现标准化,则难以就不断变化的基础架构对 AIOps 进行训练,因为这类系统的设计、构建与管理本身也颇为复杂且需要投入大量时间。
- 成效显现延迟。AIOps 系统的设计、实施、部署与管理过程难度较大,因此可能需要一定时间才能看到投资回报率(ROI)。
- 与现有系统集成困难。 AIOps 解决方案若要发挥作用,就需与当前的基础架构和工具协同工作。而这种集成可能颇具挑战性,尤其是在混合云或多云环境中。
- 信任不足与协同不畅。企业组织需要确保 AI 的应用符合伦理规范、方法透明可溯且结论合理可验。此外,制定明确的运维目标需要凝聚众多利益相关方的共识,而这一点往往难以实现。
从数据管理到系统集成,这些挑战看似艰巨,却正是成熟 AIOps 平台的设计初衷所在。通过采用统一的解决方案,企业组织可以克服常见的实施障碍并实现关键效益。
优势
- 加快解决问题速度并减少停机时间。 AIOps 可通过检测和应对新出现的问题来缩短平均解决时间(MTTR),从而减少停机时间。这一点依托于其快速识别根本原因并自动实施解决方案的优势。在问题影响用户或导致昂贵宕机之前主动解决。
- 提升工作效率。 通过实现手动重复性任务的自动化,AIOps 可减少人为失误并提高 IT 人员的工作效率。这使得团队有更多时间专注于更具价值的战略项目,进而实现基础架构与人力资源的更高效利用。
- 增强可观测性与洞察力。AIOps 会从不同来源收集海量数据并建立数据关联,从而提供统一的 IT 环境全景。它还运用机器学习来检测异常、识别模式并提供可预测的分析,将原始数据转化为有用的见解。
- 削减成本。 通过预防系统中断、优化资源分配并提升 IT 人员工作效率,AIOps 能够降低运维成本,同时降低 IT 基础架构的总拥有成本。
- 改善客户和员工体验。AIOps 有助于维持关键服务与应用的持续运行,从而为客户带来更稳定顺畅的使用感受。此外,它仅推送最重要的警报来减轻 IT 团队的警报疲劳,进而提升团队士气与决策水平。
AIOps 用例
您可以运用 AIOps 来应对各类 IT 运维挑战。通过集成 AI 与自动化技术,能够实现从被动解决问题到主动进行智能 IT 管理的转型。
基础架构和云管理
AIOps 对于管理复杂的 IT 环境至关重要,包括虚拟机(VM)、混合云以及网络边缘运维。它采用事件驱动自动化机制,可针对中央处理单元(CPU)使用率飙升或网络服务故障等常见警报自动做出响应。AIOps 还可以帮助 IT 团队更好地利用资源,从而降低成本,并使他们无需再手动管理基础架构。
AIOps 可用于管理各种成本节约技术,如分布式推理。分布式推理通过将推理任务分配给一组互联设备,使 AI 模型能够更高效地处理工作负载。llm-d 等框架支持大规模分布式推理,从而加速生成式 AI 在企业中的广泛应用。
网络和边缘优化
AIOps 在提升网络性能以及加快 IT 团队问题响应速度方面发挥着重要作用。它能在整个网络范围内提供自动化支持与 AI 见解,涵盖有线网络、无线网络、软件定义广域网(SD-WAN)、广域网边缘、数据中心以及安全域。具体操作包括自动执行基本的网络故障排除任务及修复配置问题。此外,借助事件驱动自动化,即使在网络边缘也能触发应用重新部署。
业务影响评估和服务运行状况监控
您可以使用 AIOps 来更好地了解 IT 问题对业务服务的影响。通过收集和分析大量数据,AIOps 可以帮助站点可靠性工程师(SRE)监控应用、硬件和网络基础架构的性能。更深入地掌握性能问题及其对服务正常运行时间的影响后,您便可以根据问题的严重程度和相关性,确定修复工作的优先次序。
安全防护与合规性
AIOps 可以利用 AI 的异常检测和事件关联功能来主动识别潜在威胁(如数据泄露等),从而提升安全态势。它还能应对配置偏移问题,不仅能检测到变更,还会提供有关风险与影响的背景信息,助力优先执行自动修复。为确保治理有效,您可以在运行 AI 发起的自动化操作前,依据预定义的安全策略对其进行验证。这有助于确保 AI 合规运行,并增强结果的可信度。
行业特定应用
AIOps 解决方案可针对金融服务业、医疗保健业、电信业和制造业等不同行业的独特需求进行定制。部分工具能够提供跨 IT 运维的全局视图,而面向特定领域的应用则能带来更深入、专业的洞察。这些应用采用基于行业相关数据集训练的 AI 模型,专注解决各类特定挑战与场景需求。
AIOps 与DevOps 有何区别
DevOps 致力于在整个应用生命周期内实现持续的渐进式改进。因此,停机时间是 DevOps 面临的一大挑战,而这也正是 AIOps 发挥关键作用之处。AIOps 通过将数据科学融入开发与运维流程,为 DevOps 文化提供有力支撑。
虽然 DevOps 与 AIOps 之间的实际界限颇为模糊,但 AIOps 在 DevOps 流程的两端都能很好地发挥作用:
- 在前端,AIOps 可以使用大量基础架构数据,以警示 DevOps 工程师注意底层集成开发环境(IDE)的问题或直接进行修复。
- 在后端,AIOps 能够自动解决生产环境中的冗余 IT 问题,同时学习如何修复每次新版本发布时出现的未知漏洞。
与 DevOps 一样,AIOps 也依赖于一套多样化的工具和高度协作的方法来支持更快、更高效的 IT 运维。虽然统一的 AIOps 平台可以在您独特的开发和生产环境中进行集成、分析和操作,但您使用的底层工具会因 IT 架构的不同而有所差异。
红帽能为您做些什么?
红帽® Ansible® 自动化平台是一款端到端自动化解决方案,可为广泛的 IT 运维提供 AI 功能和工具。它通过自动部署、配置和管理模型及基础架构组件,简化了 AI 基础架构的交付流程。
您可以使用事件驱动的 Ansible 将可观测性数据转化为自动化操作,从而创建能够实时响应 IT 环境变化的自我修复型基础架构。通过与红帽 OpenShift® AI 和红帽企业 Linux® AI 等红帽 AI 解决方案相结合,该平台还有助于识别并自动修复发生的问题。
要充分发挥 AIOps 的潜力,关键在于将 Ansible 自动化平台的事件驱动自动化功能与我们合作伙伴的 AI 功能相结合。您可以借助 Splunk、Dynatrace 和 Datadog 等可观测性工具进行异常检测,事件驱动的 Ansible 则可以根据这些洞察采取行动。这意味着,您可以最大限度地提高现有可观测性工具的投资回报率,同时缩短平均解决时间并让团队摆脱重复性任务。
红帽 Ansible Lightspeed 是 Ansible 自动化平台的生成式 AI 服务,可助力您的自动化团队弥补技能差距,更智能地开展工作,同时更快地解决运维问题。其中,Ansible Lightspeed 编码助手支持开发人员和运维人员利用自然语言提示快速生成自动化内容,如任务、Ansible Playbook 和 Ansible 角色。而基于红帽可靠数据源进行训练的 Ansible Lightspeed 智能助手,则可通过直观的聊天界面,帮助管理员直接在平台上完成 Ansible 自动化平台的上线配置和故障排除工作。
开启企业 AI 之旅:新手指南
此新手指南介绍了红帽 OpenShift AI 和红帽企业 Linux AI 如何加快您的 AI 采用之旅。