用例
借助红帽 Ansible 自动化平台实现 AIOps 自动化
将 AI 驱动的洞察转化为受治理的自动化操作
AIOps 即“面向 IT 运维的 AI”(AI for IT operations),通过结合机器学习和人工智能技术,实现 IT 任务和流程的自动化。它能够帮助企业组织打破警报过载、工具蔓延、修复缓慢和依赖人工治理的恶性循环。
依托 AI 技术的可观测性工具擅长检测异常、预测故障并关联事件。但是,如果没有一个可靠的自动化执行层将这些洞察落地,企业组织仍将困于被动响应的运维模式中,无法以业务所需的速度和规模完成从“发现”到“修复”的闭环。
红帽® Ansible® 自动化平台可帮助您:
通过事件驱动型修复,更快解决问题
借助经过预先测试的工作流实现一致的自动化
通过基于角色的访问权限控制和审核跟踪,全面管控 AI 行为
核心功能
丰富事件和工单信息
在事件生成的瞬间,自动将系统状态、日志、依赖项、近期变更和历史模式等运维上下文信息关联到事件。
警报触发时,自动化工作流将从整个 IT 堆栈中收集诊断数据和上下文信息。AI 模型根据这些数据关联信号,并生成相关洞察。相关分析结果将直接附加到 IT 服务管理(ITSM)工单,由 AI 将非结构化信息总结为可执行的上下文。
工程师不再需要在各个系统中处理零散告警,而是直接获得可用的结论,从而加快诊断速度、缩短平均解决时间(MTTR),并消除人工收集上下文所带来的延迟。
优化成本和资源利用
跨云、边缘和本地环境收集并关联资源利用率与性能数据,揭示隐藏的低效和容量分配不均问题。
AI 会分析系统行为,识别未充分利用的资源、配置不匹配的容量以及优化机会,并通过受控的自动化工作流执行调整。
您可以根据真实的利用率数据而非假设做出基础架构决策,打造更精简、更具弹性的环境,同时降低运维成本。
编排系统级容量
从整体视角管理相互关联的系统容量,而非孤立地管理单个组件,以防止隐藏的容量失衡和级联故障。
AI 会在相关指标超过阈值之前,预判资源利用率趋势和新出现的压力节点,并通过确定性自动化工作流触发协同式容量调整。
这使容量管理从被动的阈值响应,转变为可预测的主动编排,从而降低系统不稳定性,并在影响用户之前降低运维风险。
打造自动化修复能力
使用经过验证、可复用的精选修复工作流库替代临时性的应急修补,并确保在不同环境和运维人员之间保持一致的执行效果。
AI 会分析事件模式,从预先批准的自动化库中选择合适的修复工作流。所有操作均经过审批工作流、基于角色的访问权限控制(RBAC),以及可审核的执行跟踪。
借助团队早已信任的自动化工作流,更快速、更安全地解决重复性问题,无需引入绕过治理的自主执行。
跨系统检测偏移并统一执行策略
持续监控应用、基础架构和平台之间的行为偏移。并对照运维、安全防护与合规基线进行评估。
当系统行为偏离策略时,可观测性信号实时捕捉,受治理的自动化工作流会自动执行纠正措施,无需依赖人工审计或被动式干预。
实现策略的持续、一致执行,在漂移刚出现时即加以捕捉,而不是等到下一次审计周期才被发现。
构建自我修复式基础架构
打通检测、修复、验证的闭环流程,使已知问题在工程师收到告警之前即可自动解决。
持续的可观测性信号可检测系统级故障,并通过经 RBAC 权限和目标控制限定范围且经过批准的事件驱动自动化触发修复。AI 负责解读未知问题,而策略框架保留必要的人工监督权。
基础架构在既定边界内实现自我修复,从而减少停机时间、释放工程资源,并确保只有经过授权的操作才能进入生产环境。
网络培训课堂
与您选择的合作伙伴一起实现自动化
了解它如何发挥效用
聆听专家的讲解
查看实际示例,了解如何借助 AI 和 Ansible 自动化平台应对系统故障。
探索 IT 运维中的人工智能应用。视频时长:2:08。
体验交互式演示
探索这些交互式演示,了解 Ansible 自动化平台如何帮助您充分挖掘 AI 的价值。
了解如何通过将 AI 洞察转化为自动化操作来释放 AIOps 的潜能。
了解如何实现 AI 基础架构自动化,以实现运维标准化。
探索丰富特色功能
AI 擅长识别模式并提供建议,而 Ansible 自动化平台则负责将这些洞察落地,通过受治理的工作流执行,并确保具备安全防护控制、策略实施和可重复性等特性。
事件驱动的 Ansible
可观测性和 AIOps 平台会持续产生事件流:性能下降、异常检测、阈值越限和容量警告。但只有对这些事件立即采取行动,才能缩短平均解决时间(MTTR)。事件驱动的 Ansible 可将可观测性与 AIOps 事件源直接连接到受治理的自动化响应。
事件驱动的 Ansible 通过统一流程实现这一点:事件源产生事件,Rulebook 根据团队设定的条件评估事件,符合条件的事件将触发自动化操作——无论是执行修复工作流、丰富服务工单信息,还是扩展基础架构。
这些自动化的 IT 操作并非是由 AI 生成、不可控的代码,而是团队已经在生产环境中验证、评审并运行过的确定性自动化工作流。AI 会根据事件上下文推荐应该运行哪些预先批准的作业或工作流,而事件驱动的 Ansible 则确保其通过既定的 RBAC 权限、审批工作流和审核跟踪。
面向红帽 Ansible 自动化平台的 MCP 服务器
面向 Ansible 自动化平台的 MCP 服务器提供标准化、可靠的接口,让 AI 代理和 LLM 能够直接与自动化平台交互,且不会绕过企业组织已部署的控制措施。AI 无需生成临时脚本或直接调用 API,而是通过 MCP 服务器,通将代理建议引导至团队已信任的自动化库中执行,同时保留 RBAC、审核跟踪和审批工作流。
交互模式从“点击界面”转变成“指挥 AI”,运维人员不再手动操作,而是驱动 AI 工具完成发现、决策与执行,所有流程均基于预先批准的自动化能力。随着团队对 AI 的依赖不断加深,自动化成为关键边界,确保所有由 AI 发起的操作都具备确定性、可审计性和可复现性。
自动化仪表板和自动化分析
AIOps 会产生大量自动化操作,例如事件驱动型修复、信息增强工作流和扩展操作。自动化仪表板和自动化分析可让您实时了解这些活动:哪些工作流触发最频繁、它们的执行效果如何,以及带来了哪些价值。
支持生成可共享的报告,并可按日期、项目或标签进行过滤,这让您能够跟踪节省的时间、作业执行结果和财务影响,从而验证 AIOps 投入成效,并规划后续扩展方向。
自动化智能助手
AIOps 的有效落地,依赖于能够熟练管理、排查问题并持续扩展自动化能力的运维人员。但在实际操作中,要进行平台配置、诊断失败的作业,以及了解事件驱动的 Ansible 等组件如何运作,往往需要在文档、支持工单和平台界面之间来回切换。Ansible Lightspeed 智能助手消除了这一障碍,它将生成式人工智能对话助手直接嵌入到 Ansible 自动化平台中,就像有一位 Ansible 主题专家随时在您身边提供支持。
借助可信红帽文档训练的检索增强生成(RAG)管道,运维人员和管理员无需离开平台即可使用自然语言提问,例如“如何配置事件驱动的 Ansible?”“解释这条错误消息”“我的修复作业为何失败”,还能获得具备上下文感知的回答,以及参考链接以便深入查阅。
在 AIOps 工作流场景下,这意味着首次设置事件驱动型修复的团队能够更快上手,并在自动化工作流出现异常行为时实时进行故障排除。随着智能助手进一步扩展,它将能够直观呈现自动化本身的运行状况和性能,运维人员还能监控正在运行的作业、查看清单状态,并实时诊断故障,从而降低在新事件类型和运维领域中扩展自动化的门槛。
自动化编码助手
扩展 AIOps,意味着同步扩展支撑其运行的自动化内容。一方面,最了解运维问题的工程师并不一定能快速编写代码;而另一方面,专职的自动化开发人员又难以快速跟上可观测性体系不断暴露出的新型故障模式。编码助手可在开发环境中弥合这一差距。
在 Ansible VS Code 扩展中,工程师可以使用自然语言描述需求,例如“编写一个 Playbook,用于重启失败的 Kubernetes Pod 并验证服务端点”。系统会针对单个任务、多个任务,甚至完整的 Playbook 或角色,提供可信、具备上下文感知的代码建议。工程师无需从零开始,也不必照搬过时的 Runbook,即可获得一份可用的初稿,并可在此基础上优化、测试,并纳入受治理的自动化库中。
对 AIOps 工作流而言,这意味着团队可以快速扩展自动化覆盖范围,涵盖诸如服务性能下降、证书过期、容量压力、部署回滚等新故障类型,从而在数小时内(而非数天)识别事件模式,并构建生产就绪型 Playbook 进行修复。通过编码助手生成的所有 Playbook 都会按照相同流程纳入自动化库:经过审核、测试、RBAC 范围限定,在下次警报触发时即可自动执行。
Mutua Madrileña 将可观测性数据转化为自动化操作
Mutua Madrileña 使用 Ansible 自动化平台和 Dynatrace 融合 AI 的可观测性,实现平台置备自动化并加速事件解决。
将可观测性与自我修复功能相结合,不仅加快了问题解决速度,还减少了服务停机时间。我们的服务工单量减少了 50%。
深入了解
弥合 AIOps 差距:AI 洞察为何需要可靠行动
将 AI 融入 IT 运维
利用代理式 AI 实现 IT 自动化:面向红帽 Ansible 自动化平台的 MCP 服务器简介
后续进展
试用产品
探索试用红帽 Ansible 自动化平台的不同方式。
购买
为您的企业选择合适的部署方案。