什么是 AgentOps？

Published 2026 年 4 月 24 日•14 分钟阅读

AgentOps（全称为“代理运维”或“智能体运维”）是一套用于监控 AI 在实时决策过程中的“思考”与执行状态的工具框架。您可以把它理解为一种用于管理自主 AI“员工”并为其设定运行边界与规则的方式。它有助于确保代理在接到任务时，能够高效、安全地完成任务，且不会超出设定的预算。

探索红帽 AI

代理的行为具有非确定性，也就是说，它们的决策是基于一系列随机概率分布生成的。无法被精准预判。这种不可预测性虽有助于代理找到解决问题的创新路径。但在生产环境中，缺乏可说明性的自主行为会带来潜在风险。AgentOps 可以帮助降低这一风险。

代理式 AI 是一类能够自主与数据、工具进行交互的软件系统，只需极少人工干预即可运行。代理式 AI 强调目标导向行为，能够通过自主规划步骤并自动执行，从而完成任务。

代理式 AI 是一种将自动化与大语言模型（LLM）的创造力相结合的方式。要将代理式 AI 投入实际应用，您需要为 LLM 接入外部工具和算法，并通过相应规则指导 AI 代理如何使用这些工具。

AI 代理与代理式 AI

AI 代理与代理式 AI 之间有什么区别？“AI 代理”是名词（例如，“我正在构建三个代理”），而“代理式 AI”则是描述性词语（例如，“我们需要让我们的软件具备更高的自主性”）。

AI 代理指的是在代理式系统中承担特定角色并执行任务的软件实体。代理式 AI 描述的是一种具备目标导向能力的系统，它能够在有限人工指导下，自主制定计划、做出决策并采取行动。代理式 AI 指的是系统的行为特征。

AgentOps 会以不同方式支持 AI 代理和代理式 AI。

对于 AI 代理，AgentOps 有助于实现以下目标：

身份与版本控制：跟踪不同代理在角色和能力方面的差异。
工具管理：监控哪些代理可以访问哪些应用编程接口（API）和数据库。
成本与资源跟踪： 追踪代理 A 与代理 B 各自的支出情况。

对于代理式 AI，AgentOps 有助于实现以下目标：

可追溯性： 绘制“思维树”（即推理过程），以便人类能够理解 AI 为何做出某项决策（例如，为什么 AI 先执行步骤三，而不是步骤二）。
成功率： 衡量您所创建的整个代理式系统是否成功。
幻觉检测： 在代理耗费过多资源执行错误操作之前，实时识别并拦截问题。

AI 代理和代理式工作流的自主程度，很大程度上取决于我们赋予它们多少自主权。无论工作流自主程度的高低，AgentOps 始终都是确保可靠性与可监督性的关键。

自主程度	逻辑风格	为什么需要 AgentOps
自主程度最低	先执行 A，然后执行 B，最后执行 C。	捕获 LLM 的幻觉和 API 故障。
半自主	先执行 A，然后在 B 和 C 之间做出选择。	理解 AI 为什么选择 B 而不是 C。
完全自主	这是我们的目标。可自行找出达成目标的方法。	理解推理过程、评估方式及优化策略。

探索代理式 AI 用例

代理式工作流有助于创造性地解决问题，但这种创造力需要加以管理，以免系统失控。AgentOps 通过观察、评估、治理和优化代理式系统，有助于降低代理式 AI 的风险。

可观测性

代理按照“思考-行动-观察”的模式循环运行，整个过程看起来就像是在“推理”。如果这个过程中出现错误，整个任务就会偏离原定轨道，无法按计划顺利完成。如果代理做出了出人意料的举动，您就需要审视其逻辑以找出错误。AgentOps 提供可追溯的推理链条，让人类能够看清错误决策的根本原因。

实时评估

当主代理工作时，借助 AgentOps 配置额外的监督代理，对其行为进行实时监控。如果监督代理发现主代理产生幻觉或正在偏离目标，它便可以暂停系统，或者标记系统，以便人工干预。

治理

当我们将任务委托给代理时，需要设置护栏。护栏是确保 AI 系统在既定边界内运行的屏障。借助 AgentOps，您可以实施“人机协同”（HITL）点，确保代理在未经人工批准的情况下，无法执行高风险操作（例如删除文件或资金支出）。

成本优化

AgentOps 提供详细记录，让您了解代理是否在低效运行。例如，它可能会选用过于昂贵的模型，或者采用过于复杂且消耗过多资源的方式来解决问题。

借助 AgentOps，您可以为系统设置如下指令：

“如果任务成本超过 5.00 美元，则停止任务。”
“如果需要执行超过 20 个步骤才能完成任务，则停止任务。”
“阻止‘删除’命令。”

对于希望实施主权 AI 实践的企业而言，AgentOps 是一个关键要素。主权 AI 强调的是对技术的自主掌控、数据本地化，以及确保 AI 系统符合企业组织自身的价值观与法律要求。

AgentOps 让系统的内部运作变得透明，这从法律角度来看至关重要。毕竟，“是 AI 决定这样做的”并不能成为有效的法律辩护理由。

如今，AI 正从“回答问题的工具”逐渐演变为能够理解上下文的系统。因此，企业组织需要构建语义层和模型上下文协议（MCP）网关，使 AI 代理能够安全地浏览整个企业数据集。AgentOps 可以通过以下方式提供帮助：

跟踪硬件资源的使用情况。
监控幻觉发生率。
确保数据始终保持加密状态。
提供代理所执行操作的可审计日志。
在发生策略违规情况时终止流程。

在主权 AI 系统中，AgentOps 可以提供关于决策、数据流和工具交互的可验证记录，让您能够更好地理解系统的运作方式。

一个完全自主的代理会自行做出决策、自主选择工具并自行纠正错误。这涉及大量复杂的决策过程，从而演变成一个“黑箱”问题。

“黑箱”模型是指因过于复杂而难以理解且/或不展示其运作过程的 AI 模型。这造成了这样一种局面：没有人（包括创建该算法的数据科学家和工程师）能够准确解释模型是如何生成特定输出的。为了解决“黑箱”问题，我们需要可解释 AI。

可解释 AI 是旨在让人类能够理解 AI 行为的一种理念和一套实践方法。AgentOps 则是实现这一目标的工具包。

AgentOps 可提供一份按时间顺序排列的图谱，详细记录 AI 代理的每一次推理循环、工具调用和观察结果。这有助于我们理解代理为什么选择使用某一种工具，而非另一种。它还可以让人类通过强化学习提供反馈，以便在代理出现错误时进行纠正。

例如，AgentOps 可以提供一个界面，让人类能够查看代理执行某项任务的原因。然后，我们可以告诉代理：“步骤三是一个糟糕的决策；它使用的模型成本过高。”

AgentOps 是“Ops”（运维）家族的新成员，与 DevOps、AIOps、MLOps 和 LLMOps 等概念一脉相承。下面我们简单看看这些不同类型的运维，以及它们是如何协同工作的。

DevOps 是所有其他运维实践的基础。DevOps 是一套旨在确保任何软件均能可靠地构建、测试和部署的实践方法，它的目标是加快软件交付速度。
AIOps（面向 IT 运维的 AI）旨在将 AI 应用于 DevOps。AIOps 的目标是利用 AI 实现 IT 运维自动化，并在问题发生之前加以防范。它有助于监控服务器并防止系统崩溃。
MLOps（机器学习运维）旨在管理机器学习模型的生命周期。MLOps 其目标是确保模型在持续接收新数据时，准确率不会随着时间推移而发生“漂移”（drift）。
LLMOps（大语言模型运维）是 MLOps 的一个子集，专门用于管理大语言模型。LLMOps 的目标是管理提示词、减少幻觉现象，并降低 API 调用的成本。

了解红帽如何助力 AIOps

这一切与 AgentOps 有什么关系？

要借助 AgentOps 运行可靠的企业级产品，您必须已经具备 LLMOps 和 DevOps 的相关基础。AIOps 和 MLOps 也会有所帮助。让我们来看看它们如何协同工作：

DevOps：要创建代理，首先需要代码。而这些代码需要通过可靠且可扩展的方式在服务器之间处理与运行。DevOps 可确保这一切顺利实现。
LLMOps：LLMOps 负责处理用户提示词的逻辑，并协助代理将其转化为行动方案。
MLOps：MLOps 可确保代理所访问的机器学习模型准确无误。这可能包括：自动利用最新数据更新模型，并确保代理调用的是新更新的模型，而非旧版本。
AIOps：如果一台服务器崩溃，可能会触发上千条警报。AIOps 能够识别出所有这些警报均源自同一事件，并仅向相关人员发出一条“重大事件”警报。这不仅更高效，还能减少混乱。

您应将 AgentOps 应用于代理式工作流的各个阶段——从运维基础能力到安全措施，再到高级扩展。

您需要从运维基础能力开始构建。这意味着要确保以下核心系统已就位：

标准化协议

为了让 AI 代理能够在数字生态中协同运行，它们需要与所使用的工具共享一套通用语言。MCP 能够为 AI 应用与外部服务建立双向连接，并提供标准化的交互协议。如果没有像 MCP 这样的标准化协议，代理式 AI 即使具备推理与规划能力，也无法真正调用和操作外部系统。

错误处理机制

在处理代理式工作流时，必须考虑到系统的不稳定性和能力局限。这意味着要在系统内制定相应的保障策略，以便在出现错误时能够妥善处理，就像为应对车祸提前准备好安全气囊一样。这些有时被称为“自我修复”能力。

重试逻辑：有时，代理所使用的系统中的某些组件会暂时出现故障，造成不稳定。与其直接中断整个工作流，更合理的做法是建立重试逻辑作为防护机制。这意味着需要提前创建指令，说明如何继续执行操作并进行自我纠正，从而避免陷入无限推理循环（以及产生高昂费用）。
回退模型：当主模型无法胜任工作或成本过高时，这个备用模型可以接替工作。例如，如果您的代理正在使用 OpenAI，而该服务发生故障，那么您的代理可以切换到本地模型（例如 Llama 3）。

工具护栏

如果说错误处理机制是发生碰撞时弹出的安全气囊，那么护栏就是提前防止碰撞发生的刹车系统。企业可以为 AI 代理设置明确边界与规则，例如：未经人工确认，不允许执行删除文件等高风险操作。

治理与合规

通过治理与合规措施，您可以确保所有代理的操作都有日志记录，且可追溯问责。这一点在需要严格遵守《通用数据保护条例》（GDPR）或《健康保险流通与责任法案》（HIPAA）等隐私法律的领域尤为重要。

内存优化

如果对话历史记录过长，代理可能会“犯迷糊”。这会超出其上下文窗口的承载能力，并可能引发注意力偏移，从而导致产生幻觉，或使其完成目标的能力受损。vLLM 能够帮助企业优化内存资源使用。它通过 PagedAttention（一种内存管理技术），让代理式系统能够以更高效率处理长上下文历史，并实现规模化运行。即使工作流复杂度不断增加，vLLM 依然能够保持高性能，因此非常适合代理式 AI 场景。

了解有关 vLLM 的更多信息

多代理协作框架

多代理协作是指为多个独立的大语言模型（LLM）分配不同角色、记忆和工具的实践。您可以让一个代理担任“研究者”的角色，另一个担任“构建者”的角色，两者通过相互传递消息来生成最终输出。多代理协作的目标是通过促使代理相互协作、彼此评判，从而克服单一模型的局限性。

自主性方面的困境

自主性既可能带来惊人的成果，也可能导致混乱。确定恰当的代理自主程度是一项颇具挑战性的任务，这需要花费大量时间设置护栏，以达到理想的平衡。为应对这一问题，开发人员应实施“人机协同”审核节点，确保代理仅在批准的界限内行动。

道德与合规问题

代理以目标为导向，可能会“创造性地”选择走捷径，例如为达成交易而向客户提供未经授权的折扣。这可能违反公平贷款法或内部政策。要解决这一问题，需要建立策略实施机制并进行审计，以确保代理的自主行为符合法律和企业标准。

隐私问题

由于代理能够访问大量数据源，因此也存在敏感信息被意外泄露的风险。对此，可以通过建立“禁止操作”清单等方式进行防护。

意外成本

代理通常会不断循环执行“思考-行动-观察”的过程，而这种循环有时会迅速扩大规模，并带来高额资源消耗。因此，必须未雨绸缪，设定预算上限并建立安全网，以避免消耗过多资源。

可扩展性

在一台笔记本电脑上运行一个代理，与同时运行 1,000 个执行不同工作流的代理，两者有着天壤之别。利用分布式推理、llm‑d 和 vLLM 等工具，有助于管理运行代理集群所需的大量内存和计算资源。

以下是关于企业如何利用 AgentOps 来帮助管理工作流的一些示例：

金融监察体系

一组代理负责每日监控数千笔交易，并标记欺诈或政策违规行为。它们的工作流程包括采集数据、将数据与内部政策进行交叉比对，并标记可疑活动以供人工审核。

自主帮助台助手

代理具有在沙盒环境中测试和修复代码的能力。当提交工单时，代理会在沙盒中复现该漏洞，编写可能的修复方案，然后运行测试。当代理对如何解决问题有了明确的方案后，便会通知相关人员进行审核并批准代理的工作。

供应链监督机制

代理式系统会监控全球天气、船运工人罢工和港口拥堵情况。它会向团队发出天气异常警报，计算更改航线的成本，并提出调整方案。

红帽® AI 通过专用的 AgentOps 控制平面，实现代理整个生命周期的运营化落地。这意味着，无论部署在何种混合云环境中，企业都能够获得更安全、可观测且高效的 AI 运行能力。

平台还通过集成的安全护栏提供企业级治理能力。它的底层基础架构采用 vLLM 和 llm‑d，以实现高性能分布式推理，因此您可以将资源密集型工作流扩展至从本地数据中心到边缘环境的各种场景。

红帽 AI 还通过基于 vLLM 的推理服务器，提供快速、灵活且高效的模型推理能力。它能将模型与您的数据可靠地连接起来，在单一平台上统一实现专用代理的定制与开发。依托开源基础架构，红帽的 AI 产品能够帮助企业在任意规模下，对 AI 工作流实现端到端的全面掌控。

扩展阅读

AIOps 详解

AIOps 即“面向 IT 运维的 AI”（AI for IT operations），是一种利用机器学习及其他先进 AI 技术来实现 IT 运维自动化的方法。

什么是机器学习？

机器学习是一项训练计算机找到模式、做出预测并从经验中学习且无需明确编程的技术。

什么是生成式 AI？

生成式 AI 是一种人工智能技术，依赖基于大数据集训练的深度学习模型来创建新内容。

AI/ML 相关资源

特色产品

红帽 AI

灵活的解决方案，可加快 AI 解决方案在混合云环境中的开发和部署。