AIOps 智能体的三层分工:规则引擎 + Agent + 人的工程方案

LLM

drbool

AIOps · 大模型 · AI Agent

原创

Gartner 预测：到 2029 年，70% 的企业将部署智能体自主运维 IT 基础设施（2025 年这一数字还不到 5%）。
这意味着未来三到四年，AIOps 智能体会从"PPT 概念"全面走向"生产闭环"。但闭环不是一蹴而就的——它需要一个清晰的工程化分层框架，让规则引擎、智能体、专家各归其位、各尽其责。
本文提出一份 L1 / L2 / L3 三层分工的工程方案——整合行业既有最佳实践，并加入我们在金融行业方案设计中形成的若干工程视角，覆盖从告警治理到智能诊断、从预案执行到 AI 治理的完整路径。

一、AI-First 运维落地的真问题

在与金融行业客户的方案沟通中，我们反复遇到一个普遍的困惑：

"我们要不要做 Agent？""做了 Agent 之后，原来的告警平台、规则引擎是不是就可以下线了？""Agent 上去之后，运维团队是不是要砍一半？"

这些问题之所以让人犹豫，是因为它们都在问"要不要替代"。但 AI-First 运维落地的真问题，从来不是"用 AI 替代一切"——而是：

为不同层级、不同性质的运维工作，匹配最合适的技术与最合适的角色。

什么样的工作适合规则引擎？什么样的工作适合智能体？什么样的工作必须由人来做？这三类工作之间如何协作、如何升级、如何沉淀？

回答这一组问题，就需要一个分层框架——L1 / L2 / L3 三层分工模型。

二、L1 / L2 / L3 三层分工总览

L1 / L2 / L3 这个分层最早来自传统的服务台支持模型（Tier 1/2/3 Support）。在 AI-First 运维语境下，我们对它做了重新定义：

层级	名称	核心任务	主导技术	主导角色	关键指标
L1	自动化执行层	告警治理 + 预案执行	规则引擎 + Agent + MCP	Agent 主导	自动闭环率、压缩比、执行时延
L2	智能诊断层	跨域关联 + 根因定位	LLM + RAG + Agent	Agent + 人审核	根因命中率、诊断时长
L3	专家与治理层	架构决策 + AI 治理	人 + 治理平台	人主导	重大事故数、SOP 覆盖率、Agent 合规度

三层之间不是孤立的，而是构成一个向上升级 + 向下沉淀的闭环：

向上升级
L1 解决不了的升 L2，L2 解决不了的升 L3
向下沉淀
L3 的经验沉淀为 SOP → 回流 L2 知识库 → 落到 L1 预案库

下面我们逐层展开。

三、L1：自动化执行层

L1 是 AIOps 智能体平台的"地基"，也是日常运维工作量最大的一层。

L1 的工作可以拆成两个性质完全不同的子任务，由两种不同的技术分别承担：

3.1 模块一 · 告警治理：规则引擎的主场

告警治理包括：

告警接入
Webhook、Syslog、SNMP Trap、Prometheus、Zabbix……
去重
同源同指纹合并
抑制
父告警抑制子告警、维护期抑制
聚合
按业务、按拓扑、按变更窗口聚合成事件
告警丰富
注入 CMDB 资产信息、关联变更单、关联值班人
路由
根据规则分派给对应团队/系统

这些工作有一个共同特征：高频、确定、可审计、强 SLA。

超大型银行一天的告警量轻松上百万条，瞬时洪峰可能到每秒数千条。这种工作量、这种确定性要求，正是规则引擎几十年行业演进沉淀下来的最优解：

维度	规则引擎的特点
处理时延	毫秒级
单条成本	近乎为零
吞吐能力	万级 QPS 易达
可解释性	规则即解释
合规审计	规则可静态审查、可回放
出错恢复	调规则即可生效

在金融行业，可审计性和可解释性尤其关键——监管会问你："为什么这条告警被压制了？为什么这条告警归到了那个事件下？"你必须能拿出规则配置、决策日志、聚合路径来解释。这是规则引擎得天独厚的优势。

所以 L1 的告警治理模块，用流式计算 + 规则引擎（CEP / 决策树 / DAG）做底座，把每秒成千上万的原始告警压缩成清晰的、丰富过的事件。这一步的产出，就是下一个模块——事件处置——的输入。

3.2 模块二 · 事件处置：规则引擎与 Agent 的二次分工

收到一个清晰的事件之后，下一步就是自动执行预案、Runbook，把问题闭环。但这一段内部还有一个很多方案里被忽略的工程二分：预案执行不全是 Agent 的事，规则引擎在这里仍然有重要角色。

路径 A：规则引擎直派确定性预案

对于已经在历史复盘中收敛的故障模式，告警的组合特征本身就足以确定处置方案：

[告警 A] + [告警 B] + [资产维度 X] → 执行预案 #007

这类场景的特点是：

处置路径已经经过多轮验证，无中间判断需求
直接关联到预定义的脚本（Ansible Playbook / SaltStack 状态 / 内置 Action）
毫秒级触发、零 LLM 推理成本、强可审计

例如：服务进程崩溃 + 健康检查失败 + 该服务在白名单内 → 直接走"重启 + 通知值班"脚本。这种场景上 Agent 是浪费——规则引擎几条 IF-THEN 就解决，反而更快、更便宜、更可审计。

路径 B：Agent 解析 Runbook 并智能执行

对于尚未完全收敛、需要根据现场情况判断的故障，由 Agent 读取自然语言 SOP，通过 MCP 协议调用工具链，完成多步推理与中间决策。

举一个具体的例子——磁盘空间告警的处理：

1. 收到事件："prod-db-03 /data 磁盘使用率 92%"
2. 选择 SOP：磁盘清理预案 v3.2
3. 通过 MCP 协议登录目标主机
4. 执行 du -sh /data/* | sort -h，找出大文件
5. 根据 SOP 判断：
   - 如果是日志 → 按归档策略清理
   - 如果是临时文件 → 按规则清理
   - 如果是业务数据 → 不动，升级到 L2
6. 执行清理，验证磁盘使用率
7. 写入工单系统，通知值班人

这件事为什么交给 Agent 而不是写死的脚本？因为：

Runbook 是用自然语言（甚至中文）写的，不是结构化代码——LLM 能直接读懂
每个客户每个业务的 SOP 都不一样，写死规则维护成本极高——Agent 用同一套引擎吃掉所有 Runbook
中间步骤需要根据命令输出做小决策（按 SOP 分支）——这是 Agent 擅长的
涉及调用多种工具：SSH、监控、CMDB、ITSM、IM——MCP 协议帮 Agent 串通全栈
遇到预案外情况，Agent 可以选择"安全退出，升级到 L2"——这是规则引擎做不到的优雅降级
每一次执行都被 Trace（如 Langfuse）记录
——可观测、可回放、可审计

两条路径不是非此即彼，而是一个"成熟度连续谱"

一个处置流程的演进路径通常是：

随着多次复盘积累，可标准化的处置路径会从 Agent 层"沉淀"到规则引擎层——这是 L1 内部的反馈进化闭环。

优秀的 AIOps 平台不是"Agent 越用越多"，而是"Agent 处理过的成熟流程稳步下沉到规则引擎"，让运维成本随时间持续下降、确定性随时间持续提升。

3.3 两个模块的工程接力

告警治理与事件处置不是替代关系，而是一次干净的工程接力——而且事件处置内部还有规则引擎与 Agent 的二次分工：

规则引擎在 L1 内部承担两个职责：把噪声变信号（告警治理），以及把已收敛的信号直派为动作（确定性预案）；Agent 的职责则是处理尚未收敛的复杂事件——读懂 SOP、调用工具、完成多步行动。两者各取所长，组成 L1 这一层完整、立体、可演进的自动化执行能力。

四、L2：智能诊断层

L1 把"标准动作"做完之后，剩下需要诊断、推理、判断的复杂事件，就进入 L2。

L2 处理的是"基于不完整信息做推理"的问题，典型场景包括：

跨域 RCA
交易成功率从 99.9% 跌到 99.2%，到底是网络？数据库？应用？还是某个上游依赖？
变更影响分析
上午 10:15 的某个发布，是否与现在的异常有因果？
慢调用诊断
哪个 Span 慢？慢在 GC 还是慢在锁？还是慢在下游 RPC？
历史故障匹配
当前的故障特征，跟知识库里哪个历史 Case 最相似？

这些工作的共同特征是：

数据多源
指标、日志、Trace、CMDB、变更、值班记录、知识库
路径多分支
没有固定的诊断流程，需要根据中间发现持续调整
知识依赖强
需要历史故障库、领域知识、SOP
结果带置信度
根因可能不止一个，需要排序输出

4.1 Orchestrator-Worker 多智能体架构

多智能体系统在工程实现上有两条不同的技术路线：

主智能体驱动子智能体（Orchestrator-Worker）
主 Agent 负责任务分解、调度和汇总，子 Agent 各司其职、被动执行。控制流是清晰的树状结构。
多智能体对话（Multi-Agent Conversation）
多个 Agent 平等参与共享对话、互相回应。控制流是网状的，下一个发言者由协议决定或 Agent 自荐。

在 AIOps L2 诊断这种强 SLA、强合规、强成本控制的生产场景下，必须选择 Orchestrator-Worker 路线：决策链是清晰的树状结构、每一步都可回放可审计、调用范围由主 Agent 明确控制、整体延迟和成本可预测。Multi-Agent Conversation 路线更适合开放式研究、创意生成等没有强约束的场景，不适合直接落到生产运维。

我们的 L2 诊断系统采用如下角色编排：

角色	架构类型	业务职责
Triage Agent	Orchestrator	分诊事件、规划诊断路径、调度 Worker、决定何时收敛
Metric Analyzer	Worker	指标异常检测、相关性分析
Log Analyzer	Worker	日志聚类、模板提取、异常日志识别
Trace Analyzer	Worker	Span 分析、调用链定位
Change Correlator	Worker	变更-故障关联分析
Knowledge Retriever	Worker	基于 RAG 检索历史相似案例
Synthesizer	Worker	综合各 Worker 的输出，产出结构化诊断报告

架构层面只有两类角色——Orchestrator 与 Worker，Worker 之间不直接通信，全部由 Orchestrator 调度协调。Synthesizer 的"综合归纳"是业务职能，不是独立的架构角色；在工程实现上它既可以拆为独立 Worker（便于独立 Prompt 调优和评估），也可以合并进 Orchestrator（节省一跳调用），看综合逻辑的复杂度而定。

这种架构的好处是：

能力可插拔
新增一种数据源，就新增一个 Worker，Orchestrator 编排逻辑不变
可观测可调优
每个 Worker 的输入/输出/决策都独立 Trace，便于评估和优化
成本可控
Orchestrator 根据事件特征决定调几个 Worker，避免每次都把所有 Worker 都跑一遍
可降级
单个 Worker 失败不影响整体诊断，Orchestrator 可以基于剩余信息给出降级结论

4.2 两种成熟度阶段

L2 的落地不是一步到位，而是分两个阶段演进：

阶段	模式	适用场景
起步期	Agent 诊断 + 人审核	重要业务、复杂故障
成熟期	Agent 诊断 + 自动闭环	已积累足够 SOP 与置信度的标准故障

绝大多数客户应该从"Agent 诊断 + 人审核"开始——这既符合金融行业合规要求，也是让 SOP 库、知识库、预案库不断沉淀的现实路径。诊断结果由 Agent 给出，工程师做最终决策；每一次决策都被记录下来，回流到知识库，让下一次诊断更准。

五、L3：专家与治理层

L3 在传统模型里就是"专家兜底"。在 AI-First 运维时代，L3 多了一个全新的、非常重要的职责：对 AI 系统本身的治理。

5.1 经典专家职责

架构级问题处理
故障根因涉及架构缺陷，需要研发介入
新型故障分析
从未遇到过的故障模式，需要专家定义识别和处置方案
重大事故复盘
业务影响大、跨多系统的事故
合规与审计应对
监管检查、内审、外审

5.2 新增职责：AI 治理（AI Governance）

这是 AI-First 运维带给运维组织的全新工作量：

SOP / Runbook 沉淀
把每次 L2/L3 的处置经验回流到知识库和预案库
Agent 行为审计
定期审查 Agent 的决策链，发现幻觉、错误推理、不当工具调用
能力边界设定
哪些动作 Agent 可以自主执行？哪些必须人工 approve？这是策略问题
模型与 Prompt 治理
模型升级、Prompt 演进、A/B 测试
数据治理
训练数据、知识库、向量索引的质量管控
成本与性能监控
Token 消耗、API 调用、模型选型的持续优化

5.3 L3 角色的转变

L3 不再只是"兜底救火队"，而是"AI 工厂的厂长"。

这是 AI-First 运维组织最稀缺、也最值钱的能力——既要懂运维、又要懂 AI、还要能站在治理视角设计策略。从客户视角看，培养出一支 L3 团队，比上一套 AIOps 平台更难，但价值也更大。

六、三层之间的协作机制：反馈进化闭环

如果只看每一层的分工，这个框架还只是静态的。让它真正"活起来"的，是三层之间的协作机制——一个向上升级、向下沉淀的双向闭环。

6.1 向上升级

事件流转的方向：

L1 → L2
预案没覆盖、Agent 主动退出，或诊断本身就需要跨域分析
L2 → L3
诊断结果指向架构问题、Agent 置信度不足、监管或客户要求人工介入

每一次升级都是一次记录——为什么 L1 没接住、为什么 L2 没拿下，这些信息本身就是宝贵的反馈数据。

6.2 向下沉淀

经验回流的方向：

这就是我们一直强调的 "反馈进化闭环（Feedback Evolution Loop）"——让整个系统具备"诊断越用越准、预案越用越多、人工干预越来越少"的飞轮效应。

没有这个闭环，AIOps 平台永远停在"工具"的层面；有了这个闭环，它才能演进成"组织能力"。

七、落地路径：三个阶段稳步推进

很多客户问："我们现在该从哪里开始？"我们的建议是分三个阶段：

阶段一（0–6 个月）｜打地基

L1 告警治理
用规则引擎搭建告警治理底座，目标告警压缩比 ≥ 70%
L1 事件处置 · 路径 A
盘点已收敛的高频故障模式，接入规则引擎直派（如服务崩溃重启、证书续期、心跳掉线告警关闭等）
L1 事件处置 · 路径 B
选 Top 10 需要中间判断的多步处置场景做 Agent 化（如磁盘清理、Pod 驱逐诊断、链路自检等）
L2 暂不开闭环
先让诊断 Agent 作为辅助工具，给一线工程师用
L3
组建小型治理团队（哪怕只有 1–2 人），开始建立 SOP 沉淀机制

核心目标：让 Agent 替代人做"无聊重复"的事，让一线工程师从"半夜被叫醒"中解放出来。

阶段二（6–12 个月）｜拓宽闭环

L1
预案库扩展到 50+，覆盖大部分高频场景
L2
从"辅助"模式过渡到"Agent 主导 + 人审核"，正式进入生产
L3
治理团队承担 SOP 沉淀、行为审计、边界设定的完整职责
可观测性贯穿全链路
用 Langfuse 等工具把 Agent 的每一次决策都 Trace 下来

核心目标：80% 的告警事件不再需要人工介入。

阶段三（12 个月以后）｜走向自主

L2
在标准故障上实现自主闭环
L3
治理体系成熟化，建立 Agent 行为评估、回归测试、灰度发布机制
业务团队反向消费 AIOps 能力
研发、SRE、风控等团队基于同一套智能体能力做二次开发

核心目标：从"AIOps 平台"演进到"AI-First 运维组织"。

八、对企业的价值

这个三层分工方案，给企业带来的不只是一套技术框架，更是一条清晰的落地路径：

成本可控
规则引擎处理高频低值任务，Agent 处理高价值任务，避免"为 AI 而 AI"造成的成本失控
合规可审
每一层都有清晰的可解释性方案，金融行业的审计场景可以从容应对
风险可控
分阶段落地、人审过渡、安全降级，每一步都不冒激进风险
演进可见
从 L1 到 L3、从辅助到自主，每个阶段都有看得见的 ROI 产出
组织升级
催生出一支懂运维、懂 AI、懂治理的复合型团队，这是企业最宝贵的长期资产

九、写在最后

回到 Gartner 的那个数字——70% 的企业到 2029 年要部署智能体自主运维。

这件事一定会发生，但怎么发生，决定了这 70% 里有多少是真正的生产闭环、有多少只是停留在 PPT 上的闭环。

AI-First 运维不是"用 AI 替代一切"，而是为每一个层级、每一个子任务，找到最合适的技术与最合适的角色——规则引擎做规则引擎该做的事，智能体做智能体该做的事，人做人该做的事。
L1 / L2 / L3 三层分工，就是这个工程化思考的落地框架。

这不是营销叙事，而是工程取向。这份方案目前处于设计阶段，欢迎金融行业同行与运维 / AI 工程领域的朋友一起探讨、批评、完善。

关于布博士 二十年 IT 运维老兵，七年专注智能运维。专栏聚焦 AIOps、LLM 应用工程、Agent 架构与金融行业方案设计。欢迎关注公众号"布博士"，一起把 AIOps 的工程逻辑讲清楚。

◆THE END◆

关注 drbool

专注 AIOps、大模型、AI Agent

技术深耕 · 实践分享

★ 点赞 · 在看 · 转发 ★

扫码关注