AIOps探索:Hermes可能是现阶段最适合做AIOps的Agent(附可行性落地思路)

↑↑↑ 点击关注，分享IT技术|职场晋升技巧|AI工具

研究AIOps已有数月，目前手里有不少可落地的方案了，接下来会把这些方案全部整理到我的大模型课程里。欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。

OpenClaw的热度已经过去了，很多搞自媒体的、搞技术的甚至我们运维圈里也有不少朋友都在用它给自己打工。效果到底怎么样，只有深度用过它的人才能说的清吧。对于我的需求场景来说，确实能帮我做不少事儿，也确实能提效，但远远没有预想的那么牛逼。

而最近呢又出来一个跟OpenClaw类似的竞品：Hermes Agent（下文简称Hermes），业界不少人叫它“爱马仕”。这玩意，最大的优势就是可以自我学习、自我进化，这个能力主要归功于它的“记忆”系统。

而咱们运维领域不就需要这种“自我进化”的超级Agent吗？所以，这两天我就在琢磨能不能把Hermes深度用于AIOps体系里。于是，今天这篇文章就产生了。

01｜为什么Hermes适合做AIOps

真正的运维工作，从来不是一次性的。

它是连续的、上下文密集的、经验驱动的。它需要记住你们系统的历史问题，理解你们业务的依赖关系，知道某类告警在你们环境里意味着什么，知道哪个指标抖动是噪音，哪个日志模式其实是事故前兆。

说白了，运维最值钱的部分，不是“会查资料”，而是会积累经验，会复用经验，会把经验越滚越厚。

而这，恰恰是我觉得Hermes最有意思的地方。它不是只想做一个会调用工具、会跑任务的agent。它真正想做的是一个带学习闭环的agent：

会在交互中积累上下文
会保留长期记忆
会沉淀技能
会在后续任务里复用这些技能
甚至可以继续改进自己的技能和工作方式

这意味着它天然就非常适合那些不是一次性任务，而是长期演化型任务的场景。而AIOps，恰恰就是这种场景。

为什么说AIOps这个方向，Hermes天然合适？因为运维、排障、故障定位、根因分析，本质上都特别依赖三件事：

第一，经验。很多问题不是“有没有标准答案”，而是“你有没有见过”。

第二，上下文。一次故障从来不是孤立的，它背后往往挂着变更记录、依赖关系、历史告警、拓扑结构、机器状态、日志模式、链路异常。

第三，持续优化。真正厉害的运维体系，不是每次从头排障，而是同类问题下次再出现时，可以更快定位、更快处置、更少踩坑。

你会发现，这三件事，刚好都不是传统问答式 AI 最擅长的。但它们却非常符合 Hermes这种“会记、会学、会沉淀”的agent形态。

02｜基于Hermes做AIOps平台的思路

我觉得运维这件事，最有价值的并不是你做出来多么牛逼的一个运维平台，而是平台背后越来越厚的经验。

比如：

你们系统里，哪个告警经常是虚报、假报
哪类错误日志通常意味着上游依赖超时
某个业务在大促前后，哪些波动其实是正常现象
某个服务抖动时，先查什么最有效
某个故障在你们组织内部，最靠谱的处理路径是什么

这些东西，不太像“固定规则”，更像“组织经验”。而组织经验最适合由什么来承载？

它不是一个死规则引擎，也不是一个一次性回答器，而是一个持续工作并且能持续进化的载体。Hermes不就是这样的载体吗？

所以我更看好的一种思路是：不要只想着把大模型接进运维平台。而是反过来：把Hermes这个智能体放到运维平台正中间。也就是说，把Hermes当成核心引擎，然后围绕这个引擎，再去补企业级平台能力。

如果按这个思路去设计，一个比较合理的架构会是这样：

一层：Hermes负责“思考、决策、学习”

它是整个 AIOps 平台的大脑，主要负责：

理解告警和运维指令
组织上下文
调用工具
串联排障流程
做阶段性判断
生成诊断结论
从一次次故障处理中沉淀经验
把经验转化成可以复用的 skill

换句话说，它不只是“接问题”，而是接管整个智能闭环。

二层：在Hermes外围补齐平台能力

这个平台层，至少应该补四块：

MCP 中心
Skill 中心
用户和权限体系
API 能力

我觉得这四块，基本就是把Hermes产品化、平台化、企业化的关键。

03｜AIOps平台的4个核心能力

1）MCP 中心：把所有运维系统都接到Hermes身上

如果Hermes是大脑，那MCP中心就是它的“神经系统”。因为运维现场最怕的不是“AI 不聪明”，而是“AI 什么都看不到”。

它如果拿不到监控数据、日志、链路、拓扑、变更记录、工单、发布信息、集群状态，它再聪明也只能猜。

所以第一件事，就是把企业现有的运维生态，统一接到Hermes上：

监控系统
日志系统
链路系统
CMDB
发布系统
工单系统
值班系统
Kubernetes / 云资源平台
数据库和中间件控制面
内部知识库 / Runbook / Wiki
ChatOps / IM / 邮件告警

这样，Hermes才不是一个“会说运维术语的聊天机器人”，而是一个真的能进现场、看数据、拉上下文、做动作的运维智能体。

但MCP中心不能只做“连接器市场”。它还必须承担平台治理角色，比如：

工具注册与发现
接入规范
版本管理
权限控制
调用审计
高风险操作审批
安全隔离

因为一旦agent真正开始接生产系统，你会发现最重要的已经不是“接没接上”，而是“接上之后怎么安全地用”。

2）Skill 中心：把运维经验变成平台资产

这是我觉得最有想象力的一层。很多公司做运维智能化，最后容易卡在一个地方：系统很强，但经验不沉淀。

今天某个专家处理了一个复杂故障，很精彩。明天另一个同学再遇到类似问题，还是得从头来一遍。这就很可惜。

而Hermes的skill机制，刚好给了一个很好的承载方式。我们完全可以把Skill中心做成“运维经验的产品化平台”，用来沉淀这些东西：

告警分级策略
服务排障 SOP
数据库诊断流程
中间件故障处置套路
发布失败回滚步骤
RCA 分析模板
事故复盘模式
各业务线特有的故障经验

更关键的是，它不应该只是人工录入的知识库。它应该是一个动态闭环：

一次真实故障处理完成后，Hermes从中抽取可复用步骤 → 生成skill草稿 → 专家审核 → 上线复用 → 后续继续优化。

这个闭环一旦跑起来，平台的价值就不只是“帮你处理故障”，而是：每处理一次故障，都在给平台增加能力。

这种模式就像是一个“会长大的运维系统”，这不正是我们想要的吗？

3）用户和权限体系：决定它能不能真的上生产

运维场景天然就是高权限、高风险场景。查日志和重启服务，根本不是一个风险等级。看监控和改流量，也不是一个风险等级。

所以如果Hermes要成为AIOps核心引擎，那它外面必须有完整的用户和权限体系：

用户身份管理
组织隔离
团队角色
环境隔离
工具级权限
数据级权限
动作审批
审计留痕

比如：

研发可以看指标、查日志，但不能执行生产动作
值班 SRE 可以执行低风险自动化
数据库动作必须走 DBA 权限
涉及生产变更、重启、流量切换的操作必须审批
Agent 每一次调用什么工具、拿了什么数据、做了什么判断，都必须能回溯

只有把这层补齐，Hermes才能从“聪明”变成“可用”。

4）API能力：让AIOps平台变成全公司都能调用的智能底座

这一层也非常关键。因为真正的平台，不能只停留在一个聊天框。

如果Hermes只是一个对话界面，那它最多是个助手。但如果它有标准API，它就能变成整个企业的智能运维底座。比如提供如下API：

告警接入API
智能诊断API
根因分析API
Runbook执行API
事故复盘API
Skill 查询/ 发布 API
MCP管理API
权限和审计API

这样它就可以接到各种系统里：

监控平台触发自动诊断
工单系统自动拉取RCA结果
ChatOps机器人查询排障建议
发布平台做变更风险分析
运营平台展示故障处理链路
领导驾驶舱读取事故总结和趋势

到这一步，它就不再是一个孤立的agent产品，而是企业运维系统里的“智能核心服务”。

04｜先从简单场景落地开始

基于以上思路，我觉得最适合落地起步的，是下面三个场景。

场景一：告警智能助手

这个最容易切进去，也最容易体现价值。当告警来了以后，Hermes自动去拉：

指标变化
关联日志
最近变更
依赖服务状态
历史相似故障
责任团队信息

然后给出一个结构化结果：

告警摘要
影响范围
疑似根因
排查建议
推荐升级路径
建议通知人

这个场景的价值非常直接：把值班同学从“到处翻系统”变成“直接接收上下文完整的诊断入口”。

场景二：故障排查Copilot

这比告警助手更进一步。它不是只“告诉你发生了什么”，而是能按skill去引导整个排障过程。比如：

先查最近变更
再查上游依赖
再聚类错误日志
再看关键指标转折点
再检索历史相似案例
最后生成阶段性判断

这个时候，Hermes的优势就会特别明显。因为这已经不是单轮问答，而是真正的“连续故障处理”。

场景三：根因分析和复盘助手

这可能是长期价值最高的场景。因为它不仅帮助你在事故过程中动态分析，还能在事故结束后，把整个过程沉淀下来：

还原时间线
汇总关键信息
归纳疑似根因
生成复盘初稿
抽取可复用经验
形成skill候选

你会发现，一旦做到这一步，事故处理和经验沉淀就真正连起来了。这个能力可能是AIOps最稀缺的地方。

顺便介绍下我的大模型课：我的运维大模型课上线了，目前还在预售期，有很大优惠。AI越来越成熟了，大模型技术需求量也越来越多了，至少我觉得这个方向要比传统的后端开发、前端开发、测试、运维等方向的机会更大，而且一点都不卷！

扫码咨询优惠（粉丝优惠力度大）

·············· END ··············

哈喽，我是阿铭，《跟阿铭学Linux》作者，曾就职于腾讯，有着18年的IT从业经验，现全职做IT类职业培训：运维、k8s、大模型。日常分享运维、AI、大模型相关技术以及职场相关，欢迎围观。