一个运维老兵的AI工具箱:5个工具每天怎么搭配用
做运维10多年,我试过很多AI工具,最后留下了5个。它们各有各的活,适合自己才是最好的。
先说结论
我现在的AI工具链长这样:
| Hermes | ||||
| WorkBuddy | ||||
| OpenClaw | ||||
| Claude CLI | ||||
| Obsidian |
你可能觉得:一个运维人用5个AI工具,是不是有点多?
真不多。因为不同的问题,需要的AI不一样。就像你修服务器不会只用一把螺丝刀一样。
下面我一个个讲,每天怎么用。
一、Hermes + Kimi:排错我先问它
Hermes Agent 是今年2月刚出的开源AI Agent,2个月就拿了99k Stars。我对接了Kimi模型,专门用来做K8s排错。
为什么选Kimi?
说实话,我试过好几个模型做K8s排错:
Kimi对K8s的理解确实强,特别是那种"Pod一直CrashLoopBackOff"的链路排查,它能一步步给你捋清楚。
我每天怎么用:
# 典型场景:Pod启动失败我:K8s有个Pod一直CrashLoopBackOff,怎么排查?Hermes+Kimi:1. 先看Pod事件:kubectl describe pod <pod-name>2. 看容器日志:kubectl logs <pod-name> --previous3. 常见原因排序: - 镜像拉取失败(ImagePullBackOff) - 资源不足(OOMKilled) - 配置错误(ConfigMap/Secret缺失) - 健康检查失败(Liveness/Readiness Probe)4. 根据你的事件输出,最可能是XXX,建议先执行XXX命令最爽的功能:排完错自动出笔记
Hermes对接了Obsidian,每次排错完,它自动把故障现象、排查步骤、根因、解决方案写成结构化笔记,存到我的Obsidian知识库里。
以前排完错就忘了,现在每一条都有记录。月底写周报的时候,直接从Obsidian里拉,不用再回忆"这周到底干了啥"。
二、WorkBuddy + GLM-5.1:搞不动的才上它
Hermes+Kimi很强,但有些问题它确实搞不定。比如:
• Kafka集群假死,Pod重启了但broker注册不上 • ES集群yellow状态,分片分配策略怎么调都不对 • SPDK存储层的NVMe问题
这些问题有个共同特点:不是标准问题,网上比较难搜不到,需要深度推理。
GLM-5.1在这方面确实比其他模型强一截。智谱的GLM-5是744B参数的MoE架构,在SWE-bench上排名很靠前,中文理解力也是国产模型里最强的。
真实案例:
前阵子K8s集群出了个怪事——某个命名空间下突然出现9802个Failed Pod,全部集中在4台8C/16GB的节点上。Hermes+Kimi给了排查方向,但根因分析不够深。切到WorkBuddy用GLM-5.1,它直接指出了资源竞争导致的级联失败,还给出了节点资源限制的优化方案。
我的使用原则:
Hermes能搞定的,不麻烦WorkBuddy。不是因为WorkBuddy不好,而是把重炮留给硬仗。
三、OpenClaw + 火山-Code:便宜好用的轻量选手
OpenClaw是目前大热门的龙虾工具,我选了对接火山引擎的Coding Plan,一个月才40块。
为什么是火山?因为大家日常用的豆包比较好用,所以之前就体验下他家的模型
火山引擎的Lite套餐虽然叫"火山-Code",通过火山云后台可以切换Kimi K2.5等模型。目前还能有coding plan的已经快要买不到了,建议先留着
我主要用它做什么:
• 自动化任务,日入每天推送AI新闻和热点 • 快速查个命令、问个简单问题、写点简单的脚步 • 不需要深度推理的轻量场景
它就像我桌上的便签本,随手记一笔、查一下,不需要打开主力工具。
四、Claude CLI + cc Switch:写代码时切模型像换挡
Claude CLI是Anthropic官方的命令行工具,可以直接在VSCode的终端里用。cc Switch是个模型切换插件,可以一键在不同模型之间切换。
我配置了5个模型:
1. 火山-Code(默认)—— 写Shell/Python脚本,响应快 2. Kimi K2.5(fallback#1)—— 复杂逻辑、需要理解上下文时切过来 3. Kimi K2P5(fallback#2)—— 备用 4. 小米 Mimo-V2—— 轻量查询,速度快 5. 百炼—— 偶尔用
实际操作:
# 写个简单的巡检脚本,用火山模型就够了cc switch volcengine-plan"帮我写个K8s节点资源巡检脚本,检查CPU/内存使用率超过80%的节点"# 遇到复杂逻辑,切Kimicc switch kimi-k2.5"这个脚本需要加个判断:如果连续3次超阈值才告警,避免误报"# 写完了,切回默认cc switch volcengine-plan这种体验就像开车换挡——平路用5档省油,爬坡切2档有力。一个工具搞定所有场景,不用开5个终端。
五、Obsidian + Hermes:排障记录不用手动记
Obsidian是我最近采用的的笔记工具,和Hermes对接之后,它变成了我的知识大脑。
工作流:
排错过程(Hermes+Kimi) │ ├── 对话中自动记录关键步骤 │ └── 排错完成后 → Hermes自动生成结构化笔记 │ ├── 故障现象 ├── 排查步骤 ├── 根因分析 ├── 解决方案 └── 预防措施 │ └── 存入Obsidian → /Hermes/故障排查/我的Obsidian目录结构:
Obsidian/Hermes/├── 故障排查/ ← 每次排障自动生成├── 工作周报/ ← 月底从排障记录自动汇总├── 运维手册/ ← 重复问题的解决方案归档├── 教学文档/ ← 课程相关内容└── 个人事务/ ← 个人事务等月底写周报的时候,我只需要告诉Hermes:"把这周的排障记录整理成周报",它就会自动从Obsidian里提取内容,按我的周报模板生成。
以前写周报要花2小时回忆+整理,现在5分钟搞定。
六、每月花费和选择建议
| 合计 | 约¥120左右/月 |
如果你也想搭一套类似的:
最后说两句
有人问我:"用5个AI工具,不累吗?"~~~
真不累。因为每个工具我只在它最擅长的场景用,不存在频繁切换的负担。
打个比方:
• Hermes+Kimi 是我的听诊器——日常诊断,快速定位 • WorkBuddy+GLM-5.1 是我的CT机——疑难杂症,深度扫描 • OpenClaw+火山 是我的便签本——随手记录,轻量查询 • Claude CLI+cc Switch 是我的手术刀——写代码时精准操作 • Obsidian 是我的病历本——每一条记录都在,随时翻阅
10+年运维经验告诉我:工具不在多,在于搭配得当。
我是老张,10+年互联网运维老兵。每天分享一线排障经验和AI工具实战。关注「老张聊运维」,下期讲Hermes+Kimi怎么做K8s排错。
夜雨聆风