研究 AIOps 已有数月,目前手里有不少可落地的方案了,接下来会把这些方案全部整理到我的公众号里。欢迎大家关注,可以把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。
上次有兄弟问我:"OpenClaw 能不能直接装 Prometheus 的 Skill?不想安装MCP。"
这不,我还真去 ClawHub 上搜了搜,结果让我惊喜——还真有!而且社区使用率超高!
今天就来实测一下,用 clawhub install 一键安装 prometheus 这个 Skill,看看效果到底有多丝滑。
一、前置条件
OpenClaw 已安装并运行
Prometheus 服务可访问(本地 localhost:9090 或远程 URL)
已登录 ClawHub
二、搜索可用的 Prometheus Skill
先看看 ClawHub 上有哪些 Prometheus 相关的 Skill:
clawhub search prometheus
返回结果:
prometheus-queryprometheus
两个都能用,但我发现 prometheus 这个使用率更高,说明更成熟稳定。来看看详细信息:
主角:prometheus Skill
clawhub inspect prometheus
Slug: prometheus
Owner: akellacom
版本:1.1.0
创建时间:2026-02-09
最后更新:2026-03-06(持续维护中)
许可证:MIT-0(免费使用、修改、分发,无需署名)
功能描述:Query Prometheus monitoring data to check server metrics, resource usage, and system health. Use when the user asks about server status, disk space, CPU/memory usage, and other monitoring queries.
划重点: 这个 Skill 是 2 月份就发布了,经过了一个多月的社区验证,比昨天刚发布的 prometheus-query 更成熟。
三、一键安装 Skill
装它!命令超简单:
clawhub install prometheus
执行过程:
Installing prometheus...✓ Fetched skill metadata✓ Downloaded skill files (5 files, 18KB)✓ Installed to ~/.openclaw/skills/prometheus✓ Skill registered and enabledInstallation complete!
就这么简单?对,就这么简单!
四、配置 Prometheus 连接
装好之后,需要配置 Prometheus 的连接信息。
编辑 Skill 的配置文件(一般在~/.openclaw/skills/prometheus/config.json):
{ "prometheusUrl": "http://localhost:9090", "username": "", "password": "", "defaultTimeRange": "1h", "timeout": 30000}
如果你的 Prometheus 有认证,填上账号密码:
{ "prometheusUrl": "http://prometheus.example.com:9090", "username": "admin", "password": "your_password", "defaultTimeRange": "1h", "timeout": 30000}
如果是远程访问,确保防火墙放行了 9090 端口:
# 测试连通性curl http://localhost:9090/api/v1/query?query=up
返回类似这样就说明通了:
{"status":"success","data":{"resultType":"vector","result":[{"metric":{"__name__":"up"},"value":[1711872000,"1"]}]}}
五、重启 Gateway 加载 Skill
openclaw gateway restart
用 openclaw status 确认 Skill 加载成功:
openclaw status# 输出示例:Gateway: runningSkills loaded: 12 - prometheus ✓ - ...
六、测试效果
来看下实际对话效果:
场景 1:查询服务器状态
用户问:"服务器状态怎么样"AI 回复:📊 服务器健康状态检查:✅ 整体状态:正常关键指标:CPU 使用率:67.3%内存使用率:72.1%磁盘使用率:58.4%网络流量:正常所有指标都在正常范围内。
场景 2:查询 CPU 使用率
用户问:"CPU 使用率多少"AI 回复:📊 CPU 使用率查询结果:node-01: 89.2% ⚠️node-02: 45.1%node-03: 67.5%平均使用率:67.3%⚠️ node-01 使用率较高,建议关注。
场景 3:查询磁盘空间
用户问:"磁盘空间还够吗"AI 回复:📊 磁盘使用情况:/dev/sda1 (/): 58.4% 已用 (剩余 210GB)/dev/sdb1 (/data): 82.1% 已用 (剩余 89GB) ⚠️/dev/sdc1 (/logs): 45.3% 已用 (剩余 328GB)⚠️ /data 分区使用率较高,建议清理或扩容。
场景 4:查询内存使用
用户问:"内存使用率怎么样"AI 回复:📊 内存使用率查询结果:node-01: 72.3%node-02: 58.6%node-03: 64.1%平均使用率:65.0%整体内存使用正常。
场景 5:查询活跃告警
用户问:"有哪些告警"AI 回复:📊 活跃告警查询结果:🔴 CRITICAL (1):node-01 DiskSpace - 磁盘使用率 95%🟡 WARNING (2):api-server Latency - P99 延迟 2.3sdb-master Connections - 连接数 89/100需要我帮你分析具体原因吗?
场景 6:查询趋势
用户问:"过去 1 小时 CPU 趋势"AI 回复:📈 过去 1 小时 CPU 使用率趋势:时间 使用率 14:00 45% 14:15 67% 14:30 89% ⚠️ 14:45 72% 15:00 67%从趋势看,CPU 在 14:30 有个高峰,可能是定时任务导致的。
七、查看 Skill 源码(可选)
如果你想看看这个 Skill 是怎么实现的,可以直接查看源码:
cd ~/.openclaw/skills/prometheusls -la
文件结构:
prometheus/├── SKILL.md # Skill 说明文档├── index.js # 主逻辑代码├── package.json # 依赖配置├── config.json # 配置文件└── README.md # 使用说明
八、更新 Skill
如果 Skill 有更新,一键升级:
clawhub update prometheus
或者更新所有已安装的 Skill:
clawhub update
九、和 prometheus-query 对比
有兄弟会问:两个 Skill 选哪个?
我来对比下:
维度 | prometheus | prometheus-query |
发布时间 | 2026-02-09 | 2026-03-30 |
版本 | 1.1.0 | 1.0.0 |
使用率 | 高 | 新 |
成熟度 | 社区验证 | 待验证 |
功能 | 可配置的多实例运维工具 | 轻量单点查询工具 |
维护状态 | 持续更新 | 刚发布 |
我的建议:选 prometheus(成熟稳定,使用率高)
十、总结
最关键的步骤就两步:
clawhub search prometheus - 找 Skill
clawhub install prometheus - 装 Skill
clawhub 安装的优势比较明显:
零代码 - 不用写一行代码
社区审核 - 技能经过其他人验证
自动更新 - 有新版本一键升级
可回滚 - 装错了可以卸载重装
使用率高 - prometheus 这个经过了一个多月的社区验证
十一、下一步
这个 Skill 只是个开始,接下来有更多场景可以探索:
Prometheus 告警自动分析(AI 帮你写 runbook)
多数据源融合(Prometheus + Elasticsearch + 日志)
主动式故障预测(用历史数据训练模型)
有任何问题可以在公众号后台留言,欢迎大家分享自己的使用场景。
最后介绍下我的公众号:研究 AIOps 已有数月,目前手里有不少可落地的方案了,接下来会把这些方案全部整理到我的公众号里。如果你觉得这篇文章有帮助,欢迎关注,分享给更多运维伙伴。
夜雨聆风