几个月前说要写个运维工具,ai模块现在能用了,但卡住了

今年年初，我干了件事。

想着公司服务器越来越多，哪台装了什么系统、跑了什么软件、挂了什么数据库，全靠人肉记。

于是脑子一热，决定自己写一个。

一个服务器纳管的 Web 平台。

想着能自动收集操作系统的版本、盘点服务器上的软件清单、再顺藤摸瓜把数据库也扒出来。

简单、实用、不用再靠 Excel 存活。

结果呢？

从热血到佛系

一开始是真的上头。

熬夜加班，连做梦都在调接口。

那种"这是我的项目"的冲动，懂的都懂。

后来嘛...

热情还在，只是变成了"有空点一点，没空拉倒"。

进度从火箭变成了乌龟。

但好消息是——核心功能，基本都跑通了。

做着做着，龙虾火了。

我心想：纳管平台要是能加上 AI Agent，让它自己分析服务器状态、巡检异常、甚至自动生成运维报告，那不就起飞了？

于是又开了一个模块。

AI 这块，在我个人笔记本上测得差不多了。

用的 GLM-5.1，智谱的。

说不上多前沿，国内第一梯队。

关键是——不用国际信用卡就能用。

我也不爱去闲鱼买什么海外账号，被坑怕了...

嗯，这不是广告，这是真话。

卡在哪了？

个人测试没问题。

但公司的大模型——不给用。

接不了 API，没法测。

我想看的是：真正在公司内网环境下，用本地部署的大模型，跑出来的实际效果。

不是我自己笔记本上的 Demo。

是真实场景、真实服务器、真实数据。

所以现在就卡在这了：

软件写好了，AI 模块有了，但缺少一个真实的测试环境。

前面说的都是废话，直接看东西。

由于我是dba出身的，平常接触的也都是数据库的问题，我把软件功能发到群里，让群里的兄弟们问问题

兄弟们问了以下几个问题：

sql执行慢

ORA-00600 17022

2025-08-31T00:01:49.956050+08:00Incident 865506 created, dump file: /u01/app/oracle/diag/rdbms/xxxx/xxxx/incident/incdir_865506/xxxx_m003_124481_i865506.trcORA-00600: internal error code, arguments: [13011], [12199], [12695494], [104], [12711872], [0], [], [], [], [], [], []*** KEWRAPS: Error=600 encountered by Auto Purge slave.*** 2025-08-31T00:01:51.499302+08:00 (CDB$ROOT(1))<error barrier> at 0x7fffffffc5e8 placed ksv.c@7184ORA-00600: internal error code, arguments: [13011], [12199], [12695494], [104], [12711872], [0], [], [], [], [], [], []OPIRIP: Uncaught error 447. Error stack:ORA-00447: fatal error in background processORA-00600: internal error code, arguments: [13011], [12199], [12695494], [104], [12711872], [0], [], [], [], [], [], []

col 57: [ 1]  30col 58: [ 1]  31col 59: [ 1]  31col 60: [ 2]  c1 02col 61: [ 7]  78 7d 08 14 0a 15 3acol 62: [ 7]  78 7d 08 14 0a 15 3aend_of_block_dumpDump of buffer cache for pdb 3 tsn 5 rdba 0x366f2a5 at level 10 done.DDE: Problem Key 'ORA 600 [13011]' was flood controlled (0x2) (incident: 793484)ORA-00600: ▒ڲ▒▒▒▒▒▒▒▒, ▒▒▒▒: [13011], [75336], [57078437], [11], [57078437], [17], [], [], [], [], [], []

从发现问题，到分析原因，到给出建议，全程 AI 完成。

不是我手动查的，是 AI 自己跑出来的。

软件负责收集最基本的服务器信息数据，AI 负责根据skills知识库等收集更深层次的软件数据，读懂数据、找到问题、告诉你要怎么办。

这就为什么我一定要在真实环境里测——

笔记本上跑 Demo 当然漂亮，但到了上百台服务器、各种奇奇怪怪的软件环境下，AI 还能不能这么稳？

这才是我想知道的。

这玩意到底怎么实现的？

上面那段 Oracle 的演示看完了，你可能会好奇：

这东西底层到底是啥逻辑？

说出来也不复杂——

类似 Claude Code、Cursor 那类工具，但有一个本质区别：

我的软件，是可以完全在内网独立部署的。

什么意思？

意思是你公司服务器上的数据，从收集、分析到 AI 处理，全在你的内网里跑完。

不会偷偷把你的数据传到外面去。

Claude Code、Cursor 是会对你公司的数据做收集的

51万行源码泄露后，我连夜扒了 Claude Code 的数据收集逻辑，越看越后怕...

数据全程不出内网。

这一点，在我做这个软件的第一天就想清楚了。

再说命令安全。

软件执行操作有三种模式：

第一种——AI 给你命令，你自己动手。

第二种——AI 帮你执行，但每次都会问你意见。

第三种——AI 直接干，不问你。

三种模式，你可以根据场景自由切换。

核心原则就一个：你对命令有完全的控制权。

最后说一个我觉得很重要的点——技能可扩展。

前面 Oracle 那个问题的回答，有些内容参考了软件里的 Skills（技能插件）。

这个 Skills 哪来的？

一个姓林的朋友，在 GitHub 上看到的，推荐给了我。

装上之后，AI 在回答数据库相关问题时，就有了一个更专业的知识库打底。

而且 Skills 这东西，想装多少装多少。

最近我还看到 Oracle 原厂也出了自己的 Skills。

我在想，如果所有数据库厂商都出了自己的 Skills——MySQL、PostgreSQL、达梦、OceanBase……

这个软件就能把它们全都接进来。

相当于软件的能力，可以跟着生态一起成长。

你想支持什么数据库，装对应的 Skills 就行。

可扩展。

所以总结一下，这个 AI 模块，核心就三件事：

数据安全——内网部署，数据不出域。

命令安全——三种模式，你来决定控制权。

技能可扩展——Skills 插件，想加什么加什么。

至于上下文记忆、不同会话的命令历史这些功能……

也做了，不过跟上面三点比，我感觉倒是没那么重要了。

安全活下来，才是第一位的。

这波窗口期有多长？

我做这个东西的时候一直在想一个事：

这类软件，到底能火多久？

不是什么技术都能火，也不是什么时候做都来得及。

我的感觉是——这类 AI 纳管工具，现在的窗口正开着。

你看，Claude Code、Cursor 这些，都是这一两年冒出来的。

说明什么？说明 AI 写代码、AI 做运维这件事，技术上刚好到了能用的拐点。

但大厂现在主攻的还是通用场景——写代码、聊天、画图。

真正深入到运维、数据库、服务器纳管这种垂直领域的，还不多。

这就是窗口。

至于窗口能开多久，我不敢说死，可能明年就饱和了。

但你看互联网公司那边的节奏——效率就是命，只要工具能提效，先用了再说。

我的直觉是，2-3年内互联网企业会最先跟上来。

银行、政府这些机构会慢一些，合规要求多，审批流程长，正常。

但不用的代价也在那摆着——

当你的对手开始用 AI 巡检服务器、自动分析故障，你还在靠人肉排查，效率差距只会越拉越大。

所以我的想法很简单：

窗口开着的时候，先把东西做出来，跑起来。

我需要你的帮助

如果你是同行，并且满足以下条件：

1. 公司服务器上百台（规模够大，才能测出性能瓶颈）

2. 公司有自己的内网本地大模型

3. 模型参数量在 25B 以上、36B 以下（最好）

为什么这个范围？

太强了——我怕测不出软件的效果，大模型自己就把活干了，显得我的软件像个摆设。

太弱了——我怕模型拖后腿，软件的实力发挥不出来。

25B 到 36B，刚刚好。

不会太聪明，也不会太笨。

能真实反映"软件 + 模型"配合的效果。

如果你刚好满足这些条件，而且最近不太忙——

拜托了，帮帮忙。

帮我在真实环境里跑一跑，看看哪里有问题，哪里还能优化。

作为回报：

软件如果有一天收费，测试者免费使用。

你将成为这个软件的第一批真实用户。

你的反馈，会直接决定这个软件的走向。

最后

说实话，一个人做项目，最难的不是写代码。

是没有人告诉你：你做的东西，到底好不好用。

自己测一万遍，不如别人用一遍。

所以如果你感兴趣，后台留言或者加我微信都行。

咱们聊聊。

这个软件，不会让你失望的。

大概。

另外，做这个东西的过程中，很多灵感来自于一个网名叫"三"开头的朋友。

他是我认识动手能力最强的运维——不务运维正业的那种。

明明是个运维，却总是在开发软件，很多灵感来自于他分享的一些 GitHub 项目。

还有推荐我 Skills 的那个姓林的朋友。

还有那些"马工"朋友们，对 Claude Code 这类软件的使用理解，对我帮助也很大。

谢谢你们。

你会愿意帮一个独立开发者测试他的作品吗？

你公司的运维工具是怎么管理服务器的？

欢迎评论区聊聊～

有帮助的话，点个赞～

关注我，后续会持续更新这个项目的进展