今年年初,我干了件事。
想着公司服务器越来越多,哪台装了什么系统、跑了什么软件、挂了什么数据库,全靠人肉记。
于是脑子一热,决定自己写一个。
一个服务器纳管的 Web 平台。
想着能自动收集操作系统的版本、盘点服务器上的软件清单、再顺藤摸瓜把数据库也扒出来。
简单、实用、不用再靠 Excel 存活。
结果呢?

从热血到佛系
一开始是真的上头。
熬夜加班,连做梦都在调接口。
那种"这是我的项目"的冲动,懂的都懂。
后来嘛...
热情还在,只是变成了"有空点一点,没空拉倒"。
进度从火箭变成了乌龟。
但好消息是——核心功能,基本都跑通了。

做着做着,龙虾 火了。
我心想:纳管平台要是能加上 AI Agent,让它自己分析服务器状态、巡检异常、甚至自动生成运维报告,那不就起飞了?
于是又开了一个模块。
AI 这块,在我个人笔记本上测得差不多了。
用的 GLM-5.1,智谱的。
说不上多前沿,国内第一梯队。
关键是——不用国际信用卡就能用。
我也不爱去闲鱼买什么海外账号,被坑怕了...
嗯,这不是广告,这是真话。
卡在哪了?
个人测试没问题。
但公司的大模型——不给用。
接不了 API,没法测。
我想看的是:真正在公司内网环境下,用本地部署的大模型,跑出来的实际效果。
不是我自己笔记本上的 Demo。
是真实场景、真实服务器、真实数据。
所以现在就卡在这了:
软件写好了,AI 模块有了,但缺少一个真实的测试环境。

前面说的都是废话,直接看东西。
由于我是dba出身的,平常接触的也都是数据库的问题,我把软件功能发到群里,让群里的兄弟们问问题

兄弟们问了以下几个问题:
sql执行慢ORA-00600 170222025-08-31T00:01:49.956050+08:00Incident 865506 created, dump file: /u01/app/oracle/diag/rdbms/xxxx/xxxx/incident/incdir_865506/xxxx_m003_124481_i865506.trcORA-00600: internal error code, arguments: [13011], [12199], [12695494], [104], [12711872], [0], [], [], [], [], [], []*** KEWRAPS: Error=600 encountered by Auto Purge slave.*** 2025-08-31T00:01:51.499302+08:00 (CDB$ROOT(1))<error barrier> at 0x7fffffffc5e8 placed ksv.c@7184ORA-00600: internal error code, arguments: [13011], [12199], [12695494], [104], [12711872], [0], [], [], [], [], [], []OPIRIP: Uncaught error 447. Error stack:ORA-00447: fatal error in background processORA-00600: internal error code, arguments: [13011], [12199], [12695494], [104], [12711872], [0], [], [], [], [], [], []
col 57: [ 1] 30col 58: [ 1] 31col 59: [ 1] 31col 60: [ 2] c1 02col 61: [ 7] 78 7d 08 14 0a 15 3acol 62: [ 7] 78 7d 08 14 0a 15 3aend_of_block_dumpDump of buffer cache for pdb 3 tsn 5 rdba 0x366f2a5 at level 10 done.DDE: Problem Key 'ORA 600 [13011]' was flood controlled (0x2) (incident: 793484)ORA-00600: ▒ڲ▒▒▒▒▒▒▒▒, ▒▒▒▒: [13011], [75336], [57078437], [11], [57078437], [17], [], [], [], [], [], []






从发现问题,到分析原因,到给出建议,全程 AI 完成。
不是我手动查的,是 AI 自己跑出来的。
软件负责收集最基本的服务器信息数据,AI 负责根据skills知识库等收集更深层次的软件数据,读懂数据、找到问题、告诉你要怎么办。
这就为什么我一定要在真实环境里测——
笔记本上跑 Demo 当然漂亮,但到了上百台服务器、各种奇奇怪怪的软件环境下,AI 还能不能这么稳?
这才是我想知道的。
这玩意到底怎么实现的?
上面那段 Oracle 的演示看完了,你可能会好奇:
这东西底层到底是啥逻辑?
说出来也不复杂——
类似 Claude Code、Cursor 那类工具,但有一个本质区别:
我的软件,是可以完全在内网独立部署的。
什么意思?
意思是你公司服务器上的数据,从收集、分析到 AI 处理,全在你的内网里跑完。
不会偷偷把你的数据传到外面去。
Claude Code、Cursor 是会对你公司的数据做收集的
51万行源码泄露后,我连夜扒了 Claude Code 的数据收集逻辑,越看越后怕...
数据全程不出内网。
这一点,在我做这个软件的第一天就想清楚了。
再说命令安全。
软件执行操作有三种模式:
第一种——AI 给你命令,你自己动手。
第二种——AI 帮你执行,但每次都会问你意见。
第三种——AI 直接干,不问你。
三种模式,你可以根据场景自由切换。
核心原则就一个:你对命令有完全的控制权。
最后说一个我觉得很重要的点——技能可扩展。
前面 Oracle 那个问题的回答,有些内容参考了软件里的 Skills(技能插件)。
这个 Skills 哪来的?
一个姓林的朋友,在 GitHub 上看到的,推荐给了我。
装上之后,AI 在回答数据库相关问题时,就有了一个更专业的知识库打底。
而且 Skills 这东西,想装多少装多少。
最近我还看到 Oracle 原厂也出了自己的 Skills。
我在想,如果所有数据库厂商都出了自己的 Skills——MySQL、PostgreSQL、达梦、OceanBase……
这个软件就能把它们全都接进来。
相当于软件的能力,可以跟着生态一起成长。
你想支持什么数据库,装对应的 Skills 就行。
可扩展。
所以总结一下,这个 AI 模块,核心就三件事:
数据安全——内网部署,数据不出域。
命令安全——三种模式,你来决定控制权。
技能可扩展——Skills 插件,想加什么加什么。
至于上下文记忆、不同会话的命令历史这些功能……
也做了,不过跟上面三点比,我感觉倒是没那么重要了。
安全活下来,才是第一位的。
这波窗口期有多长?
我做这个东西的时候一直在想一个事:
这类软件,到底能火多久?
不是什么技术都能火,也不是什么时候做都来得及。
我的感觉是——这类 AI 纳管工具,现在的窗口正开着。
你看,Claude Code、Cursor 这些,都是这一两年冒出来的。
说明什么?说明 AI 写代码、AI 做运维这件事,技术上刚好到了能用的拐点。
但大厂现在主攻的还是通用场景——写代码、聊天、画图。
真正深入到运维、数据库、服务器纳管这种垂直领域的,还不多。
这就是窗口。
至于窗口能开多久,我不敢说死,可能明年就饱和了。
但你看互联网公司那边的节奏——效率就是命,只要工具能提效,先用了再说。
我的直觉是,2-3年内互联网企业会最先跟上来。
银行、政府这些机构会慢一些,合规要求多,审批流程长,正常。
但不用的代价也在那摆着——
当你的对手开始用 AI 巡检服务器、自动分析故障,你还在靠人肉排查,效率差距只会越拉越大。
所以我的想法很简单:
窗口开着的时候,先把东西做出来,跑起来。
我需要你的帮助
如果你是同行,并且满足以下条件:
1. 公司服务器上百台(规模够大,才能测出性能瓶颈)
2. 公司有自己的内网本地大模型
3. 模型参数量在 25B 以上、36B 以下(最好)
为什么这个范围?
太强了——我怕测不出软件的效果,大模型自己就把活干了,显得我的软件像个摆设。
太弱了——我怕模型拖后腿,软件的实力发挥不出来。
25B 到 36B,刚刚好。
不会太聪明,也不会太笨。
能真实反映"软件 + 模型"配合的效果。
如果你刚好满足这些条件,而且最近不太忙——
拜托了,帮帮忙。
帮我在真实环境里跑一跑,看看哪里有问题,哪里还能优化。
作为回报:
软件如果有一天收费,测试者免费使用。
你将成为这个软件的第一批真实用户。
你的反馈,会直接决定这个软件的走向。

最后
说实话,一个人做项目,最难的不是写代码。
是没有人告诉你:你做的东西,到底好不好用。
自己测一万遍,不如别人用一遍。
所以如果你感兴趣,后台留言或者加我微信都行。
咱们聊聊。
这个软件,不会让你失望的。
大概。

另外,做这个东西的过程中,很多灵感来自于一个网名叫"三"开头的朋友。
他是我认识动手能力最强的运维——不务运维正业的那种。
明明是个运维,却总是在开发软件,很多灵感来自于他分享的一些 GitHub 项目。
还有推荐我 Skills 的那个姓林的朋友。
还有那些"马工"朋友们,对 Claude Code 这类软件的使用理解,对我帮助也很大。
谢谢你们。
你会愿意帮一个独立开发者测试他的作品吗?
你公司的运维工具是怎么管理服务器的?
欢迎评论区聊聊~
有帮助的话,点个赞~
关注我,后续会持续更新这个项目的进展
夜雨聆风