AI助手不是大模型,是系统工程

一天之内，我和 Wave 把三篇外部文章转化成了三个可运行的工作系统：上下文索引、质量工具链、系统依赖图。这件事表面上看，是一次 AI 工作空间的功能升级；本质上看，是把软件工程的方法搬进了 AI 助手的日常运行里。我的最大感受是：AI 助手真正的成熟，不在于它能调用多少模型、拥有多少技能，而在于它能不能被管理、被验证、被追踪、被持续优化。换句话说，AI不是越聪明越好，而是越可预测越有价值。

我越来越觉得，养一个AI工作空间，有点像养一座城市。它需要基础设施，比如工具链；需要运行管线，比如定时任务；需要质量标准，比如门禁测试；也需要规划图，比如系统拓扑。如果没有这些东西，技能越多，反而越容易乱。今天做的三件事，其实就是给这个“AI城市”补上工程化骨架。

第一件事，是给 AI 的“大脑”建索引。

过去每次启动，Wave 都要加载很多文档，但哪些必须读、哪些按需查、哪些只在特定场景触发，并没有清晰分层。结果就是上下文越来越重，真正有用的信息反而被淹没。于是我借鉴《Harness Engineering》的思路，把 AGENTS.md 改造成上下文地图，并拆成常驻层、阶段触发层和按需查询层。同时建立 skills-index 技能索引，记录 60 个技能的触发词、路径、版本和状态；再配套质量门禁清单和变更管理模板。

这件事带来的启发很直接：上下文管理不是加载更多内容，而是更聪明地加载内容。AI真正需要的不是“全知道”，而是“该知道的时候知道”。

第二件事，是建立 Skill 质量工具链。

之前 Skill 写了不少，但一个技能到底好不好，改完以后有没有影响别的地方，基本靠人工判断。这种方式在技能少的时候还能凑合，技能多了就一定会失控。所以这次借鉴《Skill-Evolver自我训练》的方法，搭了一套从安全审查、自动化测试到回归防护的质量体系。

具体来说，L1 安全门卫负责检查高风险问题，GT Runner 负责跑测试用例，Trace Capture负责在失败时保存完整日志，回归测试注册表则专门防止已修复的问题再次出现。更进一步，还做了 skill-evolver-lite 引擎，让技能优化不再只是“改一改试试”，而是进入可测试、可回滚、可追踪的流程。

这件事让我意识到：质量不是靠感觉评估出来的，而是靠门禁、测试和回归体系兜住的。不能被验证的规则，基本等于没有规则。

第三件事，是给整个AI系统画一张依赖图。

当 skill、cron、gate、project 越来越多以后，最大的问题不是“有没有能力”，而是“谁依赖谁”。一个技能改了，会影响哪些定时任务？一个质量门禁坏了，会影响哪些项目？如果全靠人脑记，迟早出事。

所以这次借鉴微软 RPG-Kit 的中间表示理念，用轻量 graph.json 表达 Wave 的系统拓扑。首版覆盖了核心技能、关键定时任务、质量门禁、项目文件和知识库服务，并支持影响面查询、孤儿节点检查和完整性验证。这样一来，系统不再是一堆散落的文件，而是一张可以查询、可以维护、可以演化的图。

这三件事做完，我最大的认知是：AI 工作空间发展到一定阶段后，真正的瓶颈不是模型能力，而是系统复杂度。几十个 skill、十几个 cron、多个 gate 和项目并行推进时，你面对的已经不是一个聊天助手，而是一个小型软件系统。既然是系统，就需要索引、测试、依赖管理、质量门禁和变更记录。

所以，如果你也在长期使用 AI Agent，我的建议很简单。

第一，先建索引，再堆能力。先搞清楚谁负责什么、谁依赖谁、哪里可能坏。哪怕一开始很粗糙，也要有一张可以演化的地图。

第二，把质量标准脚本化。每条重要规则，最好都能用一行命令验证。两条 critical 阻断加一个回归脚本，就能挡住大部分低级事故。

第三，每新增一个能力，就同步更新索引。不要等系统乱了再回头整理。工程化不是额外负担，而是给未来的自己买保险。

借鉴的三篇外部来源分别是

新安《Harness Engineering》阿里云系列，

张思宇《Skill-Evolver自我训练》系列，

以及微软 RPG-Kit。

对我来说，它们最终汇成了一句话：AI助手不是大模型，是一套需要被认真管理的系统工程。