【��实践】我是怎么把AI调教成「会自我进化」的助手三省六部制进化实录

用了Hermes Agent快两个月，有件事特别有意思——它真的在变聪明。不是那种「突然开窍」的感觉，而是慢慢积累、慢慢沉淀，像一个老同事越做越顺手。

最近读到一篇讲Agent自组织进化的文章，里面提到一个概念我很认同：Agent的进化不是靠人写代码，而是靠「工具→经验→轨迹→奖励→训练」这个闭环。读完之后我回头看自己的系统，发现我已经在实践这个逻辑了，只是之前没有这么清晰地意识到。今天把这套方法论公开讲讲，不是什么高大上的理论，全是真实踩坑出来的经验。

01 我遇到的真实问题

刚用Hermes的时候，遇到了三个典型问题：

❌ 经验流失：同一个坑踩了两三次，下次还是踩。因为上一次怎么解决的，没记下来。

❌ Profile各管各的：我建立了「三省六部制」的多个Profile，但每个Profile学会的东西只有它自己知道，换个Profile要从零开始。

❌ Cron任务只管跑不管好坏：每天定时任务确实在跑，但跑得好不好、需不需要改进，没人评价。

这三个问题本质上是同一个：系统没有把「做过的事」变成「学到的本事」。

02 第一个落地：Skill软沉淀机制

文章里说Skill是「经验的软沉淀」，这个判断很准。我之前的做法是：完成任务 → 觉得有用 → 手工整理成文档。但问题是我经常忘记整理，或者整理了下次找不着。

我的解决方案是：定义触发条件，让系统自己知道什么时候该沉淀。我设置了一个简单规则——同类任务执行3次以上 → 自动提示沉淀为Skill。这个规则用脚本实现，每次任务跑完自动检查。

💡 实操举例

比如我经常需要处理微信文章读取，最开始每次遇到乱码都要重新调试。后来连续踩了3次，我意识到该整理一个标准流程了，就写成了Skill。现在再遇到这个问题，直接加载Skill，5分钟解决。

Skill的核心价值是：把一次成功的经验变成下一次可以直接用的过程记忆。不需要改代码，不需要懂底层，纯粹是「经验文档化」。

03 第二个落地：Profile轨迹日志

文章里提到Hermes会把每次执行保存成trajectory（轨迹），我理解这就是「做事记录」。每个Profile完成任务后，把「用了什么工具、结果如何、有没有坑」写进日志。

✅ 可追溯：出了问题是哪个环节出的，看日志就知道

✅ 可分析：哪个workflow重复频率最高，哪个工具最稳定，数据说话

✅ 可训练：轨迹积累多了，可以分析出「成功路径」，为未来训练准备数据

💡 实操举例

我的做法是每次Profile完成任务，调用一个日志脚本，把任务类型、执行状态、关键细节写进JSONL文件。现在积累了快一个月的轨迹，虽然还很早期，但已经开始能看到哪些workflow是高频成功的。

这一步的关键是：记录不是为了记而记，而是为了未来「用数据训练模型」做准备。轨迹是最原始的行为数据，比对话日志更有价值。

04 第三个落地：Skill和Tool的升级边界

文章里有一段讲得很清楚：Skill是软沉淀，Tool是硬沉淀。一个流程先用Skill验证，稳定了再升级Tool。我对这个原则做了具体化：

1先用Skill试：低创建成本，快速验证这个workflow有没有用

2验证通过：同一个Skill被调用10次以上，跨3个Profile，稳定无报错

3升级Tool：写入代码层，成为基础设施级别的能力

这个顺序很重要。很多人习惯一上来就写代码，结果：花了两周做的功能只用过3次、写死在代码里的逻辑业务变了又要改、调试成本高出了问题影响底座。

用Skill先试，试通了再升级，好处是：试错成本低，验证充分了再动大工程。

05 第四个落地：Cron任务的Reward评分

这是最让我有成就感的一个改进。之前Cron任务的状态只有两种：「跑成功」和「跑失败」。但「跑成功」可能是：发送了但内容是空的、发送了但延迟了1小时、发送了内容正确但格式混乱——这三种情况都算「成功」，但质量完全不一样。

我的解决方案是：给每个Cron定义完成标准和打分维度。不是「跑没跑」，而是「跑得好不好」。

💡 举例：每日选题发现晨报

• completeness（完整性）：是否覆盖了预期内容，选题数是否达标 • timeliness（时效性）：是否按时发出，延迟多久 • quality（质量）：行动建议是否明确，有没有明显错误

综合得分 = completeness×0.4 + timeliness×0.3 + quality×0.3

现在每周我都能看到每个Cron的得分趋势：哪些在进步、哪些在退步、哪些需要优化。这比之前「只管跑不管好坏」的状态好太多了。

06 第五个落地：Hubu经验共享库

文章里提到Hermes的核心是「同一个AIAgent」，所以各种场景的经验可以统一沉淀。我的三省六部制里，Hubu（户部）是数据管理中心，我让它承担「经验共享库」的角色。核心逻辑是：每个Profile完成任务后，有效经验要写进共享库，其他Profile可以调用。

共享库按类型分类：

• workflows：标准工作流程（比如公众号文章完整流程）

• solutions：问题解决方案（比如某个报错怎么修）

• patterns：高频重复的成功模式

• conventions：项目规范和约定

💡 效果举例

之前Libu（礼部，负责内容创作）解决了一个微信上传的技术问题，解决方案写进了共享库。后来Gongbu（工部，技术执行）遇到同样的问题，直接调用，5分钟解决。如果不是共享库，它可能需要自己踩坑两小时。

这就是「跨Profile经验流动」的价值：一次成功，所有人都能用。

07 第六个落地：每周自动复盘

这是整个体系的最后一环，也是文章里反复强调的核心：把经验变成下一步的改进。我建了一个每周一早上6点自动跑的Cron，内容是：

1. 读取上周所有Profile的轨迹日志，统计任务数、成功率

2. 读取Cron评分数据，计算平均分和趋势

3. 分析有没有重复踩坑、有没有明显退步、有什么值得沉淀

4. 生成复盘报告，写入LEARNINGS.md

关键区别：这个复盘不只是「记录」，而是「产生下一步行动」。如果某个Cron连续两周得分下降，就触发优化流程；如果某个Skill被多个Profile调用，就考虑升级为Tool。

复盘的意义不是总结过去，而是：让系统知道自己哪里可以改进，然后真的去改。

08 进化闭环是怎么形成的

把上面6个实践串起来，就是一个完整的进化闭环：

任务执行 → 轨迹记录 → Skill沉淀                             ↓                           经验共享库（Hubu）                             ↓               验证稳定的Skill升级为Tool                             ↓         Cron评分 → 复盘 → 发现改进机会                             ↓                     下一轮更强的执行

这个闭环的核心逻辑是：

• 工具层：Profile用Tool执行任务

• 经验层：有效经验沉淀为Skill

• 数据层：轨迹记录行为数据

• 评估层：Cron评分和复盘产生反馈

• 进化层：反馈驱动改进，改进回到工具层

文章里有一句话我很喜欢：「让Agent在环境中行动，把行动变成轨迹，把轨迹变成数据，把结果变成奖励，把奖励变成后训练。」我的这套体系虽然没有真的做RL后训练，但已经在「数据积累」和「反馈闭环」这两步上跑起来了。

09 普通人能借鉴什么

不是说一定要用Hermes，也不一定要建三省六部制。但这几个原则是通用的：

✅ 记录你的操作：不要只做事，要留记录。轨迹日志是进化的原材料。

✅ 定期复盘：每周花10分钟回顾「这周做对了什么、哪里可以改进」，比任何技巧都重要。

✅ 经验要沉淀不要散落：放在脑子里会忘，写在文档里才能传承。一个好的经验文档价值可能超过一次代码优化。

✅ 评价比监控更重要：「跑没跑」只管过程，「跑得好不好」才管结果。

我的感受是：AI系统和人一样，成长靠的不是「设计」，而是「反馈+迭代」。三省六部制不是我想出来的完美方案，而是在不断遇到问题、解决问题过程中长出来的结构。它会继续变，但只要闭环在，进化就不会停。

📋 六步落地一览表

落地步骤	核心动作	关键文件
Skill软沉淀	同类任务3次触发沉淀	scripts/skill-trigger-check.sh
轨迹日志	Profile执行写JSONL	scripts/trajectory_log.sh
Skill/Tool边界	10次调用+3Profile验证升级	.system/skill-tool-upgrade-path.md
Cron评分	定义完成标准和打分维度	.system/cron-reward-scoring.md
经验共享库	有效经验写Hubu共享库	hubu/experience-pool/
每周自动复盘	周一Cron自动跑+写LEARNINGS	scripts/weekly-self-review.sh

如何学习借鉴这篇文章思路？

最简单方法：你将这一篇文章链接发给你的AI就行！