
用了Hermes Agent快两个月,有件事特别有意思——它真的在变聪明。不是那种「突然开窍」的感觉,而是慢慢积累、慢慢沉淀,像一个老同事越做越顺手。
最近读到一篇讲Agent自组织进化的文章,里面提到一个概念我很认同:Agent的进化不是靠人写代码,而是靠「工具→经验→轨迹→奖励→训练」这个闭环。读完之后我回头看自己的系统,发现我已经在实践这个逻辑了,只是之前没有这么清晰地意识到。今天把这套方法论公开讲讲,不是什么高大上的理论,全是真实踩坑出来的经验。
01 我遇到的真实问题
刚用Hermes的时候,遇到了三个典型问题:
❌ 经验流失:同一个坑踩了两三次,下次还是踩。因为上一次怎么解决的,没记下来。
❌ Profile各管各的:我建立了「三省六部制」的多个Profile,但每个Profile学会的东西只有它自己知道,换个Profile要从零开始。
❌ Cron任务只管跑不管好坏:每天定时任务确实在跑,但跑得好不好、需不需要改进,没人评价。
这三个问题本质上是同一个:系统没有把「做过的事」变成「学到的本事」。
02 第一个落地:Skill软沉淀机制
文章里说Skill是「经验的软沉淀」,这个判断很准。我之前的做法是:完成任务 → 觉得有用 → 手工整理成文档。但问题是我经常忘记整理,或者整理了下次找不着。
我的解决方案是:定义触发条件,让系统自己知道什么时候该沉淀。我设置了一个简单规则——同类任务执行3次以上 → 自动提示沉淀为Skill。这个规则用脚本实现,每次任务跑完自动检查。
💡 实操举例
比如我经常需要处理微信文章读取,最开始每次遇到乱码都要重新调试。后来连续踩了3次,我意识到该整理一个标准流程了,就写成了Skill。现在再遇到这个问题,直接加载Skill,5分钟解决。
Skill的核心价值是:把一次成功的经验变成下一次可以直接用的过程记忆。不需要改代码,不需要懂底层,纯粹是「经验文档化」。
03 第二个落地:Profile轨迹日志
文章里提到Hermes会把每次执行保存成trajectory(轨迹),我理解这就是「做事记录」。每个Profile完成任务后,把「用了什么工具、结果如何、有没有坑」写进日志。
✅ 可追溯:出了问题是哪个环节出的,看日志就知道
✅ 可分析:哪个workflow重复频率最高,哪个工具最稳定,数据说话
✅ 可训练:轨迹积累多了,可以分析出「成功路径」,为未来训练准备数据
💡 实操举例
我的做法是每次Profile完成任务,调用一个日志脚本,把任务类型、执行状态、关键细节写进JSONL文件。现在积累了快一个月的轨迹,虽然还很早期,但已经开始能看到哪些workflow是高频成功的。
这一步的关键是:记录不是为了记而记,而是为了未来「用数据训练模型」做准备。轨迹是最原始的行为数据,比对话日志更有价值。
04 第三个落地:Skill和Tool的升级边界
文章里有一段讲得很清楚:Skill是软沉淀,Tool是硬沉淀。一个流程先用Skill验证,稳定了再升级Tool。我对这个原则做了具体化:
1先用Skill试:低创建成本,快速验证这个workflow有没有用
2验证通过:同一个Skill被调用10次以上,跨3个Profile,稳定无报错
3升级Tool:写入代码层,成为基础设施级别的能力
这个顺序很重要。很多人习惯一上来就写代码,结果:花了两周做的功能只用过3次、写死在代码里的逻辑业务变了又要改、调试成本高出了问题影响底座。
用Skill先试,试通了再升级,好处是:试错成本低,验证充分了再动大工程。
05 第四个落地:Cron任务的Reward评分
这是最让我有成就感的一个改进。之前Cron任务的状态只有两种:「跑成功」和「跑失败」。但「跑成功」可能是:发送了但内容是空的、发送了但延迟了1小时、发送了内容正确但格式混乱——这三种情况都算「成功」,但质量完全不一样。
我的解决方案是:给每个Cron定义完成标准和打分维度。不是「跑没跑」,而是「跑得好不好」。
💡 举例:每日选题发现晨报
• completeness(完整性):是否覆盖了预期内容,选题数是否达标 • timeliness(时效性):是否按时发出,延迟多久 • quality(质量):行动建议是否明确,有没有明显错误
综合得分 = completeness×0.4 + timeliness×0.3 + quality×0.3
现在每周我都能看到每个Cron的得分趋势:哪些在进步、哪些在退步、哪些需要优化。这比之前「只管跑不管好坏」的状态好太多了。
06 第五个落地:Hubu经验共享库
文章里提到Hermes的核心是「同一个AIAgent」,所以各种场景的经验可以统一沉淀。我的三省六部制里,Hubu(户部)是数据管理中心,我让它承担「经验共享库」的角色。核心逻辑是:每个Profile完成任务后,有效经验要写进共享库,其他Profile可以调用。
共享库按类型分类:
• workflows:标准工作流程(比如公众号文章完整流程)
• solutions:问题解决方案(比如某个报错怎么修)
• patterns:高频重复的成功模式
• conventions:项目规范和约定
💡 效果举例
之前Libu(礼部,负责内容创作)解决了一个微信上传的技术问题,解决方案写进了共享库。后来Gongbu(工部,技术执行)遇到同样的问题,直接调用,5分钟解决。如果不是共享库,它可能需要自己踩坑两小时。
这就是「跨Profile经验流动」的价值:一次成功,所有人都能用。
07 第六个落地:每周自动复盘
这是整个体系的最后一环,也是文章里反复强调的核心:把经验变成下一步的改进。我建了一个每周一早上6点自动跑的Cron,内容是:
1. 读取上周所有Profile的轨迹日志,统计任务数、成功率
2. 读取Cron评分数据,计算平均分和趋势
3. 分析有没有重复踩坑、有没有明显退步、有什么值得沉淀
4. 生成复盘报告,写入LEARNINGS.md
关键区别:这个复盘不只是「记录」,而是「产生下一步行动」。如果某个Cron连续两周得分下降,就触发优化流程;如果某个Skill被多个Profile调用,就考虑升级为Tool。
复盘的意义不是总结过去,而是:让系统知道自己哪里可以改进,然后真的去改。
08 进化闭环是怎么形成的
把上面6个实践串起来,就是一个完整的进化闭环:
任务执行 → 轨迹记录 → Skill沉淀 ↓ 经验共享库(Hubu) ↓ 验证稳定的Skill升级为Tool ↓ Cron评分 → 复盘 → 发现改进机会 ↓ 下一轮更强的执行这个闭环的核心逻辑是:
• 工具层:Profile用Tool执行任务
• 经验层:有效经验沉淀为Skill
• 数据层:轨迹记录行为数据
• 评估层:Cron评分和复盘产生反馈
• 进化层:反馈驱动改进,改进回到工具层
文章里有一句话我很喜欢:「让Agent在环境中行动,把行动变成轨迹,把轨迹变成数据,把结果变成奖励,把奖励变成后训练。」我的这套体系虽然没有真的做RL后训练,但已经在「数据积累」和「反馈闭环」这两步上跑起来了。
09 普通人能借鉴什么
不是说一定要用Hermes,也不一定要建三省六部制。但这几个原则是通用的:
✅ 记录你的操作:不要只做事,要留记录。轨迹日志是进化的原材料。
✅ 定期复盘:每周花10分钟回顾「这周做对了什么、哪里可以改进」,比任何技巧都重要。
✅ 经验要沉淀不要散落:放在脑子里会忘,写在文档里才能传承。一个好的经验文档价值可能超过一次代码优化。
✅ 评价比监控更重要:「跑没跑」只管过程,「跑得好不好」才管结果。
我的感受是:AI系统和人一样,成长靠的不是「设计」,而是「反馈+迭代」。三省六部制不是我想出来的完美方案,而是在不断遇到问题、解决问题过程中长出来的结构。它会继续变,但只要闭环在,进化就不会停。
📋 六步落地一览表
如何学习借鉴这篇文章思路?
最简单方法:你将这一篇文章链接发给你的AI就行!
夜雨聆风