当AI开始"遗传":一个让整个行业睡不着觉的发现
上周,清华大学和一家叫EvoMap的实验室联合发了一篇论文。论文的标题很枯燥——《从程序性技能到策略基因:面向经验驱动测试时进化的Agent框架》。发出来之后,业界反应却很强烈。因为这篇论文里的实验结果,几乎得罪了所有正在写Skill文档的人。怎么个得罪法?研究人员发现,你辛辛苦苦整理的那份”AI Agent工作手册”——包含背景说明、操作流程、避坑指南、API注释、示例代码,整整两千多token——喂给模型之后,效果居然还不如什么都不喂。——低了1.1个百分点。而隔壁那个只有230个token、看起来像随手写了几行笔记的东西,效果却比基线高了3个百分点。这不是一篇”证明某方案有效”的论文。这篇论文是在宣告一个被行业默认了几年的做法——”把经验写成详细文档喂给AI”——是错的。而更让从业者睡不着觉的是,这个错误几乎人人都犯,从创业团队到科技大厂,无一幸免。
1. 你的”经验”正在拖慢AI先交代一下背景。过去两年,AI Agent赛道卷得厉害。大家的共识是:想让Agent学会新技能,就得把经验整理成文档。流程要写清楚,坑要列明白,例子要给足,越详细越好,越完整越有诚意。这套玩法的底层逻辑是:AI靠”阅读”学习,人怎么学,AI就怎么学。但这里有一个根本性的误判。人学技能,确实需要读文档。但人读文档,是为了在脑子里构建一套”决策框架”——遇到什么情况、应该怎么反应、哪些红线不能踩。人脑会自动过滤掉冗余信息,提取出对自己有用的判断逻辑。AI不一样。AI的推理,是一个在”有限计算预算”里寻找最优策略的过程。它不是在”读”一份文档,而是在”搜”——在庞大的上下文中搜索下一步最可能正确的行动。这意味着:当你往上下文里塞入大量”为人类阅读体验服务”的材料时,你实际上是在往答案的海洋里投喂大量噪声。论文里有一句话说得特别扎心:Skill的长处,恰恰建立在服务人类理解之上,而不是服务模型在当下任务中的决策。
02 那些”有效”的Skill,到底做对了什么?不过,Skill并非全然无效。研究团队做了一个精细化实验:把一份完整的Skill文档拆成不同段落,分别注入模型,看哪一段在起作用。结果很有意思。overview段(背景概述)——负贡献最大。它让模型分心了。workflow段(操作流程)——唯一正向贡献,而且贡献还不小。pitfalls段(避坑指南)——轻微正贡献。api_notes段、examples段、scripts段——几乎没有贡献。也就是说,一份2500token的Skill,有效信号集中在workflow那一段,大概两三百token。其他两千多token,要么没用,要么拖后腿。这个发现让研究人员开始思考一个问题:如果有效信号如此集中,为什么不直接把这个”有效部分”提取出来,做成更精简的结构?这正是Gene的起点。
03 Gene是什么?不是更短的Skill,是决策直觉Gene的灵感来自生物学里的基因概念。生物基因是DNA片段,编码蛋白质,承载着千百万年进化下来的经验传承。生物不靠”阅读手册”来适应环境,而是靠基因里编码的”本能反应”。EvoMap团队把类似的逻辑引入了AI Agent领域。一个Gene包含四类信号:第一类:Keywords。这是触发器。当模型遇到一个新任务时,通过关键词匹配快速判断:这个Gene是否适用于当前场景。支持子串匹配、正则表达式、多语言别名。第二类:Summary。高度压缩的一句话描述,让模型快速知道这个Gene”大概是管什么的”。第三类:Strategy。这是核心。不是”第一步做什么、第二步做什么”的操作流程,而是”遇到这类问题,脑子应该怎么转”的决策框架。第四类:AVOID。这是最反直觉的部分——不是”要怎么做”,而是”千万不能怎么做”。把历史上犯过的错,浓缩成一句句独立的警告。举个例子。在论文的一个实验场景——UV-vis光谱分析任务中,研究者提取出了这样一个Gene:
1 Keywords: uv-vis, peak detection, FWHM, unit conversion
2 Summary: Detect peaks and compute wavelength-domain peak properties correctly
3 Strategy:
4 1. Detect peaks with prominence-based criteria
5 2. Convert min_distance into sample-index units before peak detection
6 AVOID: Report FWHM only after converting peak_widths outputs back to wavelength units
整个Gene,大约230个token。它的对照物是同一份经验的Skill版本——包含overview、workflow、pitfalls、API注释、示例代码、脚本,整整2500token。控制变量完全相同,注入同一个模型,评测同一套测试题。结果:Skill版本得分50.7分,Gene版本得分56.6分。差了将近6个百分点。而这6个百分点的差距,不是来自”信息量的多少”,而是来自”信息的存在形态”。

04 失败经验的最优保存方式:不是日志,是警告这篇论文里还有一个非常有意思的发现,关于”失败经验应该怎么存”。行业里常见的做法是:把失败案例记成日志,或者写成反思总结。但研究人员测试了各种形式——Skill、自由文本、日志、reflection summary——效果全部低于无指导基线。只有一种形式例外:把失败蒸馏成一句句独立的AVOID警告。而且,即便是AVOID警告,也不是越多越好。论文做了一个对照:把AVOID警告和Strategy本体混合,结果”Strategy only”比”Strategy + AVOID”更强。但最强的是”AVOID warnings only”——只保留警告,不要策略。这个结论相当反直觉,但背后的逻辑很清晰:对于一个正在执行任务的模型来说,最重要的不是”你应该做什么”,而是”在这个环节,你应该避免做什么”。因为”做什么”是可以从已有知识推理出来的,而”别做什么”往往是需要专门经验才能知道的。05 不花钱的进化:同一个模型,性能翻倍最让产业界兴奋的数据,是这个。研究团队在CritPt benchmark上跑了端到端测试。CritPt是一个专门模拟真实物理科研流程的动态数据集,被认为是目前最接近实战的Agent能力测试之一。结果:基模A(Gemini 3.0),初始水平9.1%。注入Gene之后,飙到18.57%,提升了9.47个百分点。基模B(Gemini 3.0另一个版本),初始水平17.7%。注入Gene之后,涨到27.14%,提升了9.44个百分点。两个模型,提升幅度都接近翻倍。但更惊人的是成本。Token消耗从大约100美金,降到了不到1美金。降低了两个数量级。这意味着什么?意味着过去你以为”让AI变强”的方法——换更强的基模、做更多的微调、大量增加上下文长度——可能都是错的或者低效的。而真正的杠杆点,在于”经验以什么形态回到模型”。不更新一个参数,不改变模型本身,不做任何fine-tuning。仅仅通过改变经验的存储和召回方式,就让同一套模型在同一个任务上的表现翻倍。
06 经验正在从”文档”变成”协议”Gene不只是一个新的数据结构。它背后是一整套协议设计。EvoMap团队把Gene放进了一个叫GEP的框架里——Gene Evolution Protocol,基因进化协议。三层对象:
-
Event:不可变的执行日志,每一次执行结果都被忠实地记录下来。
-
Capsule:经过验证的执行路径,包含成功经验和审计记录。
-
Gene:从经验和路径中提炼出来的策略基因,可以被匹配、注入、复用。
六阶段循环:
提炼 → 匹配 → 注入 → 执行 → 记录 → 验证/突变/固化整个循环不需要人工干预。它是一个自动化的经验进化系统。这意味着Agent不再是一次性学习,而是持续学习。每次执行都在产生数据,每次数据都在优化经验,经验再反哺下一次执行。这已经不是一个”提示词技巧”,而是一个”经验操作系统”的设计思路。
07 整个行业都在”写文档”回到文章开头的问题:为什么这篇论文让从业者睡不着觉?因为它指出了一个几乎人人都犯的错误——把AI Agent的”经验积累”当成”写文档”。这个错误不是某几个创业团队在犯,是整个行业都在犯。从GitHub上的开源Agent项目,到各个科技大厂的内部Agent框架,到所有教人”如何写好Agent Prompt”的教程和课程,无一不在强调”文档要详细、结构要完整、覆盖要全面”。但清华+Evomap的实验告诉我们:这个方向,可能是错的。文档式的经验积累,服务对象是人类,不是模型。模型需要的是”决策信号”,不是”阅读材料”。Skill告诉我们”怎么做”,Gene告诉我们”怎么想”。一个是操作手册,一个是执行直觉。就像一个经验丰富的医生和一个刚毕业的医学博士。博士背诵了成千上万页的教材和指南,但遇到疑难杂症,他还是得翻书。而老医生扫一眼检验报告,脑子里已经有了判断方向——他靠的不是”记住了什么”,而是”遇到这种情况应该往哪个方向想”。
08 一点个人判断这篇论文的价值,不在于它提出了一个”更好的经验格式”,而在于它把”经验表示”这个问题本身,摆到了台面上。过去几年,AI Agent领域的优化方向是非常明确的:更强的基模、更长的上下文、更复杂的RAG、更多的记忆系统。所有人都在往这些方向卷资金、卷人才、卷算力。但几乎没有人认真思考过:给模型”喂经验”这件事,本质上是在做什么?Gene给了我们一个答案:不是传输信息,而是注入控制信号。经验和模型的关系,不是”书和学生”的关系,而是”直觉和决策者”的关系。这意味着,未来Agent开发的核心技能,可能不再是”写Prompt”,而是”提炼策略”——从海量执行记录中提取有效的决策信号,把模糊的、冗余的、人类导向的经验,变成精确的、紧凑的、模型导向的控制对象。但有一点是确定的:谁先想清楚这个问题,谁就拿到了下一代Agent系统的钥匙。
论文原文:From Procedural Skills to Strategy Genes: Towards Experience-Driven Test-Time Evolution作者:Junjie Wang, Yiming Ren, Haoyang Zhang(Infinite Evolution Lab × 清华大学)arXiv: 2604.15097
夜雨聆风