当AI开始＂遗传＂:一个让整个行业睡不着觉的发现-夜雨聆风

当AI开始＂遗传＂:一个让整个行业睡不着觉的发现

上周，清华大学和一家叫EvoMap的实验室联合发了一篇论文。论文的标题很枯燥——《从程序性技能到策略基因：面向经验驱动测试时进化的Agent框架》。发出来之后，业界反应却很强烈。因为这篇论文里的实验结果，几乎得罪了所有正在写Skill文档的人。怎么个得罪法？研究人员发现，你辛辛苦苦整理的那份”AI Agent工作手册”——包含背景说明、操作流程、避坑指南、API注释、示例代码，整整两千多token——喂给模型之后，效果居然还不如什么都不喂。——低了1.1个百分点。而隔壁那个只有230个token、看起来像随手写了几行笔记的东西，效果却比基线高了3个百分点。这不是一篇”证明某方案有效”的论文。这篇论文是在宣告一个被行业默认了几年的做法——”把经验写成详细文档喂给AI”——是错的。而更让从业者睡不着觉的是，这个错误几乎人人都犯，从创业团队到科技大厂，无一幸免。

1. 你的”经验”正在拖慢AI先交代一下背景。过去两年，AI Agent赛道卷得厉害。大家的共识是：想让Agent学会新技能，就得把经验整理成文档。流程要写清楚，坑要列明白，例子要给足，越详细越好，越完整越有诚意。这套玩法的底层逻辑是：AI靠”阅读”学习，人怎么学，AI就怎么学。但这里有一个根本性的误判。人学技能，确实需要读文档。但人读文档，是为了在脑子里构建一套”决策框架”——遇到什么情况、应该怎么反应、哪些红线不能踩。人脑会自动过滤掉冗余信息，提取出对自己有用的判断逻辑。AI不一样。AI的推理，是一个在”有限计算预算”里寻找最优策略的过程。它不是在”读”一份文档，而是在”搜”——在庞大的上下文中搜索下一步最可能正确的行动。这意味着：当你往上下文里塞入大量”为人类阅读体验服务”的材料时，你实际上是在往答案的海洋里投喂大量噪声。论文里有一句话说得特别扎心：Skill的长处，恰恰建立在服务人类理解之上，而不是服务模型在当下任务中的决策。

02 那些”有效”的Skill，到底做对了什么？不过，Skill并非全然无效。研究团队做了一个精细化实验：把一份完整的Skill文档拆成不同段落，分别注入模型，看哪一段在起作用。结果很有意思。overview段（背景概述）——负贡献最大。它让模型分心了。workflow段（操作流程）——唯一正向贡献，而且贡献还不小。pitfalls段（避坑指南）——轻微正贡献。api_notes段、examples段、scripts段——几乎没有贡献。也就是说，一份2500token的Skill，有效信号集中在workflow那一段，大概两三百token。其他两千多token，要么没用，要么拖后腿。这个发现让研究人员开始思考一个问题：如果有效信号如此集中，为什么不直接把这个”有效部分”提取出来，做成更精简的结构？这正是Gene的起点。

03 Gene是什么？不是更短的Skill，是决策直觉Gene的灵感来自生物学里的基因概念。生物基因是DNA片段，编码蛋白质，承载着千百万年进化下来的经验传承。生物不靠”阅读手册”来适应环境，而是靠基因里编码的”本能反应”。EvoMap团队把类似的逻辑引入了AI Agent领域。一个Gene包含四类信号：第一类：Keywords。这是触发器。当模型遇到一个新任务时，通过关键词匹配快速判断：这个Gene是否适用于当前场景。支持子串匹配、正则表达式、多语言别名。第二类：Summary。高度压缩的一句话描述，让模型快速知道这个Gene”大概是管什么的”。第三类：Strategy。这是核心。不是”第一步做什么、第二步做什么”的操作流程，而是”遇到这类问题，脑子应该怎么转”的决策框架。第四类：AVOID。这是最反直觉的部分——不是”要怎么做”，而是”千万不能怎么做”。把历史上犯过的错，浓缩成一句句独立的警告。举个例子。在论文的一个实验场景——UV-vis光谱分析任务中，研究者提取出了这样一个Gene：

1 Keywords: uv-vis, peak detection, FWHM, unit conversion

2 Summary: Detect peaks and compute wavelength-domain peak properties correctly

3 Strategy:

4 1. Detect peaks with prominence-based criteria

5 2. Convert min_distance into sample-index units before peak detection

6 AVOID: Report FWHM only after converting peak_widths outputs back to wavelength units

整个Gene，大约230个token。它的对照物是同一份经验的Skill版本——包含overview、workflow、pitfalls、API注释、示例代码、脚本，整整2500token。控制变量完全相同，注入同一个模型，评测同一套测试题。结果：Skill版本得分50.7分，Gene版本得分56.6分。差了将近6个百分点。而这6个百分点的差距，不是来自”信息量的多少”，而是来自”信息的存在形态”。

04 失败经验的最优保存方式：不是日志，是警告这篇论文里还有一个非常有意思的发现，关于”失败经验应该怎么存”。行业里常见的做法是：把失败案例记成日志，或者写成反思总结。但研究人员测试了各种形式——Skill、自由文本、日志、reflection summary——效果全部低于无指导基线。只有一种形式例外：把失败蒸馏成一句句独立的AVOID警告。而且，即便是AVOID警告，也不是越多越好。论文做了一个对照：把AVOID警告和Strategy本体混合，结果”Strategy only”比”Strategy + AVOID”更强。但最强的是”AVOID warnings only”——只保留警告，不要策略。这个结论相当反直觉，但背后的逻辑很清晰：对于一个正在执行任务的模型来说，最重要的不是”你应该做什么”，而是”在这个环节，你应该避免做什么”。因为”做什么”是可以从已有知识推理出来的，而”别做什么”往往是需要专门经验才能知道的。05 不花钱的进化：同一个模型，性能翻倍最让产业界兴奋的数据，是这个。研究团队在CritPt benchmark上跑了端到端测试。CritPt是一个专门模拟真实物理科研流程的动态数据集，被认为是目前最接近实战的Agent能力测试之一。结果：基模A（Gemini 3.0），初始水平9.1%。注入Gene之后，飙到18.57%，提升了9.47个百分点。基模B（Gemini 3.0另一个版本），初始水平17.7%。注入Gene之后，涨到27.14%，提升了9.44个百分点。两个模型，提升幅度都接近翻倍。但更惊人的是成本。Token消耗从大约100美金，降到了不到1美金。降低了两个数量级。这意味着什么？意味着过去你以为”让AI变强”的方法——换更强的基模、做更多的微调、大量增加上下文长度——可能都是错的或者低效的。而真正的杠杆点，在于”经验以什么形态回到模型”。不更新一个参数，不改变模型本身，不做任何fine-tuning。仅仅通过改变经验的存储和召回方式，就让同一套模型在同一个任务上的表现翻倍。

06 经验正在从”文档”变成”协议”Gene不只是一个新的数据结构。它背后是一整套协议设计。EvoMap团队把Gene放进了一个叫GEP的框架里——Gene Evolution Protocol，基因进化协议。三层对象：

Event：不可变的执行日志，每一次执行结果都被忠实地记录下来。

Capsule：经过验证的执行路径，包含成功经验和审计记录。

Gene：从经验和路径中提炼出来的策略基因，可以被匹配、注入、复用。

六阶段循环：

提炼 → 匹配 → 注入 → 执行 → 记录 → 验证/突变/固化整个循环不需要人工干预。它是一个自动化的经验进化系统。这意味着Agent不再是一次性学习，而是持续学习。每次执行都在产生数据，每次数据都在优化经验，经验再反哺下一次执行。这已经不是一个”提示词技巧”，而是一个”经验操作系统”的设计思路。

07 整个行业都在”写文档”回到文章开头的问题：为什么这篇论文让从业者睡不着觉？因为它指出了一个几乎人人都犯的错误——把AI Agent的”经验积累”当成”写文档”。这个错误不是某几个创业团队在犯，是整个行业都在犯。从GitHub上的开源Agent项目，到各个科技大厂的内部Agent框架，到所有教人”如何写好Agent Prompt”的教程和课程，无一不在强调”文档要详细、结构要完整、覆盖要全面”。但清华+Evomap的实验告诉我们：这个方向，可能是错的。文档式的经验积累，服务对象是人类，不是模型。模型需要的是”决策信号”，不是”阅读材料”。Skill告诉我们”怎么做”，Gene告诉我们”怎么想”。一个是操作手册，一个是执行直觉。就像一个经验丰富的医生和一个刚毕业的医学博士。博士背诵了成千上万页的教材和指南，但遇到疑难杂症，他还是得翻书。而老医生扫一眼检验报告，脑子里已经有了判断方向——他靠的不是”记住了什么”，而是”遇到这种情况应该往哪个方向想”。

08 一点个人判断这篇论文的价值，不在于它提出了一个”更好的经验格式”，而在于它把”经验表示”这个问题本身，摆到了台面上。过去几年，AI Agent领域的优化方向是非常明确的：更强的基模、更长的上下文、更复杂的RAG、更多的记忆系统。所有人都在往这些方向卷资金、卷人才、卷算力。但几乎没有人认真思考过：给模型”喂经验”这件事，本质上是在做什么？Gene给了我们一个答案：不是传输信息，而是注入控制信号。经验和模型的关系，不是”书和学生”的关系，而是”直觉和决策者”的关系。这意味着，未来Agent开发的核心技能，可能不再是”写Prompt”，而是”提炼策略”——从海量执行记录中提取有效的决策信号，把模糊的、冗余的、人类导向的经验，变成精确的、紧凑的、模型导向的控制对象。但有一点是确定的：谁先想清楚这个问题，谁就拿到了下一代Agent系统的钥匙。

论文原文：From Procedural Skills to Strategy Genes: Towards Experience-Driven Test-Time Evolution作者：Junjie Wang, Yiming Ren, Haoyang Zhang（Infinite Evolution Lab × 清华大学）arXiv: 2604.15097