

论文速览
维度 | 信息 |
标题 | From Procedural Skills to Strategy Genes: Towards Experience-Driven Test-Time Evolution |
作者 | Junjie Wang, Yiming Ren |
机构 | EvoMap ,Tsinghua University |
论文地址 | https://arxiv.org/abs/2604.15097 |
代码地址 | https://github.com/EvoMap/evolver |
关键词 | LLM Agent, Test-Time Control、Experience Reuse |
发表时间 | 2026年4月16日 |

背景与问题

核心贡献

方法详解
当模型面对一个新任务时,它就像一架停在跑道上的飞机——它需要一条清晰、可执行的控制指令来指引方向,而不是一本厚厚的《飞行员手册》。技能包像一整本飞行手册,策略基因正是那一句来自塔台的关键指令。
基因的结构:六字段控制模板
一个基因由以下六个字段组成:
m(信号匹配):关键词或触发线索,告诉模型"这个基因管这事";
u(摘要):一句话描述目标行为;
π(策略步骤):短小精悍的操作序列;
α(AVOID 警告):高风险决策点,告知模型此地雷区;
c(约束条件):可选的执行边界;
v(验证钩子):可选的可执行检查。
以 S012_uv_spectroscopy 场景为例,同一经验被分别打包为 Skill 和 Gene。Skill 给出完整的工作流说明;Gene 则直接聚焦于两个最高危的操作陷阱——单位转换和 FWHM 计算,直接将塔台的核心指令送达飞行员。
基因进化协议:让基因持续迭代
单个基因是原子级控制单元,但它需要一套协议才能"进化"。GEP 定义了三层对象结构:
Gene(基因):原子级控制单元,可直接注入测试时上下文;
Capsule(胶囊):经过验证的任务执行路径 + 审计轨迹;
Event(事件):不可变的进化日志,记录每次变异或修复。

关键图表解读



实验与结果
SkillProbe :Skill 的有效控制信号集中在 Workflow 节段,但整个文档包的净效果为负。文档化逻辑与控制逻辑根本上是冲突的。
GeneProbe :基因的优势不可归结为"更短",而是"更结构化"。策略层才是决定性因素;内容损坏比结构变形更具破坏性;向基因附加文档只会稀释而非补强。
EvolutionProbe :失败历史在基因载体中保存得更好;可编辑结构本身就有价值;最有效的失败编码是独立的 AVOID 警告,而非与策略混合。基因驱动的进化系统能在不改变底层模型的情况下,实现近 10 个百分点的跨代提升。
结论

结论
基因能否跨领域迁移(例如从量子物理任务学到的策略基因,迁移到化学规划任务)? 在 GEP 的六阶段循环中,“意图”(Intent)阶段是否可以被进一步自动化,从而实现完全自主的持续进化?




夜雨聆风