DAIR.AI 5 月 31 日发出的本周论文清单,意外暴露了一个趋势——SkillOpt 把 agent 技能当参数训练,准确率飙升 23.5 个点;AutoScientists 让多个 AI agent 自组织跑长周期科研实验;还有一篇论文标题直接写着「语言模型需要睡觉」。底模没换,系统层先动了。
七篇论文,同一个信号
5 月 31 日,AI 研究聚合账号 DAIR.AI 发出了例行的「本周顶级 AI 论文」清单。

▲ DAIR.AI 周度论文清单,5.7 万次查看
清单里列了七个名字:SkillOpt、AutoScientists、The Efficiency Frontier、Language Models Need Sleep、Adapting the Interface Not the Model、Forecasting Scientific Progress with AI、Compiling Agentic Workflows into Weights。
单看每篇,方向各异——skill 优化、多 agent 协作、离线记忆巩固、科学预测、runtime harness、workflow 编译。但拉远了看,这七篇论文都在回答同一个问题:如果底层模型暂时不大改,AI 系统还能从哪里变强?
答案指向了模型之外的一切。
SkillOpt:把 agent 技能当模型参数来训练
过去做 agent 技能(skill),主流做法要么靠人手写 prompt,要么让模型生成一版然后松散地自我修订。这些方法有一个共同的问题:缺乏系统化的优化流程,更像经验调参,远达不到训练权重时的可控和可复现。
微软系团队在 SkillOpt 这篇论文里换了一个思路:把 skill 文档当成冻结 agent 的外部状态,用独立的优化器模型来训练它。

▲ SkillOpt 论文 arXiv 页面,2026 年 5 月提交
具体做法是,用一个 optimizer model 根据 scored rollouts(打分后的执行轨迹),对 skill 文档做有边界的 add/delete/replace 编辑。关键约束:只有当修改能在 held-out validation set 上严格提分时,这次编辑才会被接受。论文还引入了 textual learning-rate budget、rejected-edit buffer、epoch-wise slow/meta update 等机制,让文本空间里的优化也具备训练权重时的稳定性。
数据很猛。
论文测了 52 个评估格子(6 个 benchmark × 7 个目标模型 × 3 种执行环境),SkillOpt 全部拿到最优或持平。在 GPT-5.5 上,direct chat 准确率平均提升+23.5 个百分点,Codex agentic loop 里提升+24.8,Claude Code 里提升+19.1。
而且优化出来的 skill 文档还能跨模型迁移——从小模型训出来的 skill,搬到大模型上依然有效;从 Codex 迁移到 Claude Code 也能保持收益。
这意味着什么?Agent 的能力上限,开始可以脱离底模升级来单独拉升了。
当然,边界也得画清楚:这些数字来自特定 benchmark 和特定执行环境,现实产品场景能否完全复制同样的收益,还需要更多验证。但方向信号已经足够明确——skill optimization 正在从手工调参进入系统化训练时代。
AutoScientists:AI 科研团队开始「自组织」
如果 SkillOpt 在改单个 agent 的内部能力表达,那 AutoScientists 改的是多个 agent 之间的协作组织方式。

▲ AutoScientists 论文 arXiv 页面,来自哈佛 Marinka Zitnik 团队
这篇论文来自哈佛大学 Marinka Zitnik 团队,瞄准的痛点很明确:过去的 AI 科研系统,要么一条路走到黑,要么靠中央调度统一分配,无法真正并行探索多条研究路线,也很难在实验失败后保留和共享经验。
AutoScientists 的方案是一个去中心化的 AI agent 科研团队。多个 agent 共享实验状态,围绕有潜力的假设自组织成队,在调用计算资源前先做提案互评(proposal critique),成功和失败经验都共享出来减少重复踩坑。
关键数据:
BioML-Bench 的 24 个任务上,mean leaderboard percentile 74.4%,比最强单 AI agent 高 +8.33% GPT training optimization 任务里,达标速度比 Autoresearch 快1.9 倍 在一个已经从 champion starting point 出发的场景里,AutoScientists 还能继续找到7 个 accepted improvements,单 agent baseline 找到 0 个 ProteinGym ACE2-Spike binding 任务上,比当前 SOTA 高+12.5% Spearman correlation
别急着喊「AI 科学家已经来了」。这篇论文真正展示的是:科研自动化的瓶颈正在从「单个 agent 不够聪明」转向「多 agent 怎么高效协作」。Agent 研究开始从单体 benchmark 进入协作系统设计阶段。
Language Models Need Sleep:把推理负担搬到「睡眠」阶段
这篇论文标题是当周最容易刷屏的——《Do Language Models Need Sleep?》

▲ arXiv 搜索结果页,「Language Models Need Sleep」相关论文
但拨开标题的拟人化外壳,它讨论的是一个很实际的工程问题:Transformer 在长任务里的 attention 成本随 context length 剧增,怎么办?
论文提出了一种sleep-like consolidation mechanism(类睡眠巩固机制):模型周期性地把近期上下文压成 persistent fast weights,同时清掉 key-value cache。所谓「睡眠」阶段,模型对累计上下文进行若干次 offline recurrent passes,用 learned local rule 更新 state-space model blocks 里的 fast weights;而在「清醒」推理阶段,则维持较低延迟。
简单说:重新分配计算。把一部分在线推理时的负担,挪到离线「巩固」阶段去做。
论文在 cellular automata、multi-hop graph retrieval 和 math reasoning 任务上测试,结果显示 sleep duration 越长,性能越高——尤其在需要更深层推理的样本上收益更明显。
"a sleep-like consolidation mechanism"
「一种类睡眠的巩固机制。」
必须强调:「sleep」在这里是机制隐喻,跟意识或拟人化无关。论文结果来自特定任务和结构设定,更像是推理架构的一个新方向探索。但它指向的问题和 SkillOpt、AutoScientists 深层一致:都在模型参数之外,寻找系统级提升路径。
Forecasting Scientific Progress with AI:这篇论文泼了一盆冷水
前面几篇都在展示怎么让 agent 和系统更强。这篇反过来问了一个尖锐的问题:AI 能预测科学突破什么时候发生吗?

▲ Hugging Face Papers 页面,展示论文摘要与机构信息
作者构建了 CUSP(Cutoff-conditioned Unseen Scientific Progress)benchmark,覆盖4,760 个科学事件,从 feasibility assessment、mechanistic reasoning、generative solution design 到 temporal prediction 多个维度评估。
核心结论?不乐观。
当前前沿模型能从候选项里识别合理方向,但在「某个科学进展是否会真正实现、什么时候实现」这两个问题上,依然不可靠 AI progress 的时间线相对更可预测,但生物、化学、物理的进展更难预测 模型表现出系统性过度自信和 response bias 增加训练截止日前的知识能改善表现,但无法弥合与 full-information setting 的差距
"current AI systems fall short as predictive tools for scientific progress"
「当前 AI 系统在科学进展预测方面仍有明显短板。」
在一组看似「AI 又在变强」的论文里,这篇起到了关键的平衡作用。它提醒了一件事:AI 即便被深度嵌入科研流程,也不等于已经具备可靠的科学前瞻能力。对模型能力的测量,正在变得更细分也更克制。
社区热议:不改模型,改接口,平均提升 88.5%
评论区里,有人直接点名了清单里最被低估的一篇——Adapting the Interface, Not the Model。
完整标题是《Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents》。论文的核心观点:很多确定性、规则驱动环境下的 agent 失败,根源在 model-environment interface 设计不当,跟模型本身的能力关系不大。
论文提出的 Life-Harness 方案,在 tau-bench、tau²-bench 和 AgentBench 上,跨 18 个模型 backbone、126 个 model-environment 设定中改善了 116 个,平均相对提升 88.5%。而这些 harness 干预只用 Qwen3-4B-Instruct 的训练轨迹演化出来,却可以迁移到其他 17 个模型。
这条线和 SkillOpt 互为呼应:一个在训练外部 skill 文档,一个在优化运行时环境接口。研究者正在把注意力从「换更强底模」转向「修系统接口、训练外部技能、改 agent 所处的运行环境」。
另一篇被社区重点追踪的是Compiling Agentic Workflows into Weights,完整标题是《Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost》。核心想法:既然 workflow、prompt、orchestration 能在运行时带来能力增益,那能不能把这些行为模式编译进权重,换取更低成本和更简单的系统架构?
社区评论区有人说:
"if it works, the system prompt vs. weights debate gets less theoretical fast"
「如果这条路走通了,system prompt 还是 weights 的争论会很快从理论问题变成工程问题。」
拉远了看:本周论文指向同一个转折点
把这七篇论文放在一起,共同的方向其实非常集中:
模型之外的优化正在系统化。SkillOpt 训 skill 文档,Adapting the Interface 改 runtime harness,Compiling Workflows into Weights 讨论把行为模式编进权重。AI 系统改进已经不只等于「训一个更大的模型」。
Agent 研究从单体能力转向组织能力。AutoScientists 的目标很明确——造一支会分工、会并行探索、会共享失败经验的 agent 团队,重点在协作机制。
长上下文和记忆问题在走向更结构化的解法。Language Models Need Sleep 把 context handling 做成周期性 consolidation,核心是在不拖垮延迟的前提下,把历史信息压缩进更持久的状态结构。
对 AI 科学能力的判断开始更细分。Forecasting Scientific Progress 没有顺着热度往上冲,反而把科学预测拆成具体维度来测,然后给出了保守结论。
当一周的高关注论文同时指向「模型参数之外的系统层创新」,说明一个阶段性转折正在发生。过去几年,AI 领域的主旋律是更大的模型、更多的算力、更长的训练。而这一周的论文像是集体掉头:底模先不动,skill、harness、memory、workflow、科研协作流程——这些模型外的工程,开始成为能力提升的主战场。
下一轮 AI 系统的竞争力,可能不取决于谁的模型最大,而取决于谁的系统工程做得最细。
— END —
夜雨聆风