点击蓝字 关注我们
Science & Technology
当大多数人还在讨论:AI能不能写论文、做实验、替代科研人员时,
一个更关键的问题其实已经出现了:
AI,能不能像人类一样,持续几天甚至更长时间,完成一整套复杂研究?
最近一篇论文《Toward Autonomous Long-Horizon Engineering for ML Research》,给出了一个非常有意思的答案。
它没有去追求“更强的模型”,而是换了一个方向——
👉 让AI像一个“研究团队”,而不是一个“聪明个体”。

01
AI做科研,卡住的不是“能力”,而是“时间”

过去两年,AI在科研上的进展其实已经很惊人:
能读论文
能写代码
能设计实验
甚至能写完整论文
但这些能力,有一个共同的问题:
❗ 都是“短时任务”
而真正的科研是什么?
是一个长周期工程:
理解论文(可能不完整)
搭环境(经常报错)
写代码(不断修改)
跑实验(反馈延迟)
调参数(反复试错)
这个过程,往往持续数小时、数天,甚至更久。
问题来了——
👉 AI在这个过程中,为什么总是“中途崩掉”?
论文给出的答案很直接:
不是AI不够聪明,而是它“记不住、接不上、接不稳”。
02
真正的瓶颈:AI没有“连续性”
这篇论文提出了一个非常关键的判断:
👉 长周期能力,本质不是推理问题,而是系统问题
具体来说,有四个核心难点:
1. 信息不完整(Underspecification)
论文不会告诉你所有实现细节,AI需要“补全空白”。
2. 系统复杂(Setup Burden)
不是写算法就够,还要配环境、下数据、调依赖。
3. 反馈滞后(Delayed Feedback)
问题往往几个小时后才暴露,而且原因复杂。
4. 状态断裂(State Continuity)
最致命的一点:
❗ AI很难“记住自己之前做了什么,并在此基础上继续推进”
这也是为什么很多Agent看起来很努力,但始终在“重复犯错”。
03
AiScientist:把AI变成一个“研究团队”

这篇论文的核心系统叫 AiScientist。
但它真正有价值的,不是“功能”,而是背后的设计哲学:
01
不再依赖对话,而是依赖“外部记忆”
✦
传统AI的工作方式是:
对话 → 推理 → 输出 → 结束
而AiScientist做了一件很关键的事情:
👉 把所有过程写进文件
包括:
论文分析
任务计划
代码实现
实验日志
错误记录
这些文件构成一个“项目空间”。
AI之间的协作方式也变了:
不再聊天,而是——读文件 → 做事 → 写文件
论文把这个机制称为:
File-as-Bus(文件即通信总线)
02
控制变轻,状态变重
✦
作者提出一个非常值得记住的概念:
👉 Thin Control + Thick State
Thin Control(轻控制)顶层AI只做简单决策(类似项目经理)
Thick State(厚状态)所有细节都存储在外部(代码、日志、实验结果)
这意味着什么?
👉 AI不再需要“记住一切”,而是随时从外部读取真实状态。
03
多Agent,但不是“多聊天”
✦
现在很多多Agent系统,本质还是“多人对话”。
但AiScientist不一样:
它更像一个真正的团队结构:
顶层:调度者(Orchestrator)
中层:专家(写代码、做实验等)
底层:执行单元(子任务)
更关键的是:
👉 每个Agent只负责一件事,并且通过“文件”协作
而不是不断互相解释、复述、沟通。
04
为什么这个设计有效?
论文做了一个非常有说服力的实验:
👉 去掉 File-as-Bus,性能大幅下降
PaperBench ↓ 6.41分
MLE-Bench ↓ 31.82%
而且一个非常有意思的现象是:
影响最大的,不是“能不能做出来”,而是“能不能持续优化”
也就是说:
没有“记忆”,AI可以起步
但无法变强


05
一个被忽视的事实:AI的进化方向变了
这篇论文其实在暗示一件事:
❗ AI的竞争,正在从“模型能力”,转向“系统能力”
过去,我们关注的是:
谁的模型更强
谁的推理更好
但未来更重要的是:
👉 谁能构建一个“持续工作的AI系统”
06
这对我们意味着什么?
如果你在做产品、教育、内容,甚至企业服务,这篇论文有几个非常现实的启发:
01
AI的核心能力,不是“回答问题”,
而是“推进任务”
✦
未来的AI,不是一个问答工具,而是:
👉 一个能持续推进项目的“执行系统”
02
“记忆”会成为核心竞争力
✦
不是简单的上下文记忆,而是:
项目级记忆
结构化记录
可追溯过程
03
多Agent的关键,不是数量,而是结构
✦
不是多几个角色,而是:
有没有清晰分工
有没有统一状态
有没有稳定协作机制
04
真正的AI生产力,在“闭环”
✦
从:
想 → 做 → 验证 → 修正 → 再做
形成一个持续循环
07
一个更本质的问题
很多人问:
AI会不会取代科研人员?
这篇论文给出的答案更接近:
AI不会直接取代人,但会重构“科研的组织方式”。
未来的科研,可能不再是:
一个人 + 工具
而是:
👉 一个人 + 一套AI研究系统
总结
AI的下一步,不是更像人类思考,而是更像人类“工作”。
而工作的本质,从来不是一次推理,而是——
在不确定中,持续推进。

公众号
新未来研究院
视频号
新未来研究院
夜雨聆风