AI开始自己做科研了,但真正的突破不在“更聪明”—

AI开始自己做科研了,但真正的突破不在“更聪明”——从AiScientist看时代真正的竞争力

点击蓝字关注我们

Science & Technology

当大多数人还在讨论：AI能不能写论文、做实验、替代科研人员时，

一个更关键的问题其实已经出现了：

AI，能不能像人类一样，持续几天甚至更长时间，完成一整套复杂研究？

最近一篇论文《Toward Autonomous Long-Horizon Engineering for ML Research》，给出了一个非常有意思的答案。

它没有去追求“更强的模型”，而是换了一个方向——

👉 让AI像一个“研究团队”，而不是一个“聪明个体”。

AI做科研，卡住的不是“能力”，而是“时间”

过去两年，AI在科研上的进展其实已经很惊人：

能读论文
能写代码
能设计实验
甚至能写完整论文

但这些能力，有一个共同的问题：

❗ 都是“短时任务”

而真正的科研是什么？

是一个长周期工程：

理解论文（可能不完整）
搭环境（经常报错）
写代码（不断修改）
跑实验（反馈延迟）
调参数（反复试错）

这个过程，往往持续数小时、数天，甚至更久。

问题来了——

👉 AI在这个过程中，为什么总是“中途崩掉”？

论文给出的答案很直接：

不是AI不够聪明，而是它“记不住、接不上、接不稳”。

真正的瓶颈：AI没有“连续性”

这篇论文提出了一个非常关键的判断：

👉 长周期能力，本质不是推理问题，而是系统问题

具体来说，有四个核心难点：

1. 信息不完整（Underspecification）

论文不会告诉你所有实现细节，AI需要“补全空白”。

2. 系统复杂（Setup Burden）

不是写算法就够，还要配环境、下数据、调依赖。

3. 反馈滞后（Delayed Feedback）

问题往往几个小时后才暴露，而且原因复杂。

4. 状态断裂（State Continuity）

最致命的一点：

❗ AI很难“记住自己之前做了什么，并在此基础上继续推进”

这也是为什么很多Agent看起来很努力，但始终在“重复犯错”。

AiScientist：把AI变成一个“研究团队”

这篇论文的核心系统叫 AiScientist。

但它真正有价值的，不是“功能”，而是背后的设计哲学：

不再依赖对话，而是依赖“外部记忆”

✦

传统AI的工作方式是：

对话 → 推理 → 输出 → 结束

而AiScientist做了一件很关键的事情：

👉 把所有过程写进文件

包括：

论文分析
任务计划
代码实现
实验日志
错误记录

这些文件构成一个“项目空间”。

AI之间的协作方式也变了：

不再聊天，而是——读文件 → 做事 → 写文件

论文把这个机制称为：

File-as-Bus（文件即通信总线）

控制变轻，状态变重

✦

作者提出一个非常值得记住的概念：

👉 Thin Control + Thick State

Thin Control（轻控制）顶层AI只做简单决策（类似项目经理）
Thick State（厚状态）所有细节都存储在外部（代码、日志、实验结果）

这意味着什么？

👉 AI不再需要“记住一切”，而是随时从外部读取真实状态。

多Agent，但不是“多聊天”

✦

现在很多多Agent系统，本质还是“多人对话”。

但AiScientist不一样：

它更像一个真正的团队结构：

顶层：调度者（Orchestrator）
中层：专家（写代码、做实验等）
底层：执行单元（子任务）

更关键的是：

👉 每个Agent只负责一件事，并且通过“文件”协作

而不是不断互相解释、复述、沟通。

为什么这个设计有效？

论文做了一个非常有说服力的实验：

👉 去掉 File-as-Bus，性能大幅下降

PaperBench ↓ 6.41分
MLE-Bench ↓ 31.82%

而且一个非常有意思的现象是：

影响最大的，不是“能不能做出来”，而是“能不能持续优化”

也就是说：

没有“记忆”，AI可以起步
但无法变强

一个被忽视的事实：AI的进化方向变了

这篇论文其实在暗示一件事：

❗ AI的竞争，正在从“模型能力”，转向“系统能力”

过去，我们关注的是：

谁的模型更强
谁的推理更好

但未来更重要的是：

👉 谁能构建一个“持续工作的AI系统”

这对我们意味着什么？

如果你在做产品、教育、内容，甚至企业服务，这篇论文有几个非常现实的启发：

AI的核心能力，不是“回答问题”，

而是“推进任务”

✦

未来的AI，不是一个问答工具，而是：

👉 一个能持续推进项目的“执行系统”

“记忆”会成为核心竞争力

✦

不是简单的上下文记忆，而是：

项目级记忆
结构化记录
可追溯过程

多Agent的关键，不是数量，而是结构

✦

不是多几个角色，而是：

有没有清晰分工
有没有统一状态
有没有稳定协作机制

真正的AI生产力，在“闭环”

✦

从：

想 → 做 → 验证 → 修正 → 再做

形成一个持续循环

一个更本质的问题

很多人问：

AI会不会取代科研人员？

这篇论文给出的答案更接近：

AI不会直接取代人，但会重构“科研的组织方式”。

未来的科研，可能不再是：

一个人 + 工具

而是：

👉 一个人 + 一套AI研究系统

总结

AI的下一步，不是更像人类思考，而是更像人类“工作”。

而工作的本质，从来不是一次推理，而是——

在不确定中，持续推进。

公众号

新未来研究院

视频号

新未来研究院