从AI助手到AI同事:科研Agent的时代真的来了

最近 AI 科研圈又出现了一篇很有意思的文章：

《From Copilots to Colleagues: A Survey of Autonomous Research Agents》

中文可以理解为：

从副驾驶到同事：自主科研智能体综述

这个标题本身就很有冲击力。

过去几年，我们一直把 AI 当成科研里的“副驾驶”：帮我们查资料、改代码、润色论文、总结文献、生成图表。

但这篇文章提出的视角更进一步：

AI 正在从“辅助研究者的工具”，变成可以参与研究流程的“同事”。

也就是说，AI 不再只是你问一句、它答一句；也不只是帮你补几行代码、改几段英文。

它开始尝试独立完成一条更长的科研链路：

提出假设
设计实验
写代码
跑实验
分析结果
反思失败
迭代方案
生成论文

如果说以前的 AI 是“科研助手”，那现在的 autonomous research agent，正在尝试变成一个真正能执行科研任务的“研究队友”。

这就是这篇文章最值得关注的地方。

一、这篇文章为什么值得看？

这篇综述有一个特别有意思的地方：

它讨论的是 自主科研智能体，而文章本身也部分由 AI Agent 辅助生成。

换句话说：

它既是一篇研究 AI 科研系统的文章，也是一场 AI 参与科研写作的实验。

这件事本身就很有象征意义。

过去我们讲 AI 写论文，很多人第一反应是：

“这是不是只是自动拼凑？”

“会不会全是幻觉？”

“它真的懂科研吗？”

这些问题当然重要。

但更重要的是，AI 已经不再只是停留在“写一段文字”这个层面，而是在向更复杂的方向推进：

让 AI 参与一个完整科研流程。

这篇文章的价值，不在于它声称 AI 已经可以完全替代研究者，而在于它试图给这个快速混乱发展的领域画一张地图。

这张地图里包括：

什么才叫自主科研智能体？
它和普通 Chatbot 有什么区别？
当前系统发展到了哪一级？
主流架构有哪些？
代表系统有哪些？
距离真正自主科研还差什么？

对科研人、AI 开发者、研究生、产品经理来说，这篇文章都很值得读。

因为它讨论的不是一个工具，而是一个趋势：

科研工作正在被 Agent 化。

二、什么是 Autonomous Research Agent？

文章给出的核心定义很清楚。

所谓 Autonomous Research Agent，不是普通聊天机器人，也不是简单的论文搜索工具。

它指的是：

给定一个高层研究目标后，系统能够在较少人类干预的情况下，自主执行科学研究的循环过程。

这个循环包括：

假设生成
实验设计
实验执行
结果分析
方案修正
产出研究成果

这和我们平时用 ChatGPT、Claude、Kimi、DeepSeek 辅助科研，有本质区别。

普通 AI 助手更像是：

你让它做什么，它就做什么。

而自主科研智能体更像是：

你给它一个目标，它自己拆解任务、调用工具、执行步骤、观察反馈，并不断调整策略。

举个例子。

普通 AI 助手的使用方式是：

“帮我总结这篇论文。”

“帮我改一下这段代码。”

“帮我润色这段英文。”

而自主科研 Agent 的目标是：

“研究一下某个模型在某类任务上的改进方案，并完成实验验证。”

后者显然复杂得多。

因为它不只是回答问题，而是要真正做事。

三、从 L1 到 L5：AI 科研自动化的五个等级

这篇文章最有价值的部分之一，是提出了一个 L1–L5 的科研 Agent 自主性分级框架。

它有点像自动驾驶分级，只不过对象从汽车变成了科研系统。

L1：自动补全

这是最基础的阶段。

代表工具包括 GitHub Copilot、TabNine 等。

它们可以补代码、补句子、补函数，但人类仍然完全掌控方向。

AI 在这里更像一个高级输入法。

L2：任务执行

这一层的 AI 可以完成单个明确任务。

比如 ChatGPT 加工具、Claude 加工具，可以搜索资料、运行代码、整理信息。

但人类仍然需要不断指挥和确认。

AI 可以干活，但还不能独立推进研究。

L3：多步骤执行，有检查点

到了这一层，AI 已经可以连续执行多个步骤。

比如 Claude Code、Cursor Agent 这类工具，可以在代码库里查文件、改代码、跑测试、修 bug。

人类不需要每一步都审批，只需要在关键节点检查。

这已经很接近“科研助理”了。

L4：有边界的全流程自主

这是当前前沿系统所在的位置。

比如 AI Scientist、SWE-Agent、Devin 等。

它们可以在一个相对明确的任务范围内，自主执行较长流程：

生成想法
写实验代码
运行实验
记录结果
写论文或提交 PR

人类主要在最后评估结果，而不是每一步都参与。

L5：自我设定研究议程

这是最高等级，也是目前还没有真正实现的阶段。

L5 级 Agent 不只是完成你给的研究任务，而是能够自己判断：

什么问题值得研究？
哪条路线最有价值？
如何分配资源？
如何长期积累知识？
如何形成连续研究计划？

简单说，L5 不是“做题”，而是“选题”。

这也是 AI 科研最难的地方。

现在的系统最多是在有限边界内做得越来越好，但离真正自我驱动的科学家，还有明显距离。

四、四种主流架构：AI 科研团队是怎么搭起来的？

文章总结了当前自主科研 Agent 的四类主流架构。

1. 单智能体循环

这是最经典的 Agent 模式：

观察 → 思考 → 行动 → 反馈 → 再思考

一个 Agent 反复执行任务，不断根据环境反馈调整下一步。

它的优点是简单、直接、成本较低。

缺点也明显：复杂任务容易卡住、绕圈、跑偏，甚至陷入“无限思考”。

2. 多智能体协作

这类系统会把任务分给多个 Agent。

比如：

一个负责读文献
一个负责想方法
一个负责写代码
一个负责审查结果
一个负责写论文

听起来像一个 AI 版课题组。

它的优势是分工明确，可以并行探索；缺点是协调成本高，容易出现重复劳动、观点冲突和责任不清。

3. 层级式编排

这类架构更像公司组织。

上层有一个 manager agent，负责拆解任务和分配工作；下层有多个 worker agent，负责具体执行。

这种结构适合复杂项目，因为它更容易控制流程。

但问题也很明显：如果上层规划错了，下面执行得再努力也会跑偏。

4. 工具增强执行

这一类强调让 Agent 调用外部工具。

比如：

搜索引擎
代码解释器
文件系统
GitHub
数据库
浏览器
实验环境
GPU 沙箱

科研不只是“想”，还要“做”。

所以工具调用能力，决定了 Agent 能不能从聊天框走向真实工作流。

没有工具，AI 只是会说；有了工具，AI 才开始能做。

五、当前 AI 科研到了哪一步？

这篇文章的判断很清醒：

当前最前沿的自主科研系统，大多处在 L4，而不是 L5。

也就是说，它们已经可以在明确边界内完成很复杂的任务。

比如修复真实 GitHub issue、跑一套实验、生成一篇论文草稿、完成某个封闭领域的探索。

但它们还不能真正像人类科学家一样：

自己提出长期研究方向
判断什么问题重要
持续积累跨项目经验
在开放世界里形成研究品味
对结果的新颖性做可靠判断

这点非常关键。

很多人看到 AI 自动写论文，就会直接跳到一个极端结论：

“科研人要被替代了。”

但这篇文章更接近另一个判断：

AI 正在接管科研里的部分执行环节，但还没有真正接管科学判断本身。

换句话说，AI 很擅长加速“怎么做”，但“做什么”“为什么值得做”，仍然是最难的部分。

六、六个难题：为什么 L5 还没有到来？

文章最后总结了自主科研 Agent 面临的六个核心开放问题。

1. 认知循环

Agent 很容易陷入循环。

它可能反复检查同一个错误，反复修改同一个文件，或者不断产生看似合理但无效的新计划。

这就是所谓的 cognitive loops。

2. 上下文限制

科研任务往往很长。

文献、代码、实验记录、失败尝试、历史版本，全都需要记住。

但模型上下文有限，长任务中很容易遗忘、混乱或压缩失真。

3. 新颖性评价

科研最重要的不是“写出来”，而是“有没有新东西”。

但 AI 很难判断一个想法是否真正新颖。

它可能生成看起来很漂亮、其实已有很多人做过的工作。

4. 可复现性

Agent 系统往往带有随机性。

同一个任务，换一次 prompt、模型版本或随机种子，可能结果就不同。

这对科学研究非常致命，因为科研必须可复现。

5. 安全与伦理

自主科研 Agent 能调用工具、执行代码、探索方案。

这当然提高效率，但也带来风险。

比如双重用途研究、危险实验、自动化漏洞利用、不可控自我改进等。

越自主，越需要边界。

6. 成本问题

长流程 Agent 很吃 token、算力和时间。

多智能体协作、反复实验、自动评审，都可能让成本快速上升。

如果成本不可控，再强也很难普及。

七、对普通科研人意味着什么？

这篇文章真正值得普通科研人关注的，不是“AI 会不会取代你”，而是：

科研工作的分工正在变化。

未来，AI 很可能会越来越多承担这些工作：

文献初筛
代码实现
实验复现
参数搜索
图表生成
论文初稿
审稿意见模拟
错误排查

而人类研究者更需要把精力放在：

选题判断
理论洞察
问题定义
实验设计边界
结果解释
学术品味
伦理责任

换句话说，未来科研人的竞争力不只是“会不会写代码、会不会读论文”。

更重要的是：

你能不能提出好问题，并判断 AI 做出来的东西到底有没有价值。

AI 可以帮你跑得更快，但方向盘仍然很重要。

八、研究生应该怎么应对？

如果你是研究生、博士生，或者正在做科研，我建议你不要把这类 Agent 当成简单的“论文代写工具”。

更好的用法是把它当成一个科研副手：

1. 用它做文献地图

让 AI 帮你梳理一个领域的代表论文、方法脉络、主要争议和开放问题。

但不要直接相信结果，要自己回到原文核验。

2. 用它做实验助理

让 AI 帮你写 baseline、整理实验脚本、生成可视化图表、检查代码 bug。

这能节省大量低价值时间。

3. 用它做审稿模拟器

写完论文后，让 AI 从 reviewer 视角批评你的贡献、实验、结构和表达。

这非常有用，因为它能提前暴露很多问题。

4. 用它做反向提问者

不要只问：

“帮我写一段。”

更应该问：

“这个研究问题是否真的重要？”

“这个方法相对已有工作有什么不可替代性？”

“如果我是审稿人，会攻击哪里？”

“这个实验能否支撑我的结论？”

这才是 AI 在科研中最有价值的用法。

九、写在最后：科研 Agent 的重点，不是替代，而是重组

《From Copilots to Colleagues》这个标题很妙。

它没有说 AI 从工具变成了主人，也没有说 AI 已经取代科学家。

它说的是：

从 Copilot 到 Colleague。

从副驾驶，到同事。

这是一种更准确的描述。

未来的科研，很可能不是人类单独做，也不是 AI 完全做，而是进入一种新的协作模式：

人类提出问题
AI 快速探索
人类判断价值
AI 执行实验
人类解释结果
AI 生成初稿
人类负责最终论证与责任

这不是简单的替代，而是科研生产方式的重组。

对普通人来说，最重要的不是焦虑，而是尽快适应这种新分工。

因为当 AI 可以帮你完成大量执行工作时，真正稀缺的能力会变成：

提出好问题
设计好任务
判断好结果
建立好标准
保持学术诚实

AI 可以越来越像同事。

但什么问题值得研究，什么结论值得相信，什么成果值得发表，仍然需要人类研究者保持清醒。

这也许才是 AI 科研时代，最重要的能力。

参考资料

From Copilots to Colleagues: A Survey of Autonomous Research Agentshttps://victorchen96.github.io/auto_research_survey.pdf
相关报道：DeepSeek 陈德里与两个 AI 合写综述文章https://www.36kr.com/p/3826918146691721