最近 AI 科研圈又出现了一篇很有意思的文章:
《From Copilots to Colleagues: A Survey of Autonomous Research Agents》
中文可以理解为:
从副驾驶到同事:自主科研智能体综述
这个标题本身就很有冲击力。
过去几年,我们一直把 AI 当成科研里的“副驾驶”:帮我们查资料、改代码、润色论文、总结文献、生成图表。
但这篇文章提出的视角更进一步:
AI 正在从“辅助研究者的工具”,变成可以参与研究流程的“同事”。
也就是说,AI 不再只是你问一句、它答一句;也不只是帮你补几行代码、改几段英文。
它开始尝试独立完成一条更长的科研链路:
提出假设 设计实验 写代码 跑实验 分析结果 反思失败 迭代方案 生成论文
如果说以前的 AI 是“科研助手”,那现在的 autonomous research agent,正在尝试变成一个真正能执行科研任务的“研究队友”。
这就是这篇文章最值得关注的地方。
一、这篇文章为什么值得看?
这篇综述有一个特别有意思的地方:
它讨论的是 自主科研智能体,而文章本身也部分由 AI Agent 辅助生成。
换句话说:
它既是一篇研究 AI 科研系统的文章,也是一场 AI 参与科研写作的实验。
这件事本身就很有象征意义。
过去我们讲 AI 写论文,很多人第一反应是:
“这是不是只是自动拼凑?”
“会不会全是幻觉?”
“它真的懂科研吗?”
这些问题当然重要。
但更重要的是,AI 已经不再只是停留在“写一段文字”这个层面,而是在向更复杂的方向推进:
让 AI 参与一个完整科研流程。
这篇文章的价值,不在于它声称 AI 已经可以完全替代研究者,而在于它试图给这个快速混乱发展的领域画一张地图。
这张地图里包括:
什么才叫自主科研智能体? 它和普通 Chatbot 有什么区别? 当前系统发展到了哪一级? 主流架构有哪些? 代表系统有哪些? 距离真正自主科研还差什么?
对科研人、AI 开发者、研究生、产品经理来说,这篇文章都很值得读。
因为它讨论的不是一个工具,而是一个趋势:
科研工作正在被 Agent 化。
二、什么是 Autonomous Research Agent?
文章给出的核心定义很清楚。
所谓 Autonomous Research Agent,不是普通聊天机器人,也不是简单的论文搜索工具。
它指的是:
给定一个高层研究目标后,系统能够在较少人类干预的情况下,自主执行科学研究的循环过程。
这个循环包括:
假设生成 实验设计 实验执行 结果分析 方案修正 产出研究成果
这和我们平时用 ChatGPT、Claude、Kimi、DeepSeek 辅助科研,有本质区别。
普通 AI 助手更像是:
你让它做什么,它就做什么。
而自主科研智能体更像是:
你给它一个目标,它自己拆解任务、调用工具、执行步骤、观察反馈,并不断调整策略。
举个例子。
普通 AI 助手的使用方式是:
“帮我总结这篇论文。”
“帮我改一下这段代码。”
“帮我润色这段英文。”
而自主科研 Agent 的目标是:
“研究一下某个模型在某类任务上的改进方案,并完成实验验证。”
后者显然复杂得多。
因为它不只是回答问题,而是要真正做事。
三、从 L1 到 L5:AI 科研自动化的五个等级
这篇文章最有价值的部分之一,是提出了一个 L1–L5 的科研 Agent 自主性分级框架。
它有点像自动驾驶分级,只不过对象从汽车变成了科研系统。
L1:自动补全
这是最基础的阶段。
代表工具包括 GitHub Copilot、TabNine 等。
它们可以补代码、补句子、补函数,但人类仍然完全掌控方向。
AI 在这里更像一个高级输入法。
L2:任务执行
这一层的 AI 可以完成单个明确任务。
比如 ChatGPT 加工具、Claude 加工具,可以搜索资料、运行代码、整理信息。
但人类仍然需要不断指挥和确认。
AI 可以干活,但还不能独立推进研究。
L3:多步骤执行,有检查点
到了这一层,AI 已经可以连续执行多个步骤。
比如 Claude Code、Cursor Agent 这类工具,可以在代码库里查文件、改代码、跑测试、修 bug。
人类不需要每一步都审批,只需要在关键节点检查。
这已经很接近“科研助理”了。
L4:有边界的全流程自主
这是当前前沿系统所在的位置。
比如 AI Scientist、SWE-Agent、Devin 等。
它们可以在一个相对明确的任务范围内,自主执行较长流程:
生成想法 写实验代码 运行实验 记录结果 写论文或提交 PR
人类主要在最后评估结果,而不是每一步都参与。
L5:自我设定研究议程
这是最高等级,也是目前还没有真正实现的阶段。
L5 级 Agent 不只是完成你给的研究任务,而是能够自己判断:
什么问题值得研究? 哪条路线最有价值? 如何分配资源? 如何长期积累知识? 如何形成连续研究计划?
简单说,L5 不是“做题”,而是“选题”。
这也是 AI 科研最难的地方。
现在的系统最多是在有限边界内做得越来越好,但离真正自我驱动的科学家,还有明显距离。
四、四种主流架构:AI 科研团队是怎么搭起来的?
文章总结了当前自主科研 Agent 的四类主流架构。
1. 单智能体循环
这是最经典的 Agent 模式:
观察 → 思考 → 行动 → 反馈 → 再思考
一个 Agent 反复执行任务,不断根据环境反馈调整下一步。
它的优点是简单、直接、成本较低。
缺点也明显:复杂任务容易卡住、绕圈、跑偏,甚至陷入“无限思考”。
2. 多智能体协作
这类系统会把任务分给多个 Agent。
比如:
一个负责读文献 一个负责想方法 一个负责写代码 一个负责审查结果 一个负责写论文
听起来像一个 AI 版课题组。
它的优势是分工明确,可以并行探索;缺点是协调成本高,容易出现重复劳动、观点冲突和责任不清。
3. 层级式编排
这类架构更像公司组织。
上层有一个 manager agent,负责拆解任务和分配工作;下层有多个 worker agent,负责具体执行。
这种结构适合复杂项目,因为它更容易控制流程。
但问题也很明显:如果上层规划错了,下面执行得再努力也会跑偏。
4. 工具增强执行
这一类强调让 Agent 调用外部工具。
比如:
搜索引擎 代码解释器 文件系统 GitHub 数据库 浏览器 实验环境 GPU 沙箱
科研不只是“想”,还要“做”。
所以工具调用能力,决定了 Agent 能不能从聊天框走向真实工作流。
没有工具,AI 只是会说;有了工具,AI 才开始能做。
五、当前 AI 科研到了哪一步?
这篇文章的判断很清醒:
当前最前沿的自主科研系统,大多处在 L4,而不是 L5。
也就是说,它们已经可以在明确边界内完成很复杂的任务。
比如修复真实 GitHub issue、跑一套实验、生成一篇论文草稿、完成某个封闭领域的探索。
但它们还不能真正像人类科学家一样:
自己提出长期研究方向 判断什么问题重要 持续积累跨项目经验 在开放世界里形成研究品味 对结果的新颖性做可靠判断
这点非常关键。
很多人看到 AI 自动写论文,就会直接跳到一个极端结论:
“科研人要被替代了。”
但这篇文章更接近另一个判断:
AI 正在接管科研里的部分执行环节,但还没有真正接管科学判断本身。
换句话说,AI 很擅长加速“怎么做”,但“做什么”“为什么值得做”,仍然是最难的部分。
六、六个难题:为什么 L5 还没有到来?
文章最后总结了自主科研 Agent 面临的六个核心开放问题。
1. 认知循环
Agent 很容易陷入循环。
它可能反复检查同一个错误,反复修改同一个文件,或者不断产生看似合理但无效的新计划。
这就是所谓的 cognitive loops。
2. 上下文限制
科研任务往往很长。
文献、代码、实验记录、失败尝试、历史版本,全都需要记住。
但模型上下文有限,长任务中很容易遗忘、混乱或压缩失真。
3. 新颖性评价
科研最重要的不是“写出来”,而是“有没有新东西”。
但 AI 很难判断一个想法是否真正新颖。
它可能生成看起来很漂亮、其实已有很多人做过的工作。
4. 可复现性
Agent 系统往往带有随机性。
同一个任务,换一次 prompt、模型版本或随机种子,可能结果就不同。
这对科学研究非常致命,因为科研必须可复现。
5. 安全与伦理
自主科研 Agent 能调用工具、执行代码、探索方案。
这当然提高效率,但也带来风险。
比如双重用途研究、危险实验、自动化漏洞利用、不可控自我改进等。
越自主,越需要边界。
6. 成本问题
长流程 Agent 很吃 token、算力和时间。
多智能体协作、反复实验、自动评审,都可能让成本快速上升。
如果成本不可控,再强也很难普及。
七、对普通科研人意味着什么?
这篇文章真正值得普通科研人关注的,不是“AI 会不会取代你”,而是:
科研工作的分工正在变化。
未来,AI 很可能会越来越多承担这些工作:
文献初筛 代码实现 实验复现 参数搜索 图表生成 论文初稿 审稿意见模拟 错误排查
而人类研究者更需要把精力放在:
选题判断 理论洞察 问题定义 实验设计边界 结果解释 学术品味 伦理责任
换句话说,未来科研人的竞争力不只是“会不会写代码、会不会读论文”。
更重要的是:
你能不能提出好问题,并判断 AI 做出来的东西到底有没有价值。
AI 可以帮你跑得更快,但方向盘仍然很重要。
八、研究生应该怎么应对?
如果你是研究生、博士生,或者正在做科研,我建议你不要把这类 Agent 当成简单的“论文代写工具”。
更好的用法是把它当成一个科研副手:
1. 用它做文献地图
让 AI 帮你梳理一个领域的代表论文、方法脉络、主要争议和开放问题。
但不要直接相信结果,要自己回到原文核验。
2. 用它做实验助理
让 AI 帮你写 baseline、整理实验脚本、生成可视化图表、检查代码 bug。
这能节省大量低价值时间。
3. 用它做审稿模拟器
写完论文后,让 AI 从 reviewer 视角批评你的贡献、实验、结构和表达。
这非常有用,因为它能提前暴露很多问题。
4. 用它做反向提问者
不要只问:
“帮我写一段。”
更应该问:
“这个研究问题是否真的重要?”
“这个方法相对已有工作有什么不可替代性?”
“如果我是审稿人,会攻击哪里?”
“这个实验能否支撑我的结论?”
这才是 AI 在科研中最有价值的用法。
九、写在最后:科研 Agent 的重点,不是替代,而是重组
《From Copilots to Colleagues》这个标题很妙。
它没有说 AI 从工具变成了主人,也没有说 AI 已经取代科学家。
它说的是:
从 Copilot 到 Colleague。
从副驾驶,到同事。
这是一种更准确的描述。
未来的科研,很可能不是人类单独做,也不是 AI 完全做,而是进入一种新的协作模式:
人类提出问题 AI 快速探索 人类判断价值 AI 执行实验 人类解释结果 AI 生成初稿 人类负责最终论证与责任
这不是简单的替代,而是科研生产方式的重组。
对普通人来说,最重要的不是焦虑,而是尽快适应这种新分工。
因为当 AI 可以帮你完成大量执行工作时,真正稀缺的能力会变成:
提出好问题 设计好任务 判断好结果 建立好标准 保持学术诚实
AI 可以越来越像同事。
但什么问题值得研究,什么结论值得相信,什么成果值得发表,仍然需要人类研究者保持清醒。
这也许才是 AI 科研时代,最重要的能力。
参考资料
From Copilots to Colleagues: A Survey of Autonomous Research Agentshttps://victorchen96.github.io/auto_research_survey.pdf 相关报道:DeepSeek 陈德里与两个 AI 合写综述文章https://www.36kr.com/p/3826918146691721
夜雨聆风