刚刚,DeepSeek核心作者用两个AI写了篇46页论文:科研Agent已进化至第4代,论文疯狂通胀时代来了

你是不是也经历过被写学术论文、查文献和改 LaTeX 格式支配的恐惧？

精读几百篇文献、在 Zotero 里整理分类、痛苦地撰写初稿，还要在 LaTeX 源码里反复折腾 \cite 引用格式、调整表格间距。遇到编译报错，甚至要在终端里熬夜排错。如果一个人单枪匹马干，写完一篇 40 多页的高质量学术综述，少说也得花两三个月，甚至大半年。

但就在刚刚，DeepSeek 核心研究员陈德里（Deli Chen）在 X 上扔下了一颗重磅炸弹：

他开发了一个名为 Deli AutoResearch SKILL 的自主科研智能体框架。然后，他带着两个 AI 助手（负责文字润色的 DeepSeek-V4-Pro，和负责图像插图的 GPT-Image2），仅仅用了不到 2 小时的人脑“总 CPU 时间”，就合作写出了一篇长达 46 页、包含 103 篇已核验参考文献、7 张精美图、4 张表的顶级学术综述论文！

完成这篇文章后，陈德里由此抛出了一个硬核判断，他形容为个人暴论：Code Agent 正在让计算机科学论文发生疯狂通胀 —— 过去同样的工作，至少要花一个月。

这不仅仅是一个吸睛的噱头，而是一次真正的“交权实验”。当研究者本身成为了研究对象，这件事背后的深意，远比论文本身更值得我们复盘和深思。

2小时搞定1个月：陈德里的“科研外挂”

陈德里（Deli Chen）是 DeepSeek-R1、V3、V4、DeepSeek-Coder 以及 DeepSeek-MoE 架构的核心贡献者之一。

这篇论文的地址在：auto_research_survey.pdf^[1]。

陈德里特别声明，这篇名为《From Copilots to Colleagues: A Survey of Autonomous Research Agents》（从副驾驶到同事：自主科研智能体综述）的文章，更多是一次兴趣驱动的尝试：一方面是出于好玩，另一方面也是为了测试自己开发的 DeliAutoResearch 技能。

但它的数据和工作流程，却让所有科研狗直呼“降维打击”：

极速迭代：一共迭代了 6 轮（V1 版本 4 轮，V2 版本 1 轮，V3 版本 1 轮）。
初稿耗时：V1 初稿仅耗时 76 分钟。
总耗时：6 天。
人机交互：大约经历了 108 轮 Agent 交互，消耗约 64.8 万 tokens。
工程量：LaTeX 代码共 2234 行，包含了 103 篇参考文献（全部已核验），篇幅 46 页，包含 7 张图和 4 张表。

而在整整 6 天的周期里，陈德里自己真正动脑、看屏幕、做决策的“总人脑 CPU 时间”不到 2 小时。其余 99% 的撰写、润色、画图和文献核验工作，全部由他的 Deli AutoResearch 智能体系统自主跑完。

在过去，限制学术产出的是物理规律：人类阅读文献的速度有上限，打字的速度有上限，排版和 Debug 的耐心有上限。现在，当这些体力活全部被 Agent 接管，唯一的限制变成了计算资源（Tokens）和高层战略意图。

划分断代：从“副驾驶”到“AI同事”的五级分类

在这篇 46 页的综述中，陈德里和他的 AI 助手们为“自主科研智能体（Autonomous Research Agents）”这一领域，第一次类比汽车驾驶自动化的 SAE 标准，提出了科研智能体的 L1 至 L5 自主等级分类体系：

等级	角色定位	典型代表及表现
L1	自动补全 (Auto-complete)	GitHub Copilot、Cursor Tab。预测下一行代码，生产力升 30%-55%。
L2	任务执行 (Task Execution)	ChatGPT/Claude 网页端单次对话。拆解简单任务，每一步需人类确认。
L3	多步自主 (Checkpoint)	Claude Code、Cursor Agent。独立执行数十步，超出预定边界才询问。
**	L4	端到端全自动 (End-to-End)
L5	自主设定议程 (Agenda)	目前仍是愿景。自主选择研究课题、分配计算资源、跨月持续积累知识。

L1 到 L3：从工具到助理

L1（自动补全）：最熟悉的状态。GitHub Copilot 或者是各类 IDE 里的内联代码补全。AI 只是一个极其高级的“输入法”，你掌控着 100% 的方向。
L2（任务执行）：绝大多数人日常和 ChatGPT、Claude 网页端交互的层级。你输入一个 Prompt，它吐出一段代码或一段文字。它能帮你分解一些简单任务，但每一次交互都是“单步”的。
L3（多步自主，设有检查点）：当前最先进的程序员辅助工具（如 Claude Code、Cursor Agent、OpenCode）所处的层级。你给它一个稍微复杂的任务（例如：把这个 API 的鉴权逻辑重构为 JWT，并补齐所有单元测试），它能自己在控制台里连续执行几十个步骤：读文件、写代码、运行测试、根据报错信息自我 Debug。

L4 到 L5：向“独立科学家”迈进

L4（端到端全自动）：目前科研 Agent 的技术前沿。典型的系统有 Devin、SWE-Agent 以及 Sakana AI 之前名声大噪的 AI Scientist。给它一个抽象的“研究目标”，Agent 会开始独自在 Linux 沙盒里工作数小时、甚至数天。它自己查阅文献寻找灵感，自己写 PyTorch 代码，自己提交 GPU 运行实验，自己处理 CUDA OOM 等报错，最后自己写出一篇 LaTeX 格式的论文。
L5（自主设定研究议程）：目前的愿景。L5 级别的智能体不仅要能跑完实验、写完论文，更要能自主决定接下来应该去探索哪个前沿领域，自主分配自己的计算和资金预算，跨越更长的时间维度持续积累和迭代自己的知识库。虽然还没完全实现，但像 Google 的 Co-Scientist、DeepMind 的 FunSearch 已经展现出了这样的火花。

四大架构：如何组织你的 AI 科学家？

在工程实现上，这些强大的 L4 科研 Agent 是如何被构建出来的？综述总结了目前主流的四种智能体架构模式。这对于正在开发 Agent 应用的工程师来说，是极佳的架构设计避坑指南。

1. 单智能体循环（Single-Agent Loop）

最极简的架构。一个核心大模型运行在 Plan -> Act -> Observe -> Reflect（计划-行动-观察-反思）的死循环中。

痛点：上限太低。随着任务变复杂，上下文越堆越多，单模型会迅速迷失在细节里，产生严重的认知疲劳和幻觉。

2. 多智能体协作（Multi-Agent Collaboration）

多智能体协作将复杂的科研流程拆分给不同角色。

痛点：需要规避多智能体自由聊天的失控。MetaGPT 等框架通过引入严格的 SOP（标准作业流程）和时间线，将任务完成率实现了从 60% 到 100% 的飞跃。

3. 层级编排（Hierarchical Orchestration）

这就是 Claude Code、Hermes Agent 以及陈德里的 Deli AutoResearch 采用的“管理者-执行者”模式。

               ┌────────────────────────┐
               │    主控/规划智能体     │  ◀── 负责全局状态和高层战略规划
               └───────────┬────────────┘
                           │
             ┌─────────────┼─────────────┐
             ▼             ▼             ▼
       ┌──────────┐  ┌──────────┐  ┌──────────┐
       │ 搜索Worker│  │ 实验Worker│  │ 论文Worker│  ◀── 在隔离的沙盒中执行具体任务
       └──────────┘  └──────────┘  └──────────┘

主智能体（Master）只负责高层规划和状态维护。当它发现需要查文献时，它会派出一个独立的“搜索子智能体”去干活，子智能体跑完把提炼好的结果汇报给主控。

核心价值：防止上下文污染。子智能体运行在独立的临时会话中，它们在查文献、改代码时产生的 Token 杂音，在任务结束时会被全部丢弃，只保留最终结论。这使得主智能体能够在一个极其干净、高效的上下文里做出长达数天的长期决策。

4. 工具增强执行（Tool-Enhanced Execution）

这是“给智能体配备外部手脚”。

典型代表：ChemCrow。原生的 GPT-4 做化学合成题正确率连 30% 都不到。但研发团队给它配备了 18 种化学专用工具。GPT-4 的任务不再是自己去默写化学方程式，而是作为主控去决定“何时调用什么工具”。其化学合成正确率瞬间暴涨到 75% 以上。

诚实复盘：阻碍 AI 拿诺贝尔奖的六大死穴

这篇综述最精彩、最诚实的部分，恰恰在于它没有一味吹捧 Agent 的无所不能，而是极其冷酷地揭露了当前阻碍 AI 成为“真正科学家”的六大技术死穴。

认知循环陷阱（Cognitive Loop Trap）：智能体在运行代码报错时，会陷入“修改-报错-再修改-再报错”的死循环，在同一个失败的闭环里反复转圈，直到把你的 Token 和额度全部烧光，却根本意识不到自己已经陷入了死胡同。
上下文窗口与工作记忆极限：在长达数天的连续科研任务中，产生几十万 Token 的历史记录极其常见。由于 Needle In A Haystack（大海捞针）效应，模型在上下文极其膨胀时，注意力和召回率会呈指数级下降。
“新颖性”的主观评估难题（Novelty Evaluation）：人类科研的核心是创造新知。但如何用算法去评估一个发现是“新颖”的，还是“偏门无用”的？除了在数学或算法等能用代码运行、有硬性指标衡量的封闭空间，AI 根本无法自我判断自己的产出是否真的具有科学价值。
可重现性危机（Reproducibility Crisis）：大模型天生具有随机性。在同一个基准测试上，相同的提示词和任务跑三轮，其性能得分的标准差可能高达 5% 到 15%。如果一个 AI 科学家今天发现了一个超导配方，但明天重新运行同样的系统却无法复现，这在学术界几乎是致命的。
双重用途的安全与伦理（Dual-use Dilemma）：这是一个根本性的系统架构矛盾。能够自主在海量文献中寻找灵感、设计分子结构的 AI 科学家，能帮你设计出针对癌症的新药靶点，也就天然具备在一夜之间设计出绕过所有已知检测的生化武器和剧毒化合物的能力。
成本与科研资源的不平等：跑一次 Agent 并不便宜。解决一个 SWE-bench 问题的 API 成本在 5 到 50 美元之间。而跑完一个完整的科研大任务，Tokens 和算力成本可能高达数百、甚至上千美元。这会导致顶尖的科研生产力进一步向资源雄厚的少数巨头集中。

结语：如何面对 1% 的灵魂拷问？

在这篇 46 页综述的最后，陈德里和他的两个 AI 合作者写下了这样一段清醒的警示：

“L5 自主研究——能够自主制定长期研究议程的智能体——是一个『何时』而非『是否』的问题。研究社区的任务是确保这一转变伴随着充分的理解、适当的保障，以及公平的收益分配。”

计算机科学论文的通胀时代已经无可避免地到来了。但这并不意味着人类研究员的消亡。

相反，它向每一个科研工作者、每一个工程师提出了更残酷的拷问：如果体力劳动、代码编写、文献整理、甚至格式排版这 99% 的工作都可以被 Agent 完美接管，那么，属于你人类肉身那不可替代的 1% 核心灵魂（High-level Intuition & Vision），究竟是什么？

引用链接

[1]auto_research_survey.pdf: https://victorchen96.github.io/auto_research_survey.pdf