从0到1搭建AI自动研究助手:
DeepSeek陈德里"2小时写论文"实操拆解
实操拆解 · 2026.05
核心拆解:DeliAutoResearch的底层逻辑
2026年5月,DeepSeek研究员陈德里做了一件让学术界和AI圈同时震动的事。
他撰写的46页研究综述论文,人类只干了不到2小时的活。论文主体——2234行LaTeX代码、103个已验证参考文献、4种智能体架构模式对比、17个主流系统的横向评测——全由他开发的Agent技能 DeliAutoResearch 自动完成。
6轮迭代,6天时间,消耗64.8万Token,人类大脑的"总CPU时间"不到120分钟。
这不是科幻。这是一套可以复现的方法论。更重要的是,它背后揭示的趋势比论文本身更值得关注:科研的"生产力范式"正在发生结构性转移。 从"人写机器辅助"到"机器写人审核"的转变,不是渐进式的效率提升,而是生产方式的重构。
核心拆解:DeliAutoResearch的底层逻辑
L1-L5自主度分级,为AI Agent建立坐标系
陈德里论文的核心贡献之一,是提出了一个自动研究智能体自主度分级体系,类比自动驾驶的SAE标准。这套体系将研究自动化程度从工具支撑到完全自主划分为五个层级:
• L1(辅助研究):AI负责自动补全——文献补全、引用格式化、代码补全,人类主导每一个研究方向。
• L2(部分自治):AI能够在给定框架下执行子任务——搜索相关论文、提取关键观点、生成初稿,人类决定整体方向。
• L3(条件自治):AI在人类定义的范围和目标内独立执行研究流程,自主规划文献检索策略、组织章节结构、生成可编译论文。这是当前最可行的生产级定位。
• L4(高自治):AI自动发现知识缺口、制定实验方案、执行研究并生成完整草稿,人类只做战略级审批。
• L5(完全自主):AI自定研究议程、自主驱动长期研究线、自动识别前沿方向,人类退化为"可选的验证者"。
陈德里的实践处于L3到L4的过渡阶段。他定义目标、审核中间成果、给出迭代方向,其余工作交给Agent独立完成。这种分工模式恰好呼应了同期Agent Harness综述论文的核心洞察:模型外部工程外壳的质量,决定了Agent在真实场景中的实际表现。
这套分级框架最大的价值,是让"自动研究"这个模糊概念有了可度量、可讨论的坐标系。 团队可以明确说"我们现在是L2水平,目标是一个季度后达到L3",而不是泛泛讨论"AI能不能写论文"。
四次迭代,四次进化的工程路径
论文不是一次写成的。陈德里公开的实践记录显示,整个过程中经历了6次迭代,核心工程变化可以概括为四个阶段:
第一次:单智能体循环
。一个Agent从头到尾包揽所有工作——搜索、阅读、写作、排版。结果是论文结构混乱,幻觉率高,引用管理一团糟。这是大多数人的第一反应,也是最低效的路线。
第二次:多智能体协作
。拆分为文献Agent、写作Agent、验证Agent三个角色,各司其职。质量显著提升,但Agent之间的上下文传递变成了新的瓶颈——中间结果太大,token消耗从几万飙升到几十万。
第三次:分层调度
。引入一个"研究员"调度层,负责分解任务、分配子任务给不同Agent、汇总并审查结果。这其实是Agent Harness Engineering的雏形——关注的不再是"模型够不够聪明",而是"模型怎么在真实流程中可靠地干活"。调度层的引入让整个系统的可观测性大幅提升,你终于能追踪到每个环节花了多少token、出了什么错。
第四次:工具增强执行
。接入了学术搜索引擎、代码执行沙箱、LaTeX编译环境、引用管理工具。每一次Agent调用工具都是"思考-行动-观察"的循环,幻觉率从迭代初期的30%以上下降到个位数。
这个进化路径不是巧合。它几乎复刻了CMU、Yale、JHU联合论文中提出的Agent Harness七层框架(ETCLOVG)的前五层。 从执行环境到工具接口到上下文管理到生命周期编排到可观测性——每一步都是在给Agent"加脚手架"。
实操搭建:从0到1构建你自己的研究助手
下面是一套可操作的步骤,无需深厚的技术背景,借助当前可用的工具就能搭建一个L2-L3级的研究助手。按这些步骤走,3天内能跑通第一个完整闭环。
第一步:定义研究流程的"原子单元"
大多数人在尝试搭建研究Agent时犯的第一个错误是:一上来就想让AI搞定一切。
正确的做法是先把研究流程拆解成可以独立运行的原子任务。以写一篇AI Agent综述为例:
文献检索 → 论文摘要提取 → 关键观点归类 → 大纲生成
→ 章节撰写 → 交叉引用验证 → 格式排版 → 质量检查
每个原子任务写成一个独立的 Skill(技能) 或 Agent。这不仅让调试更简单,更重要的是——你可以在每个节点上设置人工审核关卡,人的判断力嵌入流程,而不是事后补救。 如果等Agent写完一整篇论文才发现方向跑偏,损失的不只是token,还有时间窗口。
第二步:配置模型与工具层
模型选择:长上下文推理任务优先选DeepSeek-V4-Pro级别以上的模型。陈德里实测,模型能力直接决定了Agent在长任务中的"不跑偏"能力。核心参数要求:上下文窗口不低于64K token,推荐128K以上。
工具层搭建:建议从轻量级入手,用CLI工具起步,逐步接入MCP:
# 学术搜索工具
pip install arxiv # 直接查询arxiv论文库
pip install semantic-scholar-api # Semantic Scholar API
# 写作与排版环境
pip install paper-qa # 基于检索的论文问答(检索增强生成的核心组件)
pip install bibtexparser # 引用管理
pip install pylatex # LaTeX生成辅助
# Agent框架(以OpenClaw为例安装技能)
skills create research-searcher # 文献检索技能
skills create paper-extractor # 论文摘要提取技能
skills create citation-validator # 引用验证技能
关键在于工具的封装粒度:不要把每个REST端点暴露成一个工具。更好的做法是提供"服务台"模式——一个工具接收自然语言请求,内部完成检索、筛选、提取的完整流程,只返回高密度结果。这能节省大量token,也降低了Agent在工具选择上的认知负担。
第三步:编写研究Skill的实战代码
以"文献检索与摘要"Skill为例,核心逻辑可以这样组织:
import arxiv
import json
class ResearchSearcher:
"""文献检索与摘要提取技能"""
def __init__(self, max_results=20):
self.max_results = max_results
def search_papers(self, query: str, date_filter: str = ""):
"""
搜索学术论文并返回结构化摘要
"""
client = arxiv.Client()
search = arxiv.Search(
query=query,
max_results=self.max_results,
sort_by=arxiv.SortCriterion.Relevance
)
results = []
for paper in client.results(search):
results.append({
"title": paper.title,
"authors": [a.name for a in paper.authors[:5]],
"published": paper.published.strftime("%Y-%m-%d"),
"summary": paper.summary[:500],
"link": paper.entry_id,
"categories": list(paper.categories)
})
# 打印token消耗预估
total_chars = sum(len(r["summary"]) for r in results)
print(f"检索结果:{len(results)}篇,摘要总字符数:{total_chars}")
return results
def filter_by_relevance(self, papers: list, topic_keywords: list):
"""基于关键词快速筛选相关论文"""
filtered = []
for paper in papers:
score = sum(1 for kw in topic_keywords
if kw.lower() in paper["summary"].lower())
if score >= 2: # 至少命中2个关键词
filtered.append(paper)
return filtered
一个实用的Skill应该包含三个要素:任务描述(告诉Agent这个Skill负责什么)、边界设定(什么情况下停止重试)、验收标准(输出什么格式、什么质量算通过)。缺少验收标准的Skill,就像没有评测指标的实验——你不知道做得好不好。
第四步:组织多Agent协作的"项目"结构
参考陈德里的经验,一个高效的研究Agent项目应该这样组织目录结构:
research-project/
├── AGENTS.md # 全局规则与约束(项目级规范)
├── skills/
│ ├── searcher/ # 文献检索技能
│ ├── reader/ # 文献阅读与摘要技能
│ ├── synthesizer/ # 观点综合与跨论文对比技能
│ └── writer/ # 论文撰写与格式排版技能
├── memory/
│ ├── paper_notes/ # 每篇论文的阅读笔记(持久化)
│ └── outline.md # 当前大纲与章节进度
├── outputs/
│ └── draft_v1.md # 论文初稿输出
└── .env # API密钥等环境变量
最被低估的能力是Memory(记忆)。Agent如果没有跨会话的记忆能力,每次启动都是"全新"的研究员——昨天的发现今天全忘了。开启记忆功能,让Agent在多次会话中积累对同一个领域的理解,是L3以上自主度的分水岭。陈德里的6天6轮迭代,恰恰依赖的就是这种渐进式的知识累积。
第五步:迭代验证的"人机协作"工作流
陈德里在X上分享了他的工作流,每天的实际操作时间不超过30分钟:
1. 查看上一轮输出(5分钟):快速浏览Agent新生成的章节,确认核心论点是否准确,结构是否合理。
2. 写评审意见(10分钟):指出需要修改的方向,补上Agent遗漏的关键论文或观点。评审意见要具体,比如"第三节缺少关于多Agent协作下通信开销的讨论,建议关注2025年之后的X篇论文"。
3. 启动下一轮迭代(5分钟):调整Prompt或Skill配置,重新运行。轻调整、快验证,而不是一次性做大量改动。
4. 抽检引用质量(10分钟):随机抽取5-10个引用,打开原始论文验证。这一步最容易被忽视,但恰恰是学术诚信的生命线。 Agent生成论文时,确实存在"看起来合理但实际不存在"的幻觉引用。
这就回到了分级体系的核心洞察:在L3阶段,人类的价值不是写,而是"定向"和"验货"。 写的工作可以交给Agent,但方向的判断和质量的把关,目前仍是人类的专属领地。
关键工程决策:MCP、CLI还是Skills?
在企业级Agent的实际搭建中,工具扩展方式的选择直接决定了系统的健壮性和token效率。这不是非此即彼的选择,而是根据场景选择最优解。
MCP解决的是"标准化连接外部系统"的问题,适合需要身份认证、权限审批、审计日志的企业级系统集成。比如接入企业内部的论文数据库、专利检索系统、数据报表平台。它的价值在于协议标准化——一次集成,多Agent复用。
CLI的核心优势是贴近本地工作现场。一条命令就能完成搜索、过滤、聚合,返回高密度结果。对于个人研究者来说,CLI往往是起步最快的方式。对比两种方式在同一个任务上的表现:
# CLI方式:一步到位,返回结构化结果
arxiv search "AI Agent survey 2026" --max 10 --format json
# vs MCP方式(多轮对话):
# 第一轮:search_arxiv(query="AI Agent survey 2026")
# 第二轮:filter_by_year(min=2025)
# 第三轮:extract_abstracts()
CLI方式省掉的是Agent在工具选择、结果处理上的多轮推理。省token的关键从来不在于工具形式本身,而是受控输出和结果摘要。 无论用CLI还是MCP,如果输出不做控制——满屏的XML标签、JSON嵌套、调试日志——Agent的上下文都会被噪声填满,有效token利用率大幅下降。
Skills解决的是另一个维度的问题——复用组织知识。 适合固化任务流程、边界、模板和校验规则。一个好的Skill应该是"短主体+参考资料+模板+脚本"的组合,而不是一个塞满知识的大杂烩。陈德里的DeliAutoResearch本质上就是一个高度优化的Skill——把整个研究流程抽象成了可复用的方法论。
三者的关系不是互斥的,而是一个叠加矩阵:MCP负责接入,CLI负责执行,Skills负责封装。 一个好的研究Agent通常同时使用三者。
当前瓶颈:为什么L5还是一场遥远的地平线?
陈德里的论文没有回避问题。恰恰相反,他明确指出了真正卡住自动研究进化速度的三个瓶颈。这些瓶颈不是模型能力的问题,而是工程系统的问题:
瓶颈一:持续知识积累。Agent缺乏真正的"学新知识"机制。当前的做法是把全部上下文塞进Prompt,但再大的token窗口也有上限。一篇46页的综述占据的上下文容量惊人,如果不做分层和摘要压缩,64K token转眼就爆。Agent需要类似人类长期记忆的能力——今天读的论文能影响明天做出的判断,而不是每次从零开始。
瓶颈二:可靠自我评估。Agent很难判断自己输出的质量。一篇综述写得够不够好?有没有遗漏关键文献?逻辑链条是否自洽?论点是否有足够的数据支撑?这些都是人类凭经验和直觉能感知的判断,但Agent缺少可靠的自我校验机制。这在当前是卡住从L3到L4的最大工程障碍。 没有自我评估能力,就必须有人类在每一个关键节点介入。
瓶颈三:架构规模化。多Agent协作在3-5个Agent时尚可管理,但如果扩展到几十个Agent共同协作一个大型研究项目——比如跨学科综述、系统文献回顾——通信开销、上下文管理和错误传导会指数级增长。目前还没有成熟的工程范式来应对这种复杂度,这也是Agent Harness领域最活跃的研究方向之一。
但恰恰是这三个瓶颈,构成了从L3冲向L4的核心工程战场。 每一个瓶颈的突破,都意味着研究方向从"模型能力竞赛"向"工程系统能力竞赛"的位移。某种意义上,瓶颈的存在本身就是机会——谁能先解决这些问题,谁就能在自动研究的下一个时代占得先机。
写在最后:研究者的新位置
陈德里在分享中有一句话值得反复咀嚼:
"1%是我写的,99%是Agent写的。"
但更重要的不是那1%和99%的比例分配,而是——那1%是什么。那是定义研究方向的能力、判断研究质量的品味、识别知识缺口的直觉。这些能力没有因为Agent的存在而贬值,反而变得更稀缺了。当执行的门槛几乎降为零,方向和判断的价值就会被放大。
未来,一个研究者的核心竞争力,不是你写了多少行LaTeX、读了多少篇论文,而是你定义了什么问题让Agent去解、你在哪个节点说"这个方向不对,换一条"、你如何判断一篇"看起来很有道理"的论文其实是一篇精致的幻觉。
Agent可以在一小时内读完你一个月都读不完的论文。但它读完之后做的判断,取决于你教它的验收标准。 那个标准的质量,最终决定了输出的质量。
这大概就是AI时代,人类智能最不可被替代的那部分。不是更快的执行,而是更有品味的判断。
而搭建自动研究助手这件事本身,就是对自己研究品味的一次压力测试——你只有真正想清楚"好研究长什么样",才能教会Agent去追寻它。如果你自己都说不清楚什么是一篇好综述,那再强大的Agent也只能给你一篇"看起来还行"的东西。
这大概就是陈德里那句"1%是我写的"背后,最真实的含义。
夜雨聆风