从0到1搭建AI自动研究助手:DeepSeek陈德里＂2小时写论文＂实操拆解

从0到1搭建AI自动研究助手：
DeepSeek陈德里"2小时写论文"实操拆解

实操拆解 · 2026.05

核心拆解：DeliAutoResearch的底层逻辑

2026年5月，DeepSeek研究员陈德里做了一件让学术界和AI圈同时震动的事。

他撰写的46页研究综述论文，人类只干了不到2小时的活。论文主体——2234行LaTeX代码、103个已验证参考文献、4种智能体架构模式对比、17个主流系统的横向评测——全由他开发的Agent技能 DeliAutoResearch 自动完成。

6轮迭代，6天时间，消耗64.8万Token，人类大脑的"总CPU时间"不到120分钟。

这不是科幻。这是一套可以复现的方法论。更重要的是，它背后揭示的趋势比论文本身更值得关注：科研的"生产力范式"正在发生结构性转移。 从"人写机器辅助"到"机器写人审核"的转变，不是渐进式的效率提升，而是生产方式的重构。

核心拆解：DeliAutoResearch的底层逻辑

L1-L5自主度分级，为AI Agent建立坐标系

陈德里论文的核心贡献之一，是提出了一个自动研究智能体自主度分级体系，类比自动驾驶的SAE标准。这套体系将研究自动化程度从工具支撑到完全自主划分为五个层级：

• L1（辅助研究）：AI负责自动补全——文献补全、引用格式化、代码补全，人类主导每一个研究方向。

• L2（部分自治）：AI能够在给定框架下执行子任务——搜索相关论文、提取关键观点、生成初稿，人类决定整体方向。

• L3（条件自治）：AI在人类定义的范围和目标内独立执行研究流程，自主规划文献检索策略、组织章节结构、生成可编译论文。这是当前最可行的生产级定位。

• L4（高自治）：AI自动发现知识缺口、制定实验方案、执行研究并生成完整草稿，人类只做战略级审批。

• L5（完全自主）：AI自定研究议程、自主驱动长期研究线、自动识别前沿方向，人类退化为"可选的验证者"。

陈德里的实践处于L3到L4的过渡阶段。他定义目标、审核中间成果、给出迭代方向，其余工作交给Agent独立完成。这种分工模式恰好呼应了同期Agent Harness综述论文的核心洞察：模型外部工程外壳的质量，决定了Agent在真实场景中的实际表现。

这套分级框架最大的价值，是让"自动研究"这个模糊概念有了可度量、可讨论的坐标系。 团队可以明确说"我们现在是L2水平，目标是一个季度后达到L3"，而不是泛泛讨论"AI能不能写论文"。

四次迭代，四次进化的工程路径

论文不是一次写成的。陈德里公开的实践记录显示，整个过程中经历了6次迭代，核心工程变化可以概括为四个阶段：

第一次：单智能体循环

。一个Agent从头到尾包揽所有工作——搜索、阅读、写作、排版。结果是论文结构混乱，幻觉率高，引用管理一团糟。这是大多数人的第一反应，也是最低效的路线。

第二次：多智能体协作

。拆分为文献Agent、写作Agent、验证Agent三个角色，各司其职。质量显著提升，但Agent之间的上下文传递变成了新的瓶颈——中间结果太大，token消耗从几万飙升到几十万。

第三次：分层调度

。引入一个"研究员"调度层，负责分解任务、分配子任务给不同Agent、汇总并审查结果。这其实是Agent Harness Engineering的雏形——关注的不再是"模型够不够聪明"，而是"模型怎么在真实流程中可靠地干活"。调度层的引入让整个系统的可观测性大幅提升，你终于能追踪到每个环节花了多少token、出了什么错。

第四次：工具增强执行

。接入了学术搜索引擎、代码执行沙箱、LaTeX编译环境、引用管理工具。每一次Agent调用工具都是"思考-行动-观察"的循环，幻觉率从迭代初期的30%以上下降到个位数。

这个进化路径不是巧合。它几乎复刻了CMU、Yale、JHU联合论文中提出的Agent Harness七层框架（ETCLOVG）的前五层。 从执行环境到工具接口到上下文管理到生命周期编排到可观测性——每一步都是在给Agent"加脚手架"。

实操搭建：从0到1构建你自己的研究助手

下面是一套可操作的步骤，无需深厚的技术背景，借助当前可用的工具就能搭建一个L2-L3级的研究助手。按这些步骤走，3天内能跑通第一个完整闭环。

第一步：定义研究流程的"原子单元"

大多数人在尝试搭建研究Agent时犯的第一个错误是：一上来就想让AI搞定一切。

正确的做法是先把研究流程拆解成可以独立运行的原子任务。以写一篇AI Agent综述为例：

文献检索 → 论文摘要提取 → 关键观点归类 → 大纲生成
→ 章节撰写 → 交叉引用验证 → 格式排版 → 质量检查

每个原子任务写成一个独立的 Skill（技能） 或 Agent。这不仅让调试更简单，更重要的是——你可以在每个节点上设置人工审核关卡，人的判断力嵌入流程，而不是事后补救。 如果等Agent写完一整篇论文才发现方向跑偏，损失的不只是token，还有时间窗口。

第二步：配置模型与工具层

模型选择：长上下文推理任务优先选DeepSeek-V4-Pro级别以上的模型。陈德里实测，模型能力直接决定了Agent在长任务中的"不跑偏"能力。核心参数要求：上下文窗口不低于64K token，推荐128K以上。

工具层搭建：建议从轻量级入手，用CLI工具起步，逐步接入MCP：

# 学术搜索工具
pip install arxiv         # 直接查询arxiv论文库
pip install semantic-scholar-api  # Semantic Scholar API

# 写作与排版环境
pip install paper-qa      # 基于检索的论文问答（检索增强生成的核心组件）
pip install bibtexparser  # 引用管理
pip install pylatex       # LaTeX生成辅助

# Agent框架（以OpenClaw为例安装技能）
skills create research-searcher    # 文献检索技能
skills create paper-extractor      # 论文摘要提取技能
skills create citation-validator   # 引用验证技能

关键在于工具的封装粒度：不要把每个REST端点暴露成一个工具。更好的做法是提供"服务台"模式——一个工具接收自然语言请求，内部完成检索、筛选、提取的完整流程，只返回高密度结果。这能节省大量token，也降低了Agent在工具选择上的认知负担。

第三步：编写研究Skill的实战代码

以"文献检索与摘要"Skill为例，核心逻辑可以这样组织：

import arxiv
import json

class ResearchSearcher:
    """文献检索与摘要提取技能"""

    def __init__(self, max_results=20):
        self.max_results = max_results

    def search_papers(self, query: str, date_filter: str = ""):
        """
        搜索学术论文并返回结构化摘要
        """
        client = arxiv.Client()
        search = arxiv.Search(
            query=query,
            max_results=self.max_results,
            sort_by=arxiv.SortCriterion.Relevance
        )

        results = []
        for paper in client.results(search):
            results.append({
                "title": paper.title,
                "authors": [a.name for a in paper.authors[:5]],
                "published": paper.published.strftime("%Y-%m-%d"),
                "summary": paper.summary[:500],
                "link": paper.entry_id,
                "categories": list(paper.categories)
            })

        # 打印token消耗预估
        total_chars = sum(len(r["summary"]) for r in results)
        print(f"检索结果：{len(results)}篇，摘要总字符数：{total_chars}")
        return results

    def filter_by_relevance(self, papers: list, topic_keywords: list):
        """基于关键词快速筛选相关论文"""
        filtered = []
        for paper in papers:
            score = sum(1 for kw in topic_keywords
                       if kw.lower() in paper["summary"].lower())
            if score >= 2:  # 至少命中2个关键词
                filtered.append(paper)
        return filtered

一个实用的Skill应该包含三个要素：任务描述（告诉Agent这个Skill负责什么）、边界设定（什么情况下停止重试）、验收标准（输出什么格式、什么质量算通过）。缺少验收标准的Skill，就像没有评测指标的实验——你不知道做得好不好。

第四步：组织多Agent协作的"项目"结构

参考陈德里的经验，一个高效的研究Agent项目应该这样组织目录结构：

research-project/
├── AGENTS.md              # 全局规则与约束（项目级规范）
├── skills/
│   ├── searcher/          # 文献检索技能
│   ├── reader/            # 文献阅读与摘要技能
│   ├── synthesizer/       # 观点综合与跨论文对比技能
│   └── writer/            # 论文撰写与格式排版技能
├── memory/
│   ├── paper_notes/       # 每篇论文的阅读笔记（持久化）
│   └── outline.md         # 当前大纲与章节进度
├── outputs/
│   └── draft_v1.md        # 论文初稿输出
└── .env                   # API密钥等环境变量

最被低估的能力是Memory（记忆）。Agent如果没有跨会话的记忆能力，每次启动都是"全新"的研究员——昨天的发现今天全忘了。开启记忆功能，让Agent在多次会话中积累对同一个领域的理解，是L3以上自主度的分水岭。陈德里的6天6轮迭代，恰恰依赖的就是这种渐进式的知识累积。

第五步：迭代验证的"人机协作"工作流

陈德里在X上分享了他的工作流，每天的实际操作时间不超过30分钟：

1. 查看上一轮输出（5分钟）：快速浏览Agent新生成的章节，确认核心论点是否准确，结构是否合理。

2. 写评审意见（10分钟）：指出需要修改的方向，补上Agent遗漏的关键论文或观点。评审意见要具体，比如"第三节缺少关于多Agent协作下通信开销的讨论，建议关注2025年之后的X篇论文"。

3. 启动下一轮迭代（5分钟）：调整Prompt或Skill配置，重新运行。轻调整、快验证，而不是一次性做大量改动。

4. 抽检引用质量（10分钟）：随机抽取5-10个引用，打开原始论文验证。这一步最容易被忽视，但恰恰是学术诚信的生命线。 Agent生成论文时，确实存在"看起来合理但实际不存在"的幻觉引用。

这就回到了分级体系的核心洞察：在L3阶段，人类的价值不是写，而是"定向"和"验货"。 写的工作可以交给Agent，但方向的判断和质量的把关，目前仍是人类的专属领地。

关键工程决策：MCP、CLI还是Skills？

在企业级Agent的实际搭建中，工具扩展方式的选择直接决定了系统的健壮性和token效率。这不是非此即彼的选择，而是根据场景选择最优解。

MCP解决的是"标准化连接外部系统"的问题，适合需要身份认证、权限审批、审计日志的企业级系统集成。比如接入企业内部的论文数据库、专利检索系统、数据报表平台。它的价值在于协议标准化——一次集成，多Agent复用。

CLI的核心优势是贴近本地工作现场。一条命令就能完成搜索、过滤、聚合，返回高密度结果。对于个人研究者来说，CLI往往是起步最快的方式。对比两种方式在同一个任务上的表现：

# CLI方式：一步到位，返回结构化结果
arxiv search "AI Agent survey 2026" --max 10 --format json

# vs MCP方式（多轮对话）：
# 第一轮：search_arxiv(query="AI Agent survey 2026")
# 第二轮：filter_by_year(min=2025) 
# 第三轮：extract_abstracts()

CLI方式省掉的是Agent在工具选择、结果处理上的多轮推理。省token的关键从来不在于工具形式本身，而是受控输出和结果摘要。 无论用CLI还是MCP，如果输出不做控制——满屏的XML标签、JSON嵌套、调试日志——Agent的上下文都会被噪声填满，有效token利用率大幅下降。

Skills解决的是另一个维度的问题——复用组织知识。 适合固化任务流程、边界、模板和校验规则。一个好的Skill应该是"短主体+参考资料+模板+脚本"的组合，而不是一个塞满知识的大杂烩。陈德里的DeliAutoResearch本质上就是一个高度优化的Skill——把整个研究流程抽象成了可复用的方法论。

三者的关系不是互斥的，而是一个叠加矩阵：MCP负责接入，CLI负责执行，Skills负责封装。 一个好的研究Agent通常同时使用三者。

当前瓶颈：为什么L5还是一场遥远的地平线？

陈德里的论文没有回避问题。恰恰相反，他明确指出了真正卡住自动研究进化速度的三个瓶颈。这些瓶颈不是模型能力的问题，而是工程系统的问题：

瓶颈一：持续知识积累。Agent缺乏真正的"学新知识"机制。当前的做法是把全部上下文塞进Prompt，但再大的token窗口也有上限。一篇46页的综述占据的上下文容量惊人，如果不做分层和摘要压缩，64K token转眼就爆。Agent需要类似人类长期记忆的能力——今天读的论文能影响明天做出的判断，而不是每次从零开始。

瓶颈二：可靠自我评估。Agent很难判断自己输出的质量。一篇综述写得够不够好？有没有遗漏关键文献？逻辑链条是否自洽？论点是否有足够的数据支撑？这些都是人类凭经验和直觉能感知的判断，但Agent缺少可靠的自我校验机制。这在当前是卡住从L3到L4的最大工程障碍。 没有自我评估能力，就必须有人类在每一个关键节点介入。

瓶颈三：架构规模化。多Agent协作在3-5个Agent时尚可管理，但如果扩展到几十个Agent共同协作一个大型研究项目——比如跨学科综述、系统文献回顾——通信开销、上下文管理和错误传导会指数级增长。目前还没有成熟的工程范式来应对这种复杂度，这也是Agent Harness领域最活跃的研究方向之一。

但恰恰是这三个瓶颈，构成了从L3冲向L4的核心工程战场。 每一个瓶颈的突破，都意味着研究方向从"模型能力竞赛"向"工程系统能力竞赛"的位移。某种意义上，瓶颈的存在本身就是机会——谁能先解决这些问题，谁就能在自动研究的下一个时代占得先机。

写在最后：研究者的新位置

陈德里在分享中有一句话值得反复咀嚼：

"1%是我写的，99%是Agent写的。"

但更重要的不是那1%和99%的比例分配，而是——那1%是什么。那是定义研究方向的能力、判断研究质量的品味、识别知识缺口的直觉。这些能力没有因为Agent的存在而贬值，反而变得更稀缺了。当执行的门槛几乎降为零，方向和判断的价值就会被放大。

未来，一个研究者的核心竞争力，不是你写了多少行LaTeX、读了多少篇论文，而是你定义了什么问题让Agent去解、你在哪个节点说"这个方向不对，换一条"、你如何判断一篇"看起来很有道理"的论文其实是一篇精致的幻觉。

Agent可以在一小时内读完你一个月都读不完的论文。但它读完之后做的判断，取决于你教它的验收标准。 那个标准的质量，最终决定了输出的质量。

这大概就是AI时代，人类智能最不可被替代的那部分。不是更快的执行，而是更有品味的判断。

而搭建自动研究助手这件事本身，就是对自己研究品味的一次压力测试——你只有真正想清楚"好研究长什么样"，才能教会Agent去追寻它。如果你自己都说不清楚什么是一篇好综述，那再强大的Agent也只能给你一篇"看起来还行"的东西。

这大概就是陈德里那句"1%是我写的"背后，最真实的含义。

从0到1搭建AI自动研究助手：DeepSeek陈德里"2小时写论文"实操拆解

核心拆解：DeliAutoResearch的底层逻辑

核心拆解：DeliAutoResearch的底层逻辑

L1-L5自主度分级，为AI Agent建立坐标系

四次迭代，四次进化的工程路径

实操搭建：从0到1构建你自己的研究助手

第一步：定义研究流程的"原子单元"

第二步：配置模型与工具层

第三步：编写研究Skill的实战代码

第四步：组织多Agent协作的"项目"结构

第五步：迭代验证的"人机协作"工作流

关键工程决策：MCP、CLI还是Skills？

当前瓶颈：为什么L5还是一场遥远的地平线？

写在最后：研究者的新位置

从0到1搭建AI自动研究助手：
DeepSeek陈德里"2小时写论文"实操拆解