AI写论文:逻辑的肌肉训练
与其说 AI 在"写",不如说它在"证明"。
上个月,DeepSeek 资深研究员陈德里(Deli Chen)放出了一篇 45 页论文。标题很长:《从 Copilots 到同事:自主科研智能体综述》。作者栏三个名字:陈德里、DeepSeek-V4-Pro、GPT-Image2。
99% 的内容由 AI 完成。
不是一句"帮我写篇论文"就出来的。真实过程是这样的:6 天时间、6 次迭代、108 轮对话、64.8 万 Token,最终产出 2234 行 LaTeX 代码。陈德里本人的脑力投入——不到 2 小时。
同等工作量,他说以前至少需要一个月。
一、论文的逻辑肌理,AI 拆给你看
很多人觉得 AI 写论文很"神"。但这件事拆开看,其实是一个极其朴素的逻辑链。陈德里的实验恰恰把每一环都暴露了出来。
第一层:定义问题边界
AI 不是漫无目的地"写"。陈德里的 CodeAgent 接收到的是一组明确约束:梳理机器学习、软件工程、科学发现三大领域,共计 105 篇文献。先验证已有文献,再基于文献提出分析框架。
举例:这就像一个人说"我要证明自己是对的",但他必须先划定——"我在哪个论域里讨论?用谁的框架?参考了谁的数据?"否则就成了无边界争吵。AI 做的是同一件事:先锁定边界,再构建论证。
第二层:构建分类体系
论文的核心成果是一套五级自主能力分级体系(L1-L5)。
| L1 | 代码补全。GitHub Copilot 是典型——只预测下一个 Token,人类完全主导。 |
| L2 | 工具调用。带插件的 ChatGPT,能搜索、执行代码,但每一步都需人工审批。 |
| L3 | 自主执行。代码智能体可自主编辑文件、修复测试失败,人类仅保留监督权。 |
| L4 | 完整产出。Devin、AI Scientist 可自主生成思路、跑实验、写论文、做同行评审。 |
| L5 | 自主规划。自己选方向、跨项目分资源、基于过往成果迭代。尚无系统达到。 |
举例:你在论证自己正确时,是不是也经历了类似分层?查资料(L2)→自己做推理(L3)→形成完整论述(L4)→在不同话题间主动关联和自我修正(L5)。大多数人日常论证停在 L2-L3,AI 写论文已冲击 L4。
第三层:选择架构策略
论文归纳了四大架构模式:
| 架构 | 核心逻辑 | 类比 |
| 单智能体循环 | 观察→推理→执行→吸收反馈,循环迭代 | 一个人反复修改论证稿 |
| 多智能体协作 | 多个 Agent 分角色协作 | 团队辩论,各司其职 |
| 分层编排 | 一个总管分配子任务、监控进度 | 编辑+作者模式 |
| 工具增强执行 | 调用代码、实验、网页,从文本生成器变行动者 | 不光能说,还能跑数据验证 |
举例:陈德里用了什么架构?双 AI 协作——DeepSeek-V4-Pro 负责文本逻辑,GPT-Image2 负责图表。简化版多智能体协作。就像你做 PPT,一个人写文案,一个人做图表,配合好才能出效果。
二、AI 论证的六个死穴
AI 写论文的厉害之处不在于它会"想",而在于它的逻辑不会跑偏。但问题也在这里——它太依赖已有逻辑链了。论文梳理了六大核心难题:
1. 认知死循环。AI 不知道自己陷入困境。它会在失败策略上持续坚持,不断"努力"却从不换思路。
举例:像极了一个人反复用同一套说辞证明自己正确,对方怎么反驳都用同一句话挡回去。人类尚且如此,AI 更甚——它连"我可能需要换种思路"的自觉都没有。
2. 上下文窗口限制。45 页论文不是一次生成的。64.8 万 Token 消耗量说明一切——AI 的"记忆"有限,长文需要分段管理。
3. 原创性无法自评。没有可靠自动化指标能衡量科研成果的质量与原创性。AI 可做综述、归纳,但判断"有没有创新价值"——做不到。
举例:你在证明自己正确时,最难的其实不是论证过程,而是判断——这件事到底有没有价值?AI 面临同样的困境。
4. 结果可复现性。实验跑得出来吗?科研底线要求,但 AI 在实验环节的可靠性仍有缺口。
5. 安全风险。能力越强,安全边界越模糊。自动跑实验的 AI 如何在错误方向上不放大偏差?
6. 使用成本。64.8 万 Token,规模化使用时成本会成为瓶颈。
三、从"证明自己正确"到"写出正确论文"
很多人不会写论文,但每天都在"证明自己正确"——工作会议上、微信群里、社交媒体评论区。
你看这个过程:
| 日常论证 | 论文写作 |
| 抛出一个观点 | 研究假设 |
| 找证据撑住它 | 文献综述 + 实验设计 |
| 组织论证结构 | 分析框架 + 逻辑链 |
| 接受反馈和质疑 | 同行评审 |
| 修正或坚持 | 迭代优化 |
这不就是写论文吗?只是非正式、非结构化。
陈德里的实验告诉我们:AI 目前能做好的,就是把第 2、3 步自动化——快速调用海量文献,按预设框架组织论证。但第 1 步(提出有价值的真问题)、第 4 步(判断论证质量)、第 5 步(决定什么时候停下来)——仍然需要人。
所以 AI 写论文的本质,不是"替代思考",而是"把思考的结构暴露出来,然后让机器执行可结构化的部分"。
陈德里投入的 2 小时,花的正是那些"不可结构化的部分":选题方向、迭代判断、最终质量把关。
四、对日常"论证者"的三个启发
如果你不写论文,但经常需要证明自己正确,AI 的这套逻辑可以给你三个工具:
启发一:先建分类体系,再论证
没有 L1-L5 分级之前,讨论"AI 能不能自主研究"就是一团浆糊。有了分级,立刻知道在讨论哪个层级、差距在哪。日常论证同理——先定义术语,再展开。
启发二:选架构比选论点重要
单 Agent、多 Agent、分层编排——不同的论证复杂度需要不同的组织方式。简单问题一个人捋就行(ReAct),复杂问题需要协作讨论(多智能体),再复杂必须有人总控(分层编排)。
启发三:死盯自检环节
AI 最大的弱点不是能力不够,是不会"发现自己错了"。人类论证也一样——最难的从来不是找论据,而是问自己:"如果我错了呢?"
结语
AI 写论文这件事,被太多人神秘化了。拆开看,它不过是一套逻辑肌肉的训练过程——分类、架构、迭代、验证。每一步都可以被描述、被测量、被优化。
陈德里的 45 页论文向我们展示的,不是 AI 有多聪明,而是自驱的推理闭环长什么样。
而这种闭环的逻辑,和你在任何一场"证明自己正确"的对话中所运用的,本质上没有区别。
区别只在于:AI 把它写成了 2234 行 LaTeX 代码,你用的大概是微信语音条。
参考:陈德里(Deli Chen)等,《From Copilots to Colleagues: A Survey of Autonomous Research Agents》,2025 年 5 月。论文共 45 页,105 篇参考文献,99% 内容由 DeepSeek-V4-Pro + GPT-Image2 双 AI 协作产出。
本文首发于曲同科技公众号。
夜雨聆风