专注AIGC技术的专业社区,关注大语言模型(LLM)的发展和应用落地,聚焦LLM及AI技术的市场研究和开发者生态,欢迎关注!
AI 写论文这事,早就不是能不能写的问题了。
15美元生成一篇完整论文,228小时跑出100篇,一篇平均2.3小时。
但这些数字背后,藏着尖锐的事实。即使是前沿大模型,也仍然捏造结果,遗漏隐藏的错误,无法可靠地判断新颖性。
AI 生成的论文能跑通,但代码可能跑的是错的算法;写出来的摘要很流畅,但引用可能张冠李戴;审稿意见看起来头头是道,但95.8%被拒的论文被它判为可接受。
Awesome AI Auto-Research Team 的一篇重磅综述,梳理了 AI 贯穿科研全周期的能力与局限,按四个阶段逐层拆解,告诉你哪里能放心用,哪里得自己盯着。

在科研过程中,哪些环节 AI 已经可以可靠辅助?哪些环节仍然需要人类研究者的判断、监督和负责?这篇综述能够作为一份 Roadmap 和 User Guide,帮助研究者更清楚地理解 AI 工具在日常科研中的能力边界、潜在风险,以及未来发展方向。
准备
一个想法变成实验,实验变成论文,论文被审稿人质疑,质疑又逼你回去补实验,补完再改稿,改完再做海报宣发。每一个环节都咬着下一个环节,上一环出错,下一环可能跟着跑偏。
这篇综述把科研生命周期分成四个阶段,八个环节。

阶段一是创造(Creation),涵盖选题、文献调研、编码实验、图表制作四个环节,回答的是贡献是什么、证据在哪。
阶段二是写作(Writing),把前述产物组织成正式论文。
阶段三是验证(Validation),包括同行评审和反驳修改,回答的是贡献够不够格。
阶段四是传播(Dissemination),把论文变成海报、幻灯片、视频、社交媒体内容,让更多人看到。
这四个阶段不是一条直线走到底。审稿人的质疑可能让你回到阶段一补实验,传播环节发现的歧义又可能触发阶段二的改稿。
这些反馈环在 AI 辅助的工作流里尤其关键,因为一个环节的错误如果不加检查,会顺着管道一路传下去。
理解这篇综述还需要知道五种方法范式,它们在不同阶段反复出现。

提示工程(Prompt Engineering)最简单,直接给大模型下指令,适合头脑风暴、润色、审稿草拟等轻量任务,但对提示词敏感,缺乏持久的事实依据。
检索增强生成(RAG,Retrieval-Augmented Generation)把模型输出锚定在外部信源上,论文库、引用图谱、代码仓库、实验日志都可以作为检索来源,在文献综述、引用支持、证据核查等环节尤其重要,但选到的文献不一定正确、版本不一定一致、内容不一定被忠实转述。
免训练智能体方法(Training-free Agentic Methods)给大模型加上规划、工具调用、记忆、自我反思和迭代执行能力,不需要更新模型参数,在深度文献探索、代码调试、实验编排、审稿回复规划等场景居核心地位,但检索失败、工具出错、自我批评失效时错误会逐级放大。
基于训练的方法(Training-based Methods)针对特定阶段的数据分布做微调,比如审稿意见、科学论文、代码仓库等,能改善一致性和领域术语,但依赖数据质量,容易过拟合。
混合方法(Hybrid Methods)把上面几种组合起来,针对复杂场景做端到端优化。
这套生命周期的视角很实用。它让你不再孤立地看某个 AI 工具好不好用,而是追踪一个产物从前一环到后一环时,信息有没有被忠实传递,错误有没有被及时拦截。
创造
创造阶段是整个生命周期里工具最多、基准测试最丰富的阶段,但成熟度参差不齐。
选题环节工具铺天盖地,想法落地后质量却经常打折扣;文献调研进步飞快,但引用忠实度和跨论文关系推理仍有瓶颈;编码实验在模式匹配上表现出色,碰到真正新颖的研究代码就大幅下滑;图表制作发展最晚,却也是日常科研中用得最多的环节之一。
选题方面,AI 从直接让大模型生成想法,发展到检索外部信号做锚定,再到多智能体协作,又到强化学习训练评分。表面看能力一路攀升,但核心矛盾始终没解:生成的想法在评估阶段看着新颖,落地后质量却显著下滑。

新颖性和可行性之间的取舍长期悬而未决。更微妙的问题在于评估本身:用大模型当裁判打分,可能奖励的是看起来新颖而非真正有价值的想法,有研究甚至发现大模型给出的新颖性评分与后续真实世界影响力呈负相关(ρ=−0.29)。
还有一个结构性隐患叫多样性坍缩,大模型生成的想法倾向于聚集在想法空间的狭窄区域,多加几个智能体并不能根治这个问题。
文献调研是 AI 辅助科研中成熟最快的环节。

两年内经历了四代演进:单轮生成、结构感知、多智能体分解、编辑器内嵌。
STORM 用多视角提问构建全面的话题大纲,SurveyForge 从人类撰写的综述中学习大纲启发式方法,CiteLLM 把无幻觉的引用发现直接嵌入 LaTeX 编辑器。
商业系统(OpenAI Deep Research、Google Deep Research、Perplexity、Elicit)和开源系统(GPT Researcher、PaperQA、ChatPaper)越来越趋同于同一种迭代架构。规划子查询,检索阅读,更新状态,循环往复直到可以综合出足够信心的报告。
但瓶颈仍然存在。引用忠实度方面,ScholarCopilot 报告 top-1 引用准确率只有40.1%;跨论文关系推理方面,关系感知的检索准确率普遍偏低。幻觉也从明显的编造变成了更隐蔽的错误归因,生成的论述看起来引经据典,细查发现引文支撑不住论点。
编码和实验是所有阶段中能力边界最锋利的一个。

在模式匹配类的软件基准测试 SWE-bench Verified 上,前沿系统超过76%。但换到真正的研究代码场景,最好的模型在 ResearchCodeBench 上只有37.3%的准确率,SciReplicate-Bench 上39%。
更值得注意的是,58.6%的错误是语义性的,代码跑得通,但实现的是错误的算法或行为。在更难的 SWE-bench Pro 上,性能跌到23%。这组数字说明,通用代码能力和研究代码能力之间存在巨大鸿沟,跑得通不等于跑得对。
执行基础设施已经不是瓶颈。闭环系统可以达到每小时约12次实验的吞吐量,已经有系统报告通过自进化研究管线生成了被学术会议接收的论文。
系统执行规定任务越来越可靠,但选择哪些实验值得做、如何解读失败,仍然强烈依赖人类的科学判断。
图表制作是创造阶段里发展最晚但增长最快的环节。

2025年底才出现第一个专门工具,但已有20多个系统覆盖图表、表格、公式等。
标准数据可视化越来越容易搞定,Matplotlib/Seaborn 上的执行通过率超过90%,多智能体方法比基线提升40%以上。
但视觉上好看和科学上正确是两码事。生成的图表可能标签错位、数值关系无效、领域特定符号出错。
成熟度也极不均衡。图表最先进,而表格生成的 LaTeX 工具还没什么高关注度的产品,公式准确率从78.8%随复杂度降到15%。
消融实验表格更难,因为它不只是格式化问题,还涉及哪些比较在科学上有意义。AI 生成的图表几乎都需要人类修改才能用于正式论文。
创造阶段的共同教训是:自动化最可信的时候,是配合事实锚定、执行反馈、显式验证和人类科学判断的时候。
想法可能落地后走样,代码可能语义出错,图表可能数据错位。每一环的产物交给下一环之前,都需要检查。
写作
写作单独成阶段,因为它不是格式化的步骤,而是一个修辞和证据组织的过程。
一份手稿要筛选证据、组织论点、在文献中定位贡献、以足够的细节解释方法以保证可复现性,还要预判审稿人可能的质疑。
AI 在写作阶段的应用最广泛,也最敏感。

大规模语料分析估计,高达17.5%的计算机科学摘要和13.5%的生物医学摘要可以检测到 AI 修改痕迹。
2025年 Nature 的一项调查发现,超过一半的研究者报告寻求过 AI 写作帮助。AI 写作辅助已经嵌入日常科研工作流。
半自动写作工具覆盖了从规划、起草到润色、引用支持的全链条。
ScholarCopilot 把引用建议直接嵌入写作过程,CiteWrite 围绕源材料转换而非直接生成文本来组织 AI 辅助写作,DraftMarks 对修改强度和 AI 生成内容做可视化追踪,让人类和 AI 的协作过程对读者和审稿人更透明。这类工具最可信的用法,是增强研究者的控制而非替代其智力工作。
全自动论文生成方面,CycleResearcher 报告生成论文在 ICLR 评分量表上拿到5.36分,接近但未达到已接收论文平均的5.69分。
瓶颈不再是表面流畅性,而是论证深度、实验严谨性和对审稿人预期的应对。
APRES 用引用量预测评分标准来指导论文修改,人类专家79%的情况下偏好修改后的版本。
还有一个平庸之谷现象:论文流畅到看起来像真的,但缺乏论证深度、实验严谨性和审稿预判。生产力提升和论文质量可能脱钩,AI 辅助的论文如果语言更复杂,反而更不容易被接收。
写作阶段的核心障碍不是语法错误,而是没有证据支撑的游说。文本流畅、结构规整、看似引经据典,实际上缺乏证据或科学判断的根基。
验证
验证阶段问的是:这个贡献价值够不够?审稿人要找出未支撑的论断、方法缺陷、缺失的比较、不清楚的表述和不够新颖的贡献。
AI 在同行评审方面已经走向实际部署,但部署模式很讲究。

ICLR 2025的实践表明,最强且经过验证的部署模式是用 AI 给审稿意见提供反馈,而非让 AI 独立审稿。审稿反馈在89%的情况下提升了质量,且没有影响接收率。
斯坦福 Agentic Reviewer 达到了0.42的 Spearman 相关性,与人类评审者之间0.41的相关性相当。
但独立 AI 审稿仍然不安全。大模型给出的分数偏高(AI 平均6.86,人类5.70),把95.8%被拒的论文误判为可接受。
对抗性脆弱性也触目惊心。提示注入可以把分数拉到满分10分,5%的操纵就能翻转12%的排名,良性形容词可以充当通用触发器。
反驳修改是验证阶段的第二个环节,也是整个生命周期中最年轻、最被低估的环节之一。

ICLR 2024到2025年的数据显示,75%到81%的分数在反驳后不变,17%到23%改善,有约1%下降。
但反驳的有效性不只在于说服力。很多审稿人要求补充新实验、做消融、加分析,这些活当前的 AI 系统干不了。
反驳环节到编码环节的反馈环(S7→S3)是一个主要的未自动化缺口。ICLR 2025大约25%的反驳承诺在最终版中未兑现。AI 可以帮你拆解审稿人关切、检索证据、规划回复,但承诺的实验得自己做,承诺的修改得自己落实。
验证阶段的一致规律是:AI 越来越能生成审稿式的文字和反驳式的回复,但验证的难处从来不在于生成像样的评价文本,而在于做出公平、批判、有证据支撑的判断,并确保批判导致有问责的修改。
传播
传播阶段把经过验证的论文变成各种受众友好的产物:海报、幻灯片、视频、社交媒体内容、项目页面,甚至可交互的论文智能体。每个格式的受众不同,设计约束不同,对科学忠实度的要求也不同。

成本门槛已经被彻底打破。Paper2Poster 报告每张海报0.005美元,token 消耗减少87%;8B 参数模型在幻灯片生成上可以匹配前沿大模型。
这是所有阶段里自动化性价比最高的。海报和幻灯片生成已经从一次转换发展到可编辑、有反馈、可按用户偏好调节的工作流。
Paper2Poster 用二叉树布局规划和画家评论者反馈循环把海报生成分解为布局构建、渲染和评判。PPTAgent 引入 PPTEval 从内容、设计和连贯性三个维度评估幻灯片质量。
视频是最难的传播格式。它必须协调至少四种模态:视觉幻灯片、字幕、语音和时序或虚拟人演示,还要在忠实于论文的同时足够简洁。当前系统更适合作为初稿生成器,产出同步的演示素材供人类审查。
Paper2Agent 的转换把传播从静态解释推向交互式复用。Paper2Agent 把论文和代码库转换成交互式智能体,用户可以用自然语言查询、复现、改编或扩展论文的方法。这重新定义了传播,论文不再只被阅读,还可以被查询和执行。
但交互式智能体不仅要忠实概述论文,还要正确执行工具、遵守原始方法的局限、避免把未支撑的外推当作有效结论。
传播阶段的核心瓶颈是信任,不是生成成本。
研究者需要确信 AI 生成的公开产物忠实保留了论断、注意事项和局限。
每种格式压缩、重排或重新表达论文时,都可能遗漏、夸大或歪曲。海报可能过度简化贡献,视频可能错位叙述和视觉证据,社交媒体帖子可能用吸引眼球代替严谨,交互式智能体可能暴露超出验证范围的工具或工作流。
传播阶段的自动化最可信的用法,是支持初稿生成、格式适配、编辑和交互,同时保留作者对论断和局限的监督权。
交叉分析

跳出单个阶段,有一些规律贯穿了整个生命周期。
第一条,产物生成跑在了科学验证前面。
AI 在产出各种产物方面越来越强,在验证这些产物的科学有效性方面却相对落后。选题环节,生成的想法执行后质量下滑;编码环节,代码跑得通但可能实现的是错的算法;图表环节,视觉产物看起来精美但可能歪曲数据;写作环节,流畅的文字可能掩盖薄弱的推理;审稿环节,自动评审可能漏判关键的方法论缺陷或给出虚高分数;反驳环节,回复听起来有说服力,价值取决于承诺的实验和修改是否兑现;传播环节,产物可能夸大论断。
第二条,阶段边界是错误传播的温床。
大多数端到端系统覆盖了创造和写作,但很少覆盖验证和传播。创造和写作是产出产物,验证和传播需要判断、问责和受众感知的忠实度。
错误在阶段间传递的方式是复合的,一个薄弱的想法导致不相关的实验,错误的代码产生误导的结果,未支撑的实验论断被润色成看似合理的论文。当前系统很少在完整生命周期上维持可追溯的关联:假设应该连接到检索的文献,代码应该连接到实验,图表应该连接到日志,论文论断应该连接到证据,反驳承诺应该连接到修改,面向公众的摘要应该连接到经过验证的论文。
第三条,科学判断是 AI 最难自动化的能力之一。
新颖性、重要性和贡献是受社会和时间条件制约的。好的研究想法取决于领域背景、可行性、时机、社区标准和证据可得性。自动化新颖性评分可能奖励听起来原创但执行后失效的想法。
大模型生成的想法可能聚集在想法空间的狭窄区域,限制了探索真正不同的研究方向的能力。
第四条,有效的系统都有相似的分层架构:探索层、执行层和验证层。
探索层搜索假设、论文集、代码变体或设计方案;执行层与检索引擎、代码解释器、实验运行器、绘图库等工具交互;验证层通过执行反馈、引用验证、批判、审稿人模拟或人类审查来检查中间产物是否锚定、正确和有用。
重要的设计原则不是智能体数量,而是架构是否匹配任务结构、是否包含可靠的验证。
第五条,AI 使用已经是一个治理问题,不是检测问题。
检测工具对学术写作会产生误判,加水印依赖模型提供商配合且对改写不鲁棒。更持久的是治理问题:哪些形式的 AI 辅助必须声明?审稿期间哪些使用是允许的?谁对 AI 生成的论断、引用、反驳承诺和公开摘要负责?
作者对论断、引用、实验、反驳承诺和面向公众的摘要负责,不管哪些 AI 工具参与了它们的生产,这是核心治理原则。
评估正从孤立输出转向多维度评估,基准测试变得越来越关注领域和工作流,但基准测试表现和真实研究能力之间的差距仍然顽固。
最可信的前进路径是人本治理的 AI 辅助科研。
AI 应该减少检索、起草、编码、可视化、审稿支持和传播中的机械摩擦,研究者保留对判断、解读、实验设计、论证和最终责任的掌控。
未来的系统应该在全生命周期维护产物溯源,尽可能使用检索和执行锚定,在阶段边界设置人类检查点,让 AI 的参与透明可查。
参考资料:
https://worldbench.github.io/awesome-ai-auto-research
https://arxiv.org/pdf/2605.18661
https://github.com/worldbench/awesome-ai-auto-research
END
点击图片立即报名👇️





夜雨聆风