Vibe Research——用 AI 做科研

昨天听了金磊教授关于Vibe Research的报告，让我对用AI做科研的方法有了更深的理解。感兴趣的朋友可以看这位博士生导师写的网页介绍。https://tutorial.vibeinscience.com/

下面来谈谈我对Vibe Research的理解，我觉得它是一个很好科研助手，协助我们高效的解决含金量低的工作。

对比维度	传统科研流程	AI 协作科研流程
启动方式	问题、代码、数据和验证方案常常混在脑子里，边做边想。	先写 brief：目标、边界、基准、验收标准一次性显式化。
代码实现	研究者亲自处理大量样板代码、调参脚本、绘图和格式转换。	AI 承担可描述、可验证、可回滚的实现工作；研究者负责判断与验收。
可信度来源	依赖经验和局部检查，验证链容易散落在多个文件里。	每个强结论都绑定 claim → evidence → script → config → benchmark。
时间分配	大量时间消耗在非核心智识任务上。	把时间集中到建模、解释、反例、边界条件和最终责任上。
主要风险	慢，但错误通常暴露得较早。	快，但若没有专家过滤器，会高速产出看似合理的错误。

一、什么是 Vibe Research？

Vibe Research 的核心主张可以概括为一句话：

核心原则

把非核心智识环节交给 AI，把研究者的时间留给研究者真正不可替代的部分：问题定义、理论判断、实验设计、结果解释与质量把关。

这里的“非核心智识环节”不是说它们不重要，而是说它们更适合被流程化、自动化和反复检查。例如：搭建代码框架、补测试、整理文献条目、生成绘图脚本、写初稿、检查格式、把实验结果汇总成表。

1、传统科研的时间去哪了？

很多科研工作并不是卡在“想不出问题”，而是卡在把想法变成可复现实验、可审查证据和可投稿文本的漫长链条上。

活动类型	常见痛点	适合交给 AI 的部分
核心智识工作	理论判断、模型选择、反例构造、结果解释。	不应外包；AI 只能做辅助推演和反问。
代码实现与调试	样板多、细节多、容易被工程问题拖住。	生成脚本、补测试、重构接口、解释报错。
图表与结果整理	重复劳动多，格式要求细。	批量绘图、表格汇总、图注初稿、结果对齐。
文献与写作	引用格式、摘要整理、初稿组织耗时。	提纲、改写、审稿回复草稿、引用一致性检查。
验证与复现	经常被拖到最后，导致质量风险。	生成验证清单、自动化测试、记录运行配置。

2、最容易被误解的一点：AI 不是替代专家

重要警告：Expert Filter

LLM 不是在“民主化高质量科研”，而是在放大已有能力。没有领域判断力的人，会更快地产出错误；有专家过滤器的人，才可能把速度转化为可靠成果。

因此，这套方法论的底层假设不是“AI 足够聪明”，而是“研究者足够清楚什么可以交给 AI、什么必须自己负责”。AI 可以帮你更快抵达结果，但不能替你承担结果的学术责任。

二、方法论的三个核心层次

第一层：把研究显式化为可执行 brief

传统科研里，很多关键设定只存在于研究者脑中。Vibe Research 要求先把这些设定写成可执行 brief。这个动作表面上是在约束 AI，实际上是在约束研究者自己：先想清楚，再让 AI 动手。

字段	应该写清楚什么	常见坏例子
Central Claim	这次会话要验证的核心主张是什么？	“帮我优化一下代码。”
Scope / Not in Scope	哪些问题本轮不做，哪些边界不碰。	边做边加需求，最后无法验收。
Benchmark	对照什么结果、数据集、解析解或已有实现。	只看输出“像不像”。
误差预算	允许多大数值偏差、统计波动或人工判断空间。	没有阈值，结果好坏全凭感觉。
停机条件	何时停止继续追问或继续调参。	不断让 AI 修，直到看起来能跑。
验收标准	什么结果才算完成，交付物是什么。	“差不多就行”。

第二层：用验证链替代输出信任

AI 写得越快，越不能靠“看起来合理”验收。每个重要 claim 都要绑定一条能追溯、能复跑、能失败的证据链。

claim→evidence→script→config→commit/version→benchmark→failure condition

这条链的含义是：论文里越强的表述，背后的证据链越要完整。强结论不能只对应一张图或一次成功运行，而要对应清楚的脚本、配置、基准和失败条件。

验证维度	通用含义	可迁移示例
解析极限 / Toy Case	在最简单、可手算或已知答案的情况下先通过。	小样本、线性模型、合成数据、教材例题。
独立参考实现	用不同代码路径或不同工具做同一件事。	另一个库、另一套脚本、手写简化版。
约束 / 不变量	检查领域内不应被破坏的硬约束。	守恒量、维度一致性、单调性、边界条件、业务规则。
边界压力测试	在最容易出错的极端输入上测试。	零值、缺失值、超大值、稀疏样本、退化情形。

第三层：重新给 80/20 定价

过去很多科研时间被“把想法变成可运行东西”的摩擦消耗掉。AI 的价值不是让想法变廉价，而是压缩从想法到可验证结果的距离。

这会改变研究者的 80/20：原来可能 80% 时间在实现、整理、修格式，20% 时间在判断；现在应该反过来，把更多时间投向判断、反例、解释和设计下一轮问题。

三、最值得借鉴的五个具体做法

做法 1：“先读，不许先改”——第一次会话只做诊断

在开始任何实现之前，第一轮 AI 会话只允许做四件事：

1.总结代码库或资料的现状。

2.找出关键入口、数据路径、依赖关系。

3.识别潜在风险点与不确定点。

4.明确说明“尚未读完，暂不接受实现方案”。

这样做是在防御 LLM 的常见缺陷：它会很自信地补全不存在的上下文，并给出看似合理但实际错误的方案。

做法 2：维护一份 AI_RULES.md

在项目根目录放一份 150 行以内的 AI_RULES.md，用祈使句写清楚长期约束。它不是提示词收藏，而是项目说明书。

模块	应该包含
领域约定	术语、单位、符号、数据口径、归一化方式、边界条件。
禁止修改	哪些文件、函数、数据源或结论不能被 AI 自行改动。
验证命令	如何运行测试、如何复现实验、如何检查结果。
会话压缩	长会话被总结时必须保留哪些关键决策及原因。

# AI_RULES.md 示例片段- 不要直接修改原始数据文件。- 每次生成图表必须同时保存脚本、配置和随机种子。- 所有结论必须标明来自哪一次实验、哪一个 commit/version。- 遇到与领域常识冲突的结果，先报告异常，不要自动修到“看起来合理”。

做法 3：把“AI 出错、专家修复”纳入正常流程

成熟的 AI 科研流程不假装 AI 永远正确。相反，它把“发现错误、定位错误、记录修复理由”视为流程的一部分。

这件事的好处是：当 AI 真的出错时，你不会慌乱，也不会因为结果漂亮就跳过检查。你会把它当成一次正常的专家审查。

做法 4：每次会话都是一个小实验

不要用 AI 随手做事。把每次会话设计成一个小实验：目标是什么、预期输出是什么、如何验证、何时停止、失败了说明什么。

这样做会带来一个副作用：你的研究笔记会变得更好，因为每一步不仅有结果，还有决策原因。

做法 5：用 Expert Filter 做最终把关

提交任何结果前，建议用下面 8 个问题自检。只要有一条回答“不确定”，就不应把它当成最终结论。

1.我能不依赖 AI 的解释，独立判断这段推导或结果的对错吗？

2.我知道 LLM 在这个领域最容易犯哪些错误吗？

3.我核对过文献、数据来源、DOI、版本号或出处真实吗？

4.当 AI 偏离指令或自行补全背景时，我能及时拉回来吗？

5.我的验证链足以支撑文中最强的那句话吗？

6.我是否有独立参考实现或外部基准来排除“自洽但错误”？

7.我是否接受最终学术责任完全在自己身上？

8.如果任何关键点不确定，我是否愿意暂停而不是硬发？

四、如何迁移到不同学科

Vibe Research 的骨架是通用的，但每个学科都必须替换自己的“验证原语”。迁移的关键不是照搬工具，而是把你所在领域最容易出错、最需要专家判断的部分写出来。

通用原语	在不同学科中的等效物
解析极限 / Toy Case	简单模型、已知基准数据、可手算案例、标准例题。
守恒约束 / 不变量	物理守恒、统计假设、业务规则、伦理约束、数据口径。
独立参考实现	不同软件、不同算法、不同标注者、不同实验路径。
AI_RULES.md	术语表、变量定义、数据字典、实验规范、写作风格指南。
陷阱概念清单	领域内 AI 常混淆的概念、公式、引用、单位或因果关系。

五、一个可直接复用的操作模板

阶段	研究者负责	AI 负责	验收物
准备	定义问题、边界、成功标准。	把 brief 整理成任务清单，指出缺口。	一页 brief。
诊断	确认关键假设和风险。	阅读代码/文献/数据结构，只总结不修改。	诊断报告。
实现	批准可执行任务，审查方案。	写脚本、补测试、生成图表和中间产物。	可复跑脚本。
验证	判断验证是否足够，决定是否继续。	跑 toy case、参考实现、边界测试。	验证矩阵。
写作	决定论文叙事和结论强度。	生成初稿、改写、格式检查、审稿回复草稿。	可审阅文本。
归档	确认最终责任和可追溯性。	整理配置、版本、图表、日志和 README。	复现包。

每次让 AI 动手前，先写清楚：我要验证什么、哪些不做、用什么基准验收、允许多大误差、失败时如何停止。

六、边界与风险

1.前提条件高：它要求研究者具备足够强的领域判断力。越是早期研究者，越需要导师、同伴和外部基准共同把关。

2.验证成本不为零：写 brief、维护 AI_RULES.md、建立验证链都需要纪律。初期可能比直接开干更慢。

3.工具会变，骨架不变：具体工具会快速迭代，但“显式 brief + 验证链 + 专家过滤器”的骨架相对稳定。

4.幻觉风险永远存在：LLM 可能编造文献、误解单位、写出自洽但错误的代码。验证链不能省。

5.不要把速度误认为质量：更快抵达结果，只意味着你需要更早、更系统地做质量控制。

结语：AI 是放大镜，不是替代品

最终原则

AI 辅助科研的本质，不是让 AI 替你做研究，而是让你把更多时间用于只有研究者才能完成的判断、创造和负责。

这套方法最反直觉的地方在于：它对使用者的要求并不低。你需要足够专业，才能判断 AI 什么时候是对的，什么时候必须被纠正。

但如果你具备这个能力，它会显著减少非核心摩擦，让你在同样的时间里完成更多经过验证、可复现、可解释的科研工作。