AI科研不只靠模型

第一次用 AI 辅助科研，很多人都会有一个兴奋时刻。

你把一段推导、一段代码、一个审稿意见丢给它。它能解释，能改写，能指出问题。有时还能把你卡了一下午的 bug 找出来。

于是第二个念头很自然地冒出来：

既然我也能调用大模型 API，是不是可以自己做一个科研 agent？让它读文献、跑程序、画图、写论文，甚至帮我推进一个课题？

两周之后，兴奋常常会变成疲惫。

它有时会编造引用。有时会跑错脚本。有时读了十篇文献，却记不住前后关系。让它改代码，它改了一个文件，另一个文件坏了。让它跑实验，它不知道该记录什么，也不知道该和哪个基准比较。

问题不一定出在模型不够聪明。

很多时候，问题出在模型和科研工作之间少了一层东西。

这层东西可以叫 research harness。中文可以先粗略理解成：科研 AI 的身体、实验台和记录系统。

这篇文章只讲一个问题：

为什么很多科研 AI 项目还没拿到科学正反馈，就被耗死在基础设施上？

做科研 AI，不能只看“大模型”三个字。

更清楚的拆法，是三层：

第一层是 LLM，也就是大语言模型。它像大脑。

它擅长读文字、写文字、推理和总结。但它本身不能直接打开你的文件夹，不能运行你的 Fortran 程序，不能知道你上次在集群上哪一个 job 挂了，也不能天然记住你三个月前读过哪篇论文。

一个很聪明的大脑，如果只放在桌上，仍然做不了实验。

第二层是 research harness。

它是大脑的手、眼睛、实验台和笔记本。

模型说“我要读这篇论文”，harness 去找 PDF、提取正文、保留公式和图注。模型说“我要跑一下这个算例”，harness 去准备环境、执行命令、收集输出、保存日志。模型说“这个结果要和论文表格比较”，harness 去找到参考值，把误差算出来。

第三层才是 research agent。

它不是一个会聊天的模型，而是“大脑 + harness + 某个科研方向的知识和判断标准”。

一个核反应 agent、一个材料计算 agent、一个生物信息 agent，不应该只是 prompt 不一样。它们看的文献不同，用的代码不同，验证标准不同，能动的数据也不同。

科研 agent 更像受过训练的研究助理。

它不是只会说话。它要能把话落到文件、程序、图、日志和可复现实验上。

科研里最容易漏掉中间层

很多人第一次做科研 AI，会把问题理解成：

模型能力 + prompt 工程 = agent。

这少算了一层。

你让模型“分析这批文献”，它需要知道哪些文献是主线，哪些只是背景，哪些已经被后来的工作修正。你让模型“改一下程序”，它需要知道这个 repo 的入口在哪里，测试怎么跑，参考输出是什么。你让模型“帮我写论文”，它需要知道哪些结论已经被数据支持，哪些只是猜想。

这些都不是一句 prompt 能解决的。

它们属于 harness。

具体到科研，harness 至少要管这些事：

文献层：PDF、笔记、引用、公式、图表、已有 wiki。

代码层：仓库、依赖、测试、编译、脚本入口、历史报错。

数据层：原始数据、处理流程、版本、单位、误差条。

计算层：本地环境、集群任务、GPU 使用、日志、失败重跑。

验证层：解析解、公开基准、旧代码输出、论文表格、实验数据。

写作层：草稿、图注、审稿意见、版本差异、投稿格式。

权限层：哪些文件能读，哪些服务器能跑，哪些操作必须人确认。

可观测性：每一步为什么做、用了什么输入、产生了什么输出、以后能不能重放。

这些东西听起来琐碎。

但科研 AI 能不能真的干活，常常就卡在这里。

为什么聊天 AI 到科研就失灵

聊天 AI 很容易给人一种错觉：只要模型足够聪明，它就会自然变成科研助手。

真实情况没有这么简单。

科研不是连续聊天。

科研是一串可验证动作。

读一篇论文，要留下结构化笔记。改一段程序，要能跑测试。画一张图，要能追溯数据来源。提出一个机制解释，要能说清楚和已有模型的差别。写一句结论，要知道它被哪张图支持。

如果没有 harness，模型只能在文字里来回转。

这就像让一个学生口头说“我会做实验”，但不给他实验台、试剂、记录本和安全规程。

比如一个看似简单的任务：

“帮我判断这个新方法有没有比旧方法好。”

模型需要做的不是写一段漂亮评价。

它要找到旧方法的参考输出。要确认新旧代码用的是同一套输入。要检查单位有没有变。要记录随机种子。要比较误差范围。要知道结果差异是物理机制，还是数值误差，还是数据处理错了。

这里面真正难的，不是语言表达。

真正难的是把“判断”接到可复现的证据链上。

被耗死的不是想法，而是地基

很多科研团队真正擅长的是科学问题。

他们知道某个反应机制哪里可疑，知道某个近似什么时候会失效，知道一张图里的异常点可能意味着什么。

这些判断很宝贵。

但一旦他们想把 AI 放进科研流程，就常常被迫去做另一件事：搭基础设施。

想做一个文献 agent，先要处理 PDF 解析、公式丢失、图表编号、引用匹配、长期记忆和查重。

想做一个代码 agent，先要处理沙箱、依赖安装、测试入口、补丁应用、失败回滚和日志保存。

想做一个计算 agent，先要处理服务器权限、队列系统、断线恢复、GPU 资源、输出文件和异常报警。

想做一个论文 agent，先要处理版本管理、图表一致性、引用核对、审稿意见映射和不同期刊模板。

这些都重要。

但它们不是科学问题本身。

让一个科研团队从零手搓这些东西，有点像让一个实验组先自己造显微镜、自己造冰箱、自己造电源，再开始做实验。

也许能造出来。

但课题窗口可能已经过去了。

更糟的是，团队会产生一种错觉：

“AI 辅助科研好像没那么有用。”

其实不是 AI 没用。

而是团队还没把 AI 接到真正的科研回路里。

科研正反馈是什么

商业项目讲业务正反馈。

科研项目也有自己的正反馈。

它不是“模型回答得像不像专家”。

科研正反馈更具体：

它帮你更快排除了一个错误机制。

它帮你发现一篇关键论文和当前假设冲突。

它帮你把一个旧程序跑通，并和发表表格对到三位有效数字。

它帮你把一组参数扫描变成可解释的图。

它帮你把审稿人问题拆成能逐条验证的小任务。

它帮你把失败尝试记下来，三个月后不会重复踩坑。

这些反馈一旦出现，科研 AI 才开始进入正循环。

但要拿到这些反馈，必须有 harness。

因为这些反馈都要求模型能碰到真实材料：论文、代码、数据、图、日志和版本。

只会聊天，不够。

什么该交给 AI

把 AI 放进科研，不是把判断权全部交出去。

更好的分工是：

AI 负责把低层工作变快，把证据链整理清楚。

人负责判断问题是否重要，机制是否可信，结论是否够硬。

AI 可以做文献初筛。它能把几十篇论文按方法、体系、假设和结论分组。

AI 可以做代码体检。它能找入口、跑测试、读报错、提出小补丁。

AI 可以做结果对照。它能把新输出和旧表格、解析极限、基准算例放在一起。

AI 可以做图表迭代。它能检查坐标轴、单位、颜色、图注和数据路径。

AI 可以做审稿回复的任务拆分。它能把一句尖锐意见拆成计算、文字、图表和引用四类动作。

但 AI 不应该替你决定科学品味。

漂亮的拟合不等于正确的物理图像。

流畅的综述不等于真实理解。

一段看似有道理的机制解释，如果不能回到方程、数据和可检验预言，就仍然只是文字。

科研里最重要的那部分，仍然是人来定。

从一个闭环开始

如果一个团队想做 AI 辅助科研，不建议一上来就做“全能科研 agent”。

那会很快掉进基础设施泥潭。

更好的做法，是先选一个小闭环。

比如：

读三篇指定论文，生成结构化笔记，并指出共同假设。

跑一个最小算例，和论文中的一个表格对数值。

检查一张图，从原始数据到最终 PDF 是否可追溯。

整理一次审稿意见，把每条意见变成一个可执行任务。

维护一个失败尝试日志，避免同一个方向重复试错。

这个闭环越小，越容易验证。

验证标准也要具体。

不是“回答得不错”，而是“引用没有错”“脚本能复跑”“图能重现”“误差在可接受范围内”“结论被哪张图支持说得清楚”。

一旦小闭环跑通，再往外扩。

先把一个科研动作做扎实，比一开始做一个万能助手更有价值。

未来会分成三类能力

看清这三层之后，AI 辅助科研的格局也会清楚很多。

第一类能力，是模型能力。

谁的模型更会推理，更会读长文，更会写代码，更少幻觉。这当然重要。

但这不是普通科研团队最该从零建设的地方。

第二类能力，是科研 harness 能力。

谁能把模型稳定接进文献库、代码库、数据、计算环境、写作流程和权限系统。

这层能力会越来越像科研时代的公共实验台。

它未必显眼，但决定 AI 能不能真的干活。

第三类能力，是具体学科能力。

核物理、凝聚态、材料、生物、医学、经济学，每个领域都有自己的问题感、数据习惯、验证标准和失败经验。

这部分不能外包。

真正有价值的科研 agent，最后一定长在具体学科里。

同一个底座，可以服务不同方向。但每个方向都要有自己的知识、工具和判断标准。

所以，科研团队最该问的问题不是：

“我们能不能自己做一个 agent 框架？”

而是：

“我们最想让 AI 进入哪一个可验证的科研动作？”

如果答案是读文献，就先把文献闭环做扎实。

如果答案是跑代码，就先把代码和基准闭环做扎实。

如果答案是写论文，就先把图、数据、引用和论证链闭环做扎实。

不要一开始就追求一个看起来像人的全能助手。

先让它在一个小地方交出证据。

科研 AI 的关键，不是把模型当导师。

而是把模型接进一个能读、能跑、能记、能查、能复现的科研工作流里。

一句话收住：

科研 AI 真正的价值，不在于它会不会聊天，而在于它能不能把一次科学判断变成可验证的证据链。