
第一次用 AI 辅助科研,很多人都会有一个兴奋时刻。
你把一段推导、一段代码、一个审稿意见丢给它。它能解释,能改写,能指出问题。有时还能把你卡了一下午的 bug 找出来。
于是第二个念头很自然地冒出来:
既然我也能调用大模型 API,是不是可以自己做一个科研 agent?让它读文献、跑程序、画图、写论文,甚至帮我推进一个课题?
两周之后,兴奋常常会变成疲惫。
它有时会编造引用。有时会跑错脚本。有时读了十篇文献,却记不住前后关系。让它改代码,它改了一个文件,另一个文件坏了。让它跑实验,它不知道该记录什么,也不知道该和哪个基准比较。
问题不一定出在模型不够聪明。
很多时候,问题出在模型和科研工作之间少了一层东西。
这层东西可以叫 research harness。中文可以先粗略理解成:科研 AI 的身体、实验台和记录系统。
这篇文章只讲一个问题:
为什么很多科研 AI 项目还没拿到科学正反馈,就被耗死在基础设施上?
做科研 AI,不能只看“大模型”三个字。
更清楚的拆法,是三层:
第一层是 LLM,也就是大语言模型。它像大脑。
它擅长读文字、写文字、推理和总结。但它本身不能直接打开你的文件夹,不能运行你的 Fortran 程序,不能知道你上次在集群上哪一个 job 挂了,也不能天然记住你三个月前读过哪篇论文。
一个很聪明的大脑,如果只放在桌上,仍然做不了实验。

第二层是 research harness。
它是大脑的手、眼睛、实验台和笔记本。
模型说“我要读这篇论文”,harness 去找 PDF、提取正文、保留公式和图注。模型说“我要跑一下这个算例”,harness 去准备环境、执行命令、收集输出、保存日志。模型说“这个结果要和论文表格比较”,harness 去找到参考值,把误差算出来。
第三层才是 research agent。
它不是一个会聊天的模型,而是“大脑 + harness + 某个科研方向的知识和判断标准”。
一个核反应 agent、一个材料计算 agent、一个生物信息 agent,不应该只是 prompt 不一样。它们看的文献不同,用的代码不同,验证标准不同,能动的数据也不同。
科研 agent 更像受过训练的研究助理。
它不是只会说话。它要能把话落到文件、程序、图、日志和可复现实验上。
科研里最容易漏掉中间层
很多人第一次做科研 AI,会把问题理解成:
模型能力 + prompt 工程 = agent。
这少算了一层。
你让模型“分析这批文献”,它需要知道哪些文献是主线,哪些只是背景,哪些已经被后来的工作修正。你让模型“改一下程序”,它需要知道这个 repo 的入口在哪里,测试怎么跑,参考输出是什么。你让模型“帮我写论文”,它需要知道哪些结论已经被数据支持,哪些只是猜想。
这些都不是一句 prompt 能解决的。
它们属于 harness。
具体到科研,harness 至少要管这些事:
文献层:PDF、笔记、引用、公式、图表、已有 wiki。
代码层:仓库、依赖、测试、编译、脚本入口、历史报错。
数据层:原始数据、处理流程、版本、单位、误差条。
计算层:本地环境、集群任务、GPU 使用、日志、失败重跑。
验证层:解析解、公开基准、旧代码输出、论文表格、实验数据。
写作层:草稿、图注、审稿意见、版本差异、投稿格式。
权限层:哪些文件能读,哪些服务器能跑,哪些操作必须人确认。
可观测性:每一步为什么做、用了什么输入、产生了什么输出、以后能不能重放。
这些东西听起来琐碎。
但科研 AI 能不能真的干活,常常就卡在这里。
为什么聊天 AI 到科研就失灵
聊天 AI 很容易给人一种错觉:只要模型足够聪明,它就会自然变成科研助手。
真实情况没有这么简单。
科研不是连续聊天。
科研是一串可验证动作。
读一篇论文,要留下结构化笔记。改一段程序,要能跑测试。画一张图,要能追溯数据来源。提出一个机制解释,要能说清楚和已有模型的差别。写一句结论,要知道它被哪张图支持。
如果没有 harness,模型只能在文字里来回转。
这就像让一个学生口头说“我会做实验”,但不给他实验台、试剂、记录本和安全规程。

比如一个看似简单的任务:
“帮我判断这个新方法有没有比旧方法好。”
模型需要做的不是写一段漂亮评价。
它要找到旧方法的参考输出。要确认新旧代码用的是同一套输入。要检查单位有没有变。要记录随机种子。要比较误差范围。要知道结果差异是物理机制,还是数值误差,还是数据处理错了。
这里面真正难的,不是语言表达。
真正难的是把“判断”接到可复现的证据链上。
被耗死的不是想法,而是地基
很多科研团队真正擅长的是科学问题。
他们知道某个反应机制哪里可疑,知道某个近似什么时候会失效,知道一张图里的异常点可能意味着什么。
这些判断很宝贵。
但一旦他们想把 AI 放进科研流程,就常常被迫去做另一件事:搭基础设施。
想做一个文献 agent,先要处理 PDF 解析、公式丢失、图表编号、引用匹配、长期记忆和查重。
想做一个代码 agent,先要处理沙箱、依赖安装、测试入口、补丁应用、失败回滚和日志保存。
想做一个计算 agent,先要处理服务器权限、队列系统、断线恢复、GPU 资源、输出文件和异常报警。
想做一个论文 agent,先要处理版本管理、图表一致性、引用核对、审稿意见映射和不同期刊模板。
这些都重要。
但它们不是科学问题本身。
让一个科研团队从零手搓这些东西,有点像让一个实验组先自己造显微镜、自己造冰箱、自己造电源,再开始做实验。
也许能造出来。
但课题窗口可能已经过去了。
更糟的是,团队会产生一种错觉:
“AI 辅助科研好像没那么有用。”
其实不是 AI 没用。
而是团队还没把 AI 接到真正的科研回路里。
科研正反馈是什么
商业项目讲业务正反馈。
科研项目也有自己的正反馈。
它不是“模型回答得像不像专家”。
科研正反馈更具体:
它帮你更快排除了一个错误机制。
它帮你发现一篇关键论文和当前假设冲突。
它帮你把一个旧程序跑通,并和发表表格对到三位有效数字。
它帮你把一组参数扫描变成可解释的图。
它帮你把审稿人问题拆成能逐条验证的小任务。
它帮你把失败尝试记下来,三个月后不会重复踩坑。
这些反馈一旦出现,科研 AI 才开始进入正循环。
但要拿到这些反馈,必须有 harness。
因为这些反馈都要求模型能碰到真实材料:论文、代码、数据、图、日志和版本。
只会聊天,不够。

什么该交给 AI
把 AI 放进科研,不是把判断权全部交出去。
更好的分工是:
AI 负责把低层工作变快,把证据链整理清楚。
人负责判断问题是否重要,机制是否可信,结论是否够硬。
AI 可以做文献初筛。它能把几十篇论文按方法、体系、假设和结论分组。
AI 可以做代码体检。它能找入口、跑测试、读报错、提出小补丁。
AI 可以做结果对照。它能把新输出和旧表格、解析极限、基准算例放在一起。
AI 可以做图表迭代。它能检查坐标轴、单位、颜色、图注和数据路径。
AI 可以做审稿回复的任务拆分。它能把一句尖锐意见拆成计算、文字、图表和引用四类动作。
但 AI 不应该替你决定科学品味。
漂亮的拟合不等于正确的物理图像。
流畅的综述不等于真实理解。
一段看似有道理的机制解释,如果不能回到方程、数据和可检验预言,就仍然只是文字。
科研里最重要的那部分,仍然是人来定。
从一个闭环开始
如果一个团队想做 AI 辅助科研,不建议一上来就做“全能科研 agent”。
那会很快掉进基础设施泥潭。
更好的做法,是先选一个小闭环。
比如:
读三篇指定论文,生成结构化笔记,并指出共同假设。
跑一个最小算例,和论文中的一个表格对数值。
检查一张图,从原始数据到最终 PDF 是否可追溯。
整理一次审稿意见,把每条意见变成一个可执行任务。
维护一个失败尝试日志,避免同一个方向重复试错。
这个闭环越小,越容易验证。
验证标准也要具体。
不是“回答得不错”,而是“引用没有错”“脚本能复跑”“图能重现”“误差在可接受范围内”“结论被哪张图支持说得清楚”。
一旦小闭环跑通,再往外扩。
先把一个科研动作做扎实,比一开始做一个万能助手更有价值。

未来会分成三类能力
看清这三层之后,AI 辅助科研的格局也会清楚很多。
第一类能力,是模型能力。
谁的模型更会推理,更会读长文,更会写代码,更少幻觉。这当然重要。
但这不是普通科研团队最该从零建设的地方。
第二类能力,是科研 harness 能力。
谁能把模型稳定接进文献库、代码库、数据、计算环境、写作流程和权限系统。
这层能力会越来越像科研时代的公共实验台。
它未必显眼,但决定 AI 能不能真的干活。
第三类能力,是具体学科能力。
核物理、凝聚态、材料、生物、医学、经济学,每个领域都有自己的问题感、数据习惯、验证标准和失败经验。
这部分不能外包。
真正有价值的科研 agent,最后一定长在具体学科里。
同一个底座,可以服务不同方向。但每个方向都要有自己的知识、工具和判断标准。
所以,科研团队最该问的问题不是:
“我们能不能自己做一个 agent 框架?”
而是:
“我们最想让 AI 进入哪一个可验证的科研动作?”
如果答案是读文献,就先把文献闭环做扎实。
如果答案是跑代码,就先把代码和基准闭环做扎实。
如果答案是写论文,就先把图、数据、引用和论证链闭环做扎实。
不要一开始就追求一个看起来像人的全能助手。
先让它在一个小地方交出证据。
科研 AI 的关键,不是把模型当导师。
而是把模型接进一个能读、能跑、能记、能查、能复现的科研工作流里。
一句话收住:
科研 AI 真正的价值,不在于它会不会聊天,而在于它能不能把一次科学判断变成可验证的证据链。
夜雨聆风