2小时,干完了人类4个月的活。2025年初,FutureHouse 发布了名为 Robin 的 AI 科学家。它不是帮你查文献、整理格式的工具——它自己提出假设,自己设计实验方案,自己分析数据,自己写论文。整个过程,2小时走完人类团队4个月的路。

从"帮你做"到"替你做":四级跳
上海人工智能实验室给 AI 科学家画了一条清晰的进化路线:
第一级
💻 计算工具
就像你手里的计算器,你问它算,它给你结果。ChatGPT 早期干的就是这事——你问,它答,但不会主动思考"还该问什么"。
第二级
📋 自动化助理
相当于一个很听话的研究生。你说"帮我查这个基因的文献",它就去查,整理成表格给你。但它不会突然说"等等,我发现了一个有趣的方向"。
第三级
🧠 自主合伙人
这是质变点。Robin 就站在这级——它能自己提出研究方向,自己判断哪条路更值得走,甚至跟另一个 AI 辩论。它不再是工具,而是同事。
第四级
🏗️ 生成式架构师
终极形态——AI 不仅能做研究,还能设计整个研究体系。想象一个 AI 科学园,它们自己组队,自己分工,自己推进一整个科研管线。
从第一级到第四级,核心区别只有一个字:谁做主。

三个里程碑,三张入场券
🎫 第一张:Sakana AI Scientist v1(2024年8月)
日本 Sakana AI 团队发布了第一个能"端到端"做研究的 AI。从提出想法到生成论文,全程没有人类介入。但说实话,当时的论文质量更像是一个聪明但粗心的研究生交的初稿——想法有意思,细节经不起推敲。
🎫 第二张:Sakana v2 + Nature 同行评审(2025年初)
v2 版本大幅升级,最炸裂的不是 AI 本身,而是 Nature 杂志的审稿人真的给它做了同行评审——而且没发现它是 AI 写的。不过也有个尴尬的细节:这篇论文发在 Nature 的"AI 工程坊"板块,不是正刊的主论文。
🎫 第三张:Robin 与 Google Co-Scientist(2025年初)
FutureHouse 的 Robin 2小时完成4个月工作量,Google 也推出了 Co-Scientist——一个能跟人类科学家"协作推理"的 AI 系统。它不只替你做实验,它会说:"我注意到你的假设可能忽略了X因素,要不要考虑Y方向?"
三张入场券,三级跳。从"勉强能看"到"能过审"再到"能提建议",速度之快超出几乎所有人的预期。
多智能体:不是一个人在战斗

▲ 多智能体协作:左侧研究接力,右侧辩论审查
AI 科学家最核心的技术突破,其实不是"一个超级大脑",而是"多个小脑组队"。
🔭发现者
在海量数据中找线索,像拿着望远镜的侦察兵
🔍验证者
拿到线索后反复验证,像拿着放大镜的鉴定师
⚖️评审者
互相挑刺,像学术会议上的杠精评委
这跟人类科研团队一模一样:你不可能让一个人既当实验员又当评审,专业分工才有效率。
多智能体的另一个好处是抗幻觉。单个 AI 容易编造不存在的引用,但当多个 AI 互相审查时,"编的"很难过同伴那一关。就像论文要过同行评审一样,AI 之间也需要这种互相制衡。
泼盆冷水:别急着欢呼
🧊 冷静看看现状
论文质量不稳定。过了 Nature Workshop 不代表能过正刊。AI 生成的论文在逻辑连贯性和创新深度上,跟顶尖人类研究者比还有差距。
审稿过载。如果 AI 每天能产出100篇论文,谁来审?人类审稿人已经不堪重负了。未来可能需要"AI 审 AI",但这又引入新的信任问题。
幻觉问题没根治。多智能体互相审查能降低幻觉概率,但不能完全消除。一个编造的实验数据如果格式足够逼真,其他 AI 也未必能发现。
跟你有什么关系?
AI 科学家背后的核心能力——多智能体协作、自主规划、自我验证——正在快速溢出到商业场景。今天 Robin 能在2小时内完成4个月的科研工作,明天同样架构的 AI 就能帮你做市场调研、竞品分析、投资尽调。
从"帮你查资料"到"替你做研究"再到"跟你一起思考",这条路的尽头不是"AI 替代科学家",而是"每个人身边都有一位超级研究员"。

▲ 实验室长廊尽头,下一个时代的门已经打开
那个实验室长廊尽头半开的门,透出来的不只是金色光芒——可能是下一个时代的入场券。
夜雨聆风