AI智能体,正在悄悄改写生命科学的研究分工

不是又多了几个好用工具，而是实验室里最耗时间、最割裂、最依赖人肉衔接的那一层，开始被接管了。

前几年，生命科学圈讨论 AI，更多是在谈模型：蛋白结构预测、分子生成、病理识别、单细胞分析、文献检索。大家默认的使用方式也很像“高级工具箱”——你提一个问题，它给一个答案；你给一份数据，它吐一个结果。

但事情正在发生变化。

现在进入实验室和研发团队视野的，不再只是“会回答”的模型，而是会拆任务、会调工具、会串流程、会回看结果、还会继续往前推进的 AI 智能体。它不只是在某个环节提速，而是在尝试接住研究流程中原本最容易断掉的部分：从找文献，到提假设；从设计分析，到写 protocol；从连接内部数据，到组织外部证据；再到把干实验和算实验拉进同一个闭环。

真正值得关注的，不是 AI 在生命科学里“更聪明了”，而是AI 开始从一个回答者，变成一个任务执行者；从一个局部插件，变成一个研究工作流的中间层。

这不是一个小升级。这是研究分工在改。

不是模型更强了，而是“科研工作流”第一次被认真重构

生命科学一直是一个特别容易被“流程摩擦”拖慢的领域。

一个课题从想法到结果，中间要跨过太多系统：PubMed、专利数据库、实验记录、组学结果、统计脚本、内部报告、供应链、CRO、LIMS、ELN、云端计算平台。很多时候，真正拖慢课题的，并不是某一个算法不够强，而是信息不在一处，工具不在一处，人也不在一处。

所以你会看到一个很现实的场景：博士后知道问题在哪，但没时间把所有文献重新梳一遍；生信同学能写流程，但不可能随时替每个 bench scientist 定制分析；PI 看到了方向，但很难在海量碎片信息里迅速形成一套可推进的判断；而企业研发团队最大的问题，往往不是不会做，而是每推进一步，都要在不同角色、不同系统、不同数据格式之间反复转译。

AI 智能体之所以在生命科学里突然变得值得关注，原因就在这里。

它不是简单把某项能力做强，而是瞄准了科研里最贵的那部分：上下文切换、跨系统搬运、任务衔接、证据组织、决策前整理。

换句话说，生命科学真正缺的，很多时候不是“一个更大的模型”，而是一个能把分散能力编排起来的执行层。

图 1：生命科学研究工作流的核心变化，不是模型替代某个工具，而是智能体开始承担流程编排与任务衔接。

先别急着问“谁最强”，要先看现在形成了哪几条路线

今天生命科学里的 AI 智能体，已经不是一个模糊概念。它大致正在沿着三条路线展开，而且这三条路线的成熟度、商业逻辑、科研含义，差别很大。

第一条路线：文献—假设—研究方案智能体

这是目前最容易率先成形的一条。

原因很简单：文献爆炸、知识碎片化、跨领域整合困难，本来就是当代生命科学最痛的底层问题之一。谁先把这一层做顺，谁就先碰到真实需求。

这一条路线里，最值得盯住的不是“谁会总结论文”，而是谁能把“找资料”这件事推进到“形成研究判断”。

很多人还没完全意识到，智能体和传统文献问答工具的本质区别，不在答案更长，而在它是否能围绕一个科研目标持续推进。它能不能自己拆解问题？能不能区分证据强弱？能不能沿着 citation 继续深挖？能不能把“有文章提过”与“这个方向值得做”分开？

如果沿着这个标准看，几个代表性系统已经非常清楚地在分层了。

Google 的 AI co-scientist，代表的是“多智能体协作式假设生成”。它不是把大模型包成一个聊天界面，而是把生成、反思、排序、进化、元审查等角色拆开，去逼近科学问题中最关键的一步：提出更有新意、同时又能落地验证的假设。这个方向的重要性不在于“像不像科学家”，而在于它开始正面碰触生命科学研究里最昂贵、最难标准化的工作——问题形成。

FutureHouse 则更激进。它的 Crow、Falcon、Owl、Phoenix 分别对应一般文献问答、深度综述、查“有没有人做过”、以及化学实验规划等不同任务，背后的思路不是通用模型一把抓，而是把科研拆成功能明确的专门代理，再进行组合。后来它把这些代理进一步串起来，做成 Robin 这样的多代理科研流程，试图把文献、候选提出、数据分析和实验迭代贯穿起来。

OpenAI 新近推出的 GPT-Rosalind，也很能说明当下风向。它不是单纯说“模型更懂生物”，而是明确把重点放在 evidence synthesis、hypothesis generation、experimental planning，以及对科学数据库和工具的调用上。这说明一个很明显的变化：生命科学不再只是大模型的应用场景，而正在变成需要专门工作流设计的垂直前沿。

这条路线已经很重要，但也最容易被误读。

它的真正价值，不是“替你读完 300 篇文献”，而是帮你把本来散落在不同论文、不同数据库、不同实验经验里的信息，组织成可以继续推进的研究上下文。也就是说，它更像一个研究前端加速器，而不是一个已经成熟的“自动发现引擎”。

第二条路线：嵌入研发系统的工作流智能体

这条路线更现实，也更容易先落地。

因为生命科学企业和机构真正愿意付钱的，很多时候不是“一个看起来很聪明的科研伙伴”，而是一个能减少手工搬运、减少信息断层、减少反复沟通的系统级助手。

Benchling 就很典型。它推进的不是浪漫化的“AI 科学家”，而是把 Agents 直接塞进研发基础设施里：让智能体去读实验记录、读附件、连内部数据、连外部资料、给出可追溯引用，然后生成分析、草稿、结构化记录和研究报告。这个方向为什么重要？因为它抓住了企业研发最真实的痛点——不是没有知识，而是知识在系统里，但团队调不出来；数据在库里，但决策串不起来。

AWS 刚推出的 Amazon Bio Discovery，则把这个思路又往前推了一步。它强调的是 lab-in-the-loop：计算设计、模型选择、工作流构建、湿实验验证和结果回流，不再靠人工在不同系统之间传球，而是尽量在同一个应用层里形成闭环。这个信号非常重要，因为它意味着云厂商也开始判断：生命科学下一阶段真正有价值的，不只是模型本身，而是把模型嵌进可反复执行、可协作、可验证的研发管线里。

这条路线的本质，不是让 AI 去“发明科学”。而是先让 AI 去消灭研发组织里最贵的摩擦成本。

别小看这件事。很多技术革命，一开始都不是靠“最惊艳的能力”改变行业，而是先靠“最稳定地省时间、省错误、省沟通”渗透进去。

图 2：当前生命科学 AI 智能体最值得关注的，不是单点产品，而是三条正在成形的技术与产业路线。

第三条路线：AI-first 药物发现与“更长闭环”的智能体系统

如果说前两条路线主要在解决“想法”和“流程”的问题，那么第三条路线真正想做的，是把 AI 推进到药物发现、分子设计、实验迭代，甚至更长的研发闭环里。

这条路线最性感，也最容易被高估。

Iambic、Isomorphic Labs、Lila Sciences 这类玩家的共同点，是都不满足于做一个单点模型。它们更想做的是模型 + 数据 + 自动化实验 + 组织化执行的复合系统。

Iambic 这一路线，代表的是更偏工程化、平台化的 AI-first 药物设计。它不是只强调一个结构预测模型多强，而是把蛋白-配体复合物预测、项目可行性判断、高通量实验回流和候选推进串在一起。它与 Takeda 的合作之所以值得看，不只是金额大，而是说明药企开始愿意把 AI 不仅当成外围辅助，而是当成更靠近候选发现与筛选核心环节的能力层。

Isomorphic Labs 的代表意义则不同。它背后连接的是 AlphaFold 之后更大的野心：从“理解分子结构”走向“重塑药物设计引擎”。这条路线说明，生命科学 AI 的竞争，正在从单模型突破，转向系统级药物设计平台。但它同样提醒人们另一面：从漂亮的计算结果走到真正进临床，中间有极长的真实世界摩擦。临床时间表的延后，本身就是对行业最好的降温器。

Lila Sciences 更进一步，几乎是在押注“科学工厂”这一叙事：让 AI 不是只用已有数据学习，而是主动生成假设、调度实验、产出新数据、再反哺模型。这个方向非常前沿，也很有想象力，但现阶段更适合被理解为正在快速融资和搭架构的长期路线，而不是已经被大规模验证的成熟范式。

所以，这条路线最值得读者记住的判断不是“AI 已经会自己发明新药了”，而是：

药物研发中的 AI 智能体，正在从“帮助看数据”走向“参与决定下一轮该做什么”，但离真正稳定、可复制、可监管地接管长周期研发，还差得很远。

真正的分水岭：不是会不会写答案，而是能不能承担“下一步”

很多文章一谈 AI 智能体，就容易把重点放在演示画面上：能连续调用工具。能自己写计划。能根据反馈再改。能做 multi-agent debate。

这些当然重要，但它们还不是生命科学里真正的分水岭。

真正的分水岭是：它能不能在一个高噪声、高不确定、强依赖证据质量的科研环境里，持续承担“下一步该怎么做”的责任。

这件事一旦成立，研究方式就会变。因为生命科学最贵的，不是得到一个答案，而是判断下一步。

下一步做哪组对照？下一步补哪类文献？下一步换哪个候选分子？下一步做 RNA-seq 还是先做功能验证？下一步是补机制，还是先拿到可发表结果？

人类科研人员强，不只是因为会操作，而是因为能在不完美信息下做推进判断。智能体之所以重要，也不是因为它会“回答”，而是因为它开始逼近这个层面。

但必须说清楚，今天大多数系统还没到这一步。

BixBench 这类面向计算生物学真实任务的基准已经很直白地告诉我们：即使是前沿模型，面对多步骤、生物数据驱动、需要解释细节的开放任务，表现仍然不高。LABBench2 进一步说明，一旦把任务拉近真实科研场景，难度会明显上升。这意味着什么？

意味着“看起来会做研究”和“真的能在研究里稳定工作”，中间还有一整段距离。

所以今天更准确的表述，不是“AI 科学家来了”，而是：

生命科学已经进入 AI 智能体试图接手科研流程的阶段，但它最先接手的，仍然是高价值的辅助决策层，而不是最终拍板层。

图 3：生命科学里真正重要的能力，不是生成一段像样的话，而是在高不确定环境中提出可信的“下一步”。

对生命科学科研人来说，这意味着什么

对科研个体来说，最先发生变化的，不会是“你被替代”。而是你原本靠时间硬扛的那些工作，开始被重新分配。

以前，一个人做课题，常常要在几个角色之间来回切换：半天在找文献，半天在改代码；一会儿在想机制，一会儿在补图；刚看完数据库，又去整理组会汇报；刚想推进实验，又被历史记录、试剂信息、分析流程卡住。

AI 智能体真正会改变的，就是这种切换成本。

对研究生，它会先成为研究助推器：把文献梳理、候选比较、方案草拟、分析框架搭建这些“起步慢”的环节拉快。对博士后和青年 PI，它会逐渐变成研究编排器：帮助你把课题前端判断、跨模态证据整合、多人协作推进做得更系统。对企业研发团队，它更像组织效率层：让计算、生物、药化、转化、项目管理之间的信息摩擦下降。

但这也意味着，科研人的核心能力会被重新定义。

以后真正拉开差距的，也许不再只是“谁会做某个分析”，而是：

谁更会提问题。谁更会定义目标。谁更会判断证据质量。谁更会设计人机协作的工作流。谁更知道哪些环节必须亲自盯，哪些环节可以交给智能体先跑。

换句话说，未来生命科学里稀缺的，不只是实验能力和算法能力，还包括调度智能体完成研究任务的能力。

现在最现实的瓶颈，不在“智商”，而在四个更难的问题

第一，可靠性。生命科学不是互联网问答。一个错误的通路解释、一个被误读的阴性结果、一个看似合理却缺乏边界条件的实验建议，代价都很高。智能体输出如果不能被追溯、被验证、被约束，它再强也只能停在演示层。

第二，数据边界。公开文献是一回事，企业内部数据、患者数据、药物项目数据又是另一回事。真正高价值的生命科学智能体，一定会越来越深入私有数据和机构流程。但一旦深入，安全、权限、合规、审计就立刻变成核心问题。

第三，湿实验闭环。很多智能体现在擅长的是“想”和“写”，但生命科学最终要面对的是“做”。只要实验执行、结果回流、失败处理、批次差异、现实噪声还大量依赖人，所谓“自动科学家”就很难真正闭环。

第四，评价体系。现在行业最缺的，不是更响亮的 demo，而是更接近真实科研工作的评估方法。如果评价仍然停留在回答题目、复述知识、写得像不像，那么大家会高估很多系统的真实能力。

所以，今天讨论 AI 智能体在生命科学的应用，最怕两种极端。

一种是过度浪漫化，仿佛实验室马上就要无人化。另一种是轻视它，把它当成“不过就是高级搜索”。

两种都不对。

更准确的判断是：它还远没有成熟到重写全部科研，但已经成熟到足以重写一部分研究分工。

图 4：真正限制生命科学 AI 智能体落地的，往往不是模型会不会说，而是能否被验证、被集成、被监管、被信任。

最后真正该记住的一句话

如果一定要把这篇文章压缩成一个判断，我会写成这句：

AI 智能体在生命科学里的意义，不是再造一个“会聊天的科学家”，而是在重建科研流程中最关键、也最昂贵的连接层。

它把文献、数据、工具、实验、报告、协作，重新接成一个可推进的系统。它最先改变的，也不是某个单点技术指标，而是研究怎样被组织、怎样被加速、怎样被决策。

所以，真正值得关注的，不是 AI 智能体会不会替代生命科学家。而是未来几年里，谁能最早学会把智能体嵌进自己的研究工作流，谁就更可能在同样的时间里，推进更多问题，完成更多闭环，做出更高密度的科研判断。

生命科学的下一轮竞争，未必先发生在“谁有更大的模型”。更可能先发生在：谁先拥有了更强的智能体化研究组织能力。

参考资料

Google Research. Accelerating scientific breakthroughs with an AI co-scientist. 2025.
Gottweis J, et al. Towards an AI co-scientist. arXiv, 2025.
FutureHouse. FutureHouse Platform: Superintelligent AI Agents for Scientific Discovery. 2025.
FutureHouse. Demonstrating end-to-end scientific discovery with Robin: a multi-agent system. 2025.
FutureHouse. Announcing BixBench: A Benchmark to Evaluate AI Agents on Bioinformatics Tasks. 2025.
Mitchener L, et al. BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology. arXiv, 2025.
Laurent JM, et al. LABBench2: An Improved Benchmark for AI Systems Performing Biology Research. arXiv, 2026.
Benchling. AI Capabilities: AI, Purpose-built for Every Stage of R&D. 2026.
Benchling Help Center. Search, analyze, and answer complex questions about your data with the Deep Research agent. 2026.
OpenAI. Introducing GPT-Rosalind for life sciences research. 2026.
AWS for Industries. Introducing Amazon Bio Discovery. 2026.
Iambic Therapeutics. Iambic Announces Collaboration with Takeda to Advance AI-Driven Design of Small Molecules. 2026.
Reuters. Google-backed Isomorphic Labs delays clinical trial timeline. 2026.
Isomorphic Labs. News. 2026.
Lila Sciences. Scientific Superintelligence to solve humankind’s greatest challenges. 2026.