

TL;DR
过去几年,AI 在生命科学中的角色常被理解为一种“工具”:科学家提出问题,AI 给出预测、排序或答案,最终结果再交回实验室验证。
但最近在AI4Bio领域的几项进展放在一起看,正在共同指向一个更深层的变化:AI 不再只是生命科学研究中的预测工具,而是在逐步嵌入实验设计、医疗评测、临床协作和药物转化流程,成为真实工作流的一部分。
具体来看,这些变化发生在四个层面:细胞设计、医疗评测、临床协作和药物转化验证。
Ec19: AI 已经进入真实细胞设计循环,不只是做实验前预测,而是在 Design–Build–Test 的迭代中,根据实验失败不断调整策略。
HealthBench Professional:评测维度逐步迁移,OpenAI 开始把医疗 AI 的评测从静态考试题,转向真实医生工作流。
AI co-clinician:医疗 AI 正在从“回答问题”走向“参与流程”,但也立刻遇到责任边界、监管合规和医生信任这些现实问题。
从 Isomorphic Labs到 Insilico:AI 设计的药物正在进入临床前/临床验证窗口。AI 制药的评价标准,正在从模型分数转向真实转化证据。
这四个工作表明,AI4S 的重心正在变化:从计算空间里的能力展示,走向真实世界里的闭环验证。
这种转变,首先出现在最底层的生命系统设计中。

哥伦比亚大学团队主导的 Ec19 工作,尝试把蛋白质“20 种氨基酸字母表”缩减到 19 种,重点是用 AI 设计不含异亮氨酸 Ile 的核糖体蛋白,并在真实大肠杆菌细胞中验证。它的意义不只是“删掉一个氨基酸”,而是把 AI 放进真实细胞工程循环中,让设计、实验失败、反馈调整和下一轮设计共同构成闭环。
【Take away】
Ec19 的意义在于,它让 AI 不再停在实验入口,而是进入了 Design–Build–Test 的迭代循环内部:从序列进化、结构约束、折叠稳定性多个角度,给出人类直觉想不到的替换方案。实验失败,就调整策略,再回到实验。真实细胞实验反馈会反过来推动下一轮设计。
实验使用多个AI模型(ESM2、MSA Transformer、ProteinMPNN、AlphaFold2/AfDesign)直接改变蛋白质设计方式:不只是直觉上的氨基酸对换,而是包含更复杂、非显然的替换和补偿突变 。AI 在实验中不再是辅助角色,而是推动循环转动的核心。

生成式模型的 Ec19 设计
从细胞实验走向医疗场景后,AI 的核心挑战也从设计迭代转向真实工作流评测。

OpenAI 这次发布的医疗评测集,和过去的医学考试题有一个本质区别:它把任务设计推进到更接近医生工作流的临床相关场景中。样本来自医生与模型的使用和压力测试对话,并经过医生多轮审核,而不是从教科书或考试库里抽题。
任务覆盖三类医生高频场景:诊疗咨询、文书写作/总结、医学研究与证据检索。
评测故意加大难题和 red teaming 比例,所以它更像压力测试,不代表真实世界平均正确率。

HealthBench 通过医生使用场景与对抗性压力测试,从 1.5 万个候选案例中筛选出高质量任务,用于评估 AI 在专业医疗对话中的表现。该基准采用专家评分,更接近医生工作流评测,而不是普通医学考试题。
【Take away】
HealthBench Professional 把评测场景搬进了真实医生工作流。也就是说,医疗 AI 的能力不再只取决于模型本身会不会答题,而取决于它能否在临床相关任务中稳定完成检索、推理和交互。
系统设计的重要性被凸显出来:专门的临床 harness、工具和检索流程系统,往往比单纯换一个更强的 base model 更关键。
评测标准变化之后,下一步就是让 AI 真正参与临床协作流程。

过去的医疗 AI 更偏向医学知识问答和模拟问诊,而 DeepMind 的 AI co-clinician 强调的是临床证据检索、用药推理、远程问诊、多模态交互和安全架构。它的核心定位是“医生增强”,不是“AI 看病”:AI 在医生监督下辅助工作,医生保留判断权和控制权。
【Takeaway】
AI co-clinician有很大的战略意义。DeepMind 想做的不是普通医学聊天机器人,而是能嵌入医疗场景、参与医生工作流的协作型 Agent:能查证据、看视频、听患者说话、指导动作、提醒医生风险点。但是真正难点不只是模型能力,而是责任边界、临床验证、监管合规和医生信任。
多模态是这次的亮点,不过也是短板暴露最多的地方:AI 能做一些实时辅助,但在危险信号识别和关键体检指导(声音、动作、皮肤、呼吸、步态等)上还明显不如专家医生。
目前仍是研究合作阶段,不用于疾病诊断、治疗、缓解或提供医疗建议。

医疗AI的发展
当 AI 进入药物研发,最终检验标准也从模型表现转向真实转化证据。

Isomorphic Labs 正在准备把 AI 设计的药物推进人体临床试验,方向包括肿瘤/癌症和免疫相关疾病;同期 Insilico 在阿联酋提名了一个 AI 生成的临床前候选药物,瞄准胶质母细胞瘤。两者处在不同阶段,但共同说明:AI 制药正在从“能不能设计分子”,走向“能不能经受临床前和临床验证”。
【Takeaway】
AI 制药开始进入更硬的验证窗口。重点不再只是 AlphaFold 预测结构有多准、模型能否生成新分子,而是 AI 设计出来的候选物能否在临床前和临床阶段经受安全性、有效性和可开发性检验。
AI 可能改变药物研发流程,但还没被最终证明。Isomorphic Labs的价值在于:它把 AI 制药从"愿景叙事"推向了一个可检验的问题 : AI 设计药物到底能不能在真实临床中跑通。
未来评价模型不能只看 benchmark,而要看是否能形成闭环:结构/相互作用建模 → 分子设计 → 实验验证 → 临床转化。

如果把这四项工作放在同一张图里,它们其实都在回答同一个问题:AI4Bio 的价值,最终要如何被真实世界验证?
AI4Bio 的评价标准正在从静态 benchmark 转向真实闭环。未来更重要的不是模型在某个榜单上有多高分,而是它能否进入 Design–Build–Test–Learn 流程,在真实实验、医生工作流和药物转化链条中持续产生可验证结果。
真正的瓶颈正在从“模型能不能给答案”,转向“系统能不能经受现实反馈”。Ec19 需要细胞实验反馈,HealthBench 需要医生工作流评测,AI co-clinician 需要医生监督和安全边界,AI 制药则需要临床前和临床证据。AI4Bio 的下一阶段,拼的不是单点模型能力,而是能否进入真实世界闭环。


夜雨聆风