AI4Bio 的下一阶段:从模型能力展示到真实闭环验证

TL;DR

过去几年，AI 在生命科学中的角色常被理解为一种“工具”：科学家提出问题，AI 给出预测、排序或答案，最终结果再交回实验室验证。

但最近在AI4Bio领域的几项进展放在一起看，正在共同指向一个更深层的变化：AI 不再只是生命科学研究中的预测工具，而是在逐步嵌入实验设计、医疗评测、临床协作和药物转化流程，成为真实工作流的一部分。

具体来看，这些变化发生在四个层面：细胞设计、医疗评测、临床协作和药物转化验证。

Ec19： AI 已经进入真实细胞设计循环，不只是做实验前预测，而是在 Design–Build–Test 的迭代中，根据实验失败不断调整策略。
HealthBench Professional：评测维度逐步迁移，OpenAI 开始把医疗 AI 的评测从静态考试题，转向真实医生工作流。
AI co-clinician：医疗 AI 正在从“回答问题”走向“参与流程”，但也立刻遇到责任边界、监管合规和医生信任这些现实问题。
从 Isomorphic Labs到 Insilico：AI 设计的药物正在进入临床前/临床验证窗口。AI 制药的评价标准，正在从模型分数转向真实转化证据。

这四个工作表明，AI4S 的重心正在变化：从计算空间里的能力展示，走向真实世界里的闭环验证。

这种转变，首先出现在最底层的生命系统设计中。

哥伦比亚大学团队主导的 Ec19 工作，尝试把蛋白质“20 种氨基酸字母表”缩减到 19 种，重点是用 AI 设计不含异亮氨酸 Ile 的核糖体蛋白，并在真实大肠杆菌细胞中验证。它的意义不只是“删掉一个氨基酸”，而是把 AI 放进真实细胞工程循环中，让设计、实验失败、反馈调整和下一轮设计共同构成闭环。

【Take away】

Ec19 的意义在于，它让 AI 不再停在实验入口，而是进入了 Design–Build–Test 的迭代循环内部：从序列进化、结构约束、折叠稳定性多个角度，给出人类直觉想不到的替换方案。实验失败，就调整策略，再回到实验。真实细胞实验反馈会反过来推动下一轮设计。
实验使用多个AI模型（ESM2、MSA Transformer、ProteinMPNN、AlphaFold2/AfDesign）直接改变蛋白质设计方式：不只是直觉上的氨基酸对换，而是包含更复杂、非显然的替换和补偿突变。AI 在实验中不再是辅助角色，而是推动循环转动的核心。

生成式模型的 Ec19 设计

从细胞实验走向医疗场景后，AI 的核心挑战也从设计迭代转向真实工作流评测。

OpenAI 这次发布的医疗评测集，和过去的医学考试题有一个本质区别：它把任务设计推进到更接近医生工作流的临床相关场景中。样本来自医生与模型的使用和压力测试对话，并经过医生多轮审核，而不是从教科书或考试库里抽题。

任务覆盖三类医生高频场景：诊疗咨询、文书写作/总结、医学研究与证据检索。
评测故意加大难题和 red teaming 比例，所以它更像压力测试，不代表真实世界平均正确率。

HealthBench 通过医生使用场景与对抗性压力测试，从 1.5 万个候选案例中筛选出高质量任务，用于评估 AI 在专业医疗对话中的表现。该基准采用专家评分，更接近医生工作流评测，而不是普通医学考试题。

【Take away】

HealthBench Professional 把评测场景搬进了真实医生工作流。也就是说，医疗 AI 的能力不再只取决于模型本身会不会答题，而取决于它能否在临床相关任务中稳定完成检索、推理和交互。
系统设计的重要性被凸显出来：专门的临床 harness、工具和检索流程系统，往往比单纯换一个更强的 base model 更关键。

评测标准变化之后，下一步就是让 AI 真正参与临床协作流程。

过去的医疗 AI 更偏向医学知识问答和模拟问诊，而 DeepMind 的 AI co-clinician 强调的是临床证据检索、用药推理、远程问诊、多模态交互和安全架构。它的核心定位是“医生增强”，不是“AI 看病”：AI 在医生监督下辅助工作，医生保留判断权和控制权。

【Takeaway】

AI co-clinician有很大的战略意义。DeepMind 想做的不是普通医学聊天机器人，而是能嵌入医疗场景、参与医生工作流的协作型 Agent：能查证据、看视频、听患者说话、指导动作、提醒医生风险点。但是真正难点不只是模型能力，而是责任边界、临床验证、监管合规和医生信任。
多模态是这次的亮点，不过也是短板暴露最多的地方：AI 能做一些实时辅助，但在危险信号识别和关键体检指导（声音、动作、皮肤、呼吸、步态等）上还明显不如专家医生。
目前仍是研究合作阶段，不用于疾病诊断、治疗、缓解或提供医疗建议。

医疗AI的发展

当 AI 进入药物研发，最终检验标准也从模型表现转向真实转化证据。

Isomorphic Labs 正在准备把 AI 设计的药物推进人体临床试验，方向包括肿瘤/癌症和免疫相关疾病；同期 Insilico 在阿联酋提名了一个 AI 生成的临床前候选药物，瞄准胶质母细胞瘤。两者处在不同阶段，但共同说明：AI 制药正在从“能不能设计分子”，走向“能不能经受临床前和临床验证”。

【Takeaway】

AI 制药开始进入更硬的验证窗口。重点不再只是 AlphaFold 预测结构有多准、模型能否生成新分子，而是 AI 设计出来的候选物能否在临床前和临床阶段经受安全性、有效性和可开发性检验。
AI 可能改变药物研发流程，但还没被最终证明。Isomorphic Labs的价值在于：它把 AI 制药从"愿景叙事"推向了一个可检验的问题： AI 设计药物到底能不能在真实临床中跑通。
未来评价模型不能只看 benchmark，而要看是否能形成闭环：结构/相互作用建模 → 分子设计 → 实验验证 → 临床转化。

如果把这四项工作放在同一张图里，它们其实都在回答同一个问题：AI4Bio 的价值，最终要如何被真实世界验证？

AI4Bio 的评价标准正在从静态 benchmark 转向真实闭环。未来更重要的不是模型在某个榜单上有多高分，而是它能否进入 Design–Build–Test–Learn 流程，在真实实验、医生工作流和药物转化链条中持续产生可验证结果。
真正的瓶颈正在从“模型能不能给答案”，转向“系统能不能经受现实反馈”。Ec19 需要细胞实验反馈，HealthBench 需要医生工作流评测，AI co-clinician 需要医生监督和安全边界，AI 制药则需要临床前和临床证据。AI4Bio 的下一阶段，拼的不是单点模型能力，而是能否进入真实世界闭环。