AI for Science 卡在哪:数据还没准备好给 AI 用-夜雨聆风

AI for Science 卡在哪:数据还没准备好给 AI 用

某家公司又发了一个科学模型，某个机构又投了一大笔钱，AI 真的已经可以在科研界大杀四方了么？

但 DeepMind、Biohub、OpenAI 最近的三个动作，都揭露了一件事：数据还是 AI 科研的最大短板。

DeepMind 4 月发了一篇科学数据盘点，拿核聚变和 JET 数据做样板，内容是：很多科学数据已经存在，但还不能直接进 AI 系统。

Biohub 4 月 29 日宣布 Virtual Biology Initiative，5 年投 5 亿美元，讲的是：生命科学要训练预测细胞行为的模型，先得把开放、多模态、大规模数据造出来。

OpenAI 4 月 16 日发布 GPT-Rosalind，关注：生命科学模型不能只停在聊天入口，要接进 Codex、公共 multi-omics 数据库、文献来源、生物学工具和受控访问机制。

三条消息分别是政策文章、科研投入和模型发布，其实都在讲述 AI for Science 的同一块短板：数据、工具、验证和权限还没接成一套可用的研究环境。

AI for Science 现在最难的地方，不是“模型懂不懂科学”，而是科学数据有没有准备好让 AI 真正动手。

DeepMind：数据不是有了就能用

DeepMind 这篇叫《Science Needs AI Data Stocktakes: A Proof-of-Concept for Fusion》。

文章拿 JET 做例子。JET 是英国 Culham 的核聚变实验装置，做了 40 年实验，2023 年结束。核聚变本来很适合被拿来讨论 AI：实验昂贵，设备少，仿真慢，科学家需要理解和控制等离子体。如果历史实验数据能被模型好好利用，确实可能帮研究员设计实验、预测不稳定、改进控制策略。

但 JET 数据的问题也很典型。

第一，很多数据还是 raw data，原始记录没有充分验证。模型吃进去之前，研究员得知道这些记录是不是可靠、采集条件是什么、哪些异常该保留。

第二，关键 insight 不一定在数据文件里。很多实验判断写在科学家的 logbook 里，甚至只存在于团队经验里。对研究员来说，这是上下文；对模型来说，这就是缺失信息。

第三，数据不一定能共享和商用。DeepMind 提到，已有数据一般不开源，也通常不能直接商业使用。真要改成可复用的数据资产，还可能牵涉当年欧洲各合作方的同意。

所以文章里那个 stranded asset 很准确。它不是说数据没价值，而是说数据明明有价值，却搁浅在格式、权限、注释、验证和共享机制里。

DeepMind 提出的 data stocktake，就是先把一个领域的数据账本查清楚：

AI 在这个领域可能帮上哪些具体忙；
数据现在卡在什么地方；
哪些数据项目值得政府、公司、慈善机构在 1 到 2 年内资助和执行。

这次核聚变样板采访了 25 位专家，重点放在英国。这个范围不算大，DeepMind 也没有把它写成通用答案。它更像一个 proof-of-concept：先拿一个高价值、高门槛、数据分散的领域试一次，看看科学界能不能用同样方法找到下一批该补的数据项目。

这一步很基础，但绕不过去。论文、网页、代码、表格是互联网大模型熟悉的食物。科学现场里还有失败实验、仪器元数据、样本处理记录、实验员判断、跨机构权限。缺掉这些，模型不一定少知道一个概念，而是可能没法判断一条数据能不能用。

Biohub：直接把数据造出来

4 月 29 日，Biohub 宣布 Virtual Biology Initiative 计划。

周期：5 年；
总投入：5 亿美元；
其中 1 亿美元：支持协调式全球数据生成；
另外 4 亿美元：投向大规模数据，以及下一代测量、成像和工程生物技术；
目标：建立多模态、开放的数据基础，用来训练能够预测人类细胞行为的模型。

这不是只买算力，也不是只训一个生物模型。Biohub 要补的是生命科学的数据生产能力。

Biohub 公布 Virtual Biology Initiative，真正关键的是后面那张资金账：1 亿美元做全球数据生成，4 亿美元投向大规模数据和测量能力

这里的“多模态”也值得注意。细胞不是一段文字，也不是一张单独的图。它有图像，有空间位置，有基因表达，有蛋白，有时间变化，有刺激之后的反应，也有健康和疾病状态下的差异。模型如果要预测细胞行为，只读论文摘要不够。

Biohub 自己给出的判断更直接：要让 AI 准确表示生物复杂性，需要比今天多好几个数量级的数据。

参与机构也能说明这件事的性质。Allen Institute、Arc Institute、Broad Institute、Wellcome Sanger Institute、Human Cell Atlas、Human Protein Atlas 都在名单里，NVIDIA 是技术伙伴。这不是几个实验室一起写 prompt，而是要把数据生成、数据处理、测量技术、成像技术和工程生物技术一起推。

Biohub 还拿 Protein Data Bank 和 Human Genome Project 做类比。前者支撑了 AlphaFold 这类蛋白结构预测进展，后者说明生命科学一旦需要全球实验室对齐，单个机构很难自己把地基打完。

DeepMind 问的是：科学数据缺口在哪里。Biohub 做的是：在生命科学里，直接把一批开放、多模态、可复用的数据生产出来。

OpenAI：模型要进工具和权限边界

OpenAI 把它称为 life sciences model series 的第一步，用来支持生物学、药物发现和转化医学。这里的转化医学，简单说就是把实验室里的发现往临床应用推。按发布口径，它会在 ChatGPT、Codex 和 API 中以 research preview 的形式提供给 qualified customers，也就是通过资格审核的客户，不是公开给所有人随便用。

这不光是“OpenAI 做了一个更懂生物的模型”，更值得记的是配套工作流。

OpenAI 给 Codex 做了 Life Sciences Research Plugin，接入 50 多个公共 multi-omics 数据库、文献来源和生物学工具。multi-omics 可以粗略理解成把基因、转录、蛋白等不同层面的生物数据放在一起看。插件覆盖范围包括 genetics、functional genomics、protein structure、biochemistry、clinical evidence、public study discovery。

这些词翻成研究动作，就是：查遗传数据，查功能基因组数据，看蛋白结构，处理生物化学线索，接临床证据，找公开研究。

真实生命科学研究不是单轮问答。研究员要读文献、查数据库、看蛋白结构、处理实验输出、解释序列和功能关系、设计下一步实验。模型如果只能凭训练记忆回答，最多像一个会聊天的综述助手。要进入研究流程，它得能接工具、查数据、留下证据链。

OpenAI 的评测口径也往这个方向靠。LABBench2 里有 literature retrieval、database access、sequence manipulation、protocol design。Dyno Therapeutics 的任务用 unpublished sequences，目的是避免模型只在公开数据上背答案。

GPT-Rosalind 不是一个公开给所有人随便用的生命科学 Agent。OpenAI 写的是 trusted access，可以理解成受信访问：先面向美国合格企业客户；组织要经过 qualification and safety review；使用方需要有明确的 beneficial use、governance、safety oversight、controlled access。

这些限制听起来没有 benchmark 好看，但对生命科学很关键。这里有敏感数据，也有误用风险。模型越能接工具、调数据、做多步任务，越需要规定谁能用、用在哪里、怎么审计、怎么防止越界。

所以 GPT-Rosalind 的重点不是“又一个科学模型”。它补的是最后一段：把模型从聊天入口，放进有工具、有数据源、有权限边界的研究环境。

AI for Science 的地基

这三件事都没有否认模型能力的重要性。GPT-Rosalind 本身就是模型发布，Biohub 最终也要训练预测细胞行为的模型。只是它们共同说明了一点：科学 AI 的瓶颈，不会只靠下一个更强模型解决。

模型要帮科学家做事，手里得有干净、完整、可验证的数据；旁边得有能调用的工具；输出得能被实验和证据链复查；涉及敏感能力时，还要有访问控制和治理规则。

很多 AI for Science 项目看起来没有模型发布那么热闹，就是因为它们在补这些不显眼的部分。整理失败实验，补仪器元数据，开放细胞图谱，统一数据格式，把工具接进研究环境，规定哪些用户能访问敏感模型。这些事没有漂亮演示，但会决定 AI 能不能从“会讲科学”走到“能帮科学家做研究”。

科学 AI 的下一阶段，拼的不只是模型能力，也是谁能把科学数据变成 AI 能用、研究员敢用、实验能查的基础设施。

· · ·

参考材料：

Google DeepMind: Science Needs AI Data Stocktakes: A Proof-of-Concept for Fusion
Biohub: Virtual Biology Initiative
OpenAI: Introducing GPT-Rosalind for life sciences research