AI for Science 卡在哪:数据还没准备好给 AI 用
某家公司又发了一个科学模型,某个机构又投了一大笔钱 ,AI 真的已经可以在科研界大杀四方了么?
但 DeepMind、Biohub、OpenAI 最近的三个动作,都揭露了一件事:数据还是 AI 科研的最大短板。
DeepMind 4 月发了一篇科学数据盘点,拿核聚变和 JET 数据做样板,内容是:很多科学数据已经存在,但还不能直接进 AI 系统。
Biohub 4 月 29 日宣布 Virtual Biology Initiative,5 年投 5 亿美元,讲的是:生命科学要训练预测细胞行为的模型,先得把开放、多模态、大规模数据造出来。
OpenAI 4 月 16 日发布 GPT-Rosalind,关注:生命科学模型不能只停在聊天入口,要接进 Codex、公共 multi-omics 数据库、文献来源、生物学工具和受控访问机制。
三条消息分别是政策文章、科研投入和模型发布,其实都在讲述 AI for Science 的同一块短板:数据、工具、验证和权限还没接成一套可用的研究环境。
AI for Science 现在最难的地方,不是“模型懂不懂科学”,而是科学数据有没有准备好让 AI 真正动手。
DeepMind:数据不是有了就能用
DeepMind 这篇叫《Science Needs AI Data Stocktakes: A Proof-of-Concept for Fusion》。
文章拿 JET 做例子。JET 是英国 Culham 的核聚变实验装置,做了 40 年实验,2023 年结束。核聚变本来很适合被拿来讨论 AI:实验昂贵,设备少,仿真慢,科学家需要理解和控制等离子体。如果历史实验数据能被模型好好利用,确实可能帮研究员设计实验、预测不稳定、改进控制策略。
但 JET 数据的问题也很典型。
第一,很多数据还是 raw data,原始记录没有充分验证。模型吃进去之前,研究员得知道这些记录是不是可靠、采集条件是什么、哪些异常该保留。
第二,关键 insight 不一定在数据文件里。很多实验判断写在科学家的 logbook 里,甚至只存在于团队经验里。对研究员来说,这是上下文;对模型来说,这就是缺失信息。
第三,数据不一定能共享和商用。DeepMind 提到,已有数据一般不开源,也通常不能直接商业使用。真要改成可复用的数据资产,还可能牵涉当年欧洲各合作方的同意。
所以文章里那个 stranded asset 很准确。它不是说数据没价值,而是说数据明明有价值,却搁浅在格式、权限、注释、验证和共享机制里。
DeepMind 提出的 data stocktake,就是先把一个领域的数据账本查清楚:
-
AI 在这个领域可能帮上哪些具体忙; -
数据现在卡在什么地方; -
哪些数据项目值得政府、公司、慈善机构在 1 到 2 年内资助和执行。
这次核聚变样板采访了 25 位专家,重点放在英国。这个范围不算大,DeepMind 也没有把它写成通用答案。它更像一个 proof-of-concept:先拿一个高价值、高门槛、数据分散的领域试一次,看看科学界能不能用同样方法找到下一批该补的数据项目。
这一步很基础,但绕不过去。论文、网页、代码、表格是互联网大模型熟悉的食物。科学现场里还有失败实验、仪器元数据、样本处理记录、实验员判断、跨机构权限。缺掉这些,模型不一定少知道一个概念,而是可能没法判断一条数据能不能用。
Biohub:直接把数据造出来
4 月 29 日,Biohub 宣布 Virtual Biology Initiative 计划。
-
周期:5 年; -
总投入:5 亿美元; -
其中 1 亿美元:支持协调式全球数据生成; -
另外 4 亿美元:投向大规模数据,以及下一代测量、成像和工程生物技术; -
目标:建立多模态、开放的数据基础,用来训练能够预测人类细胞行为的模型。
这不是只买算力,也不是只训一个生物模型。Biohub 要补的是生命科学的数据生产能力。
Biohub 公布 Virtual Biology Initiative,真正关键的是后面那张资金账:1 亿美元做全球数据生成,4 亿美元投向大规模数据和测量能力
这里的“多模态”也值得注意。细胞不是一段文字,也不是一张单独的图。它有图像,有空间位置,有基因表达,有蛋白,有时间变化,有刺激之后的反应,也有健康和疾病状态下的差异。模型如果要预测细胞行为,只读论文摘要不够。
Biohub 自己给出的判断更直接:要让 AI 准确表示生物复杂性,需要比今天多好几个数量级的数据。
参与机构也能说明这件事的性质。Allen Institute、Arc Institute、Broad Institute、Wellcome Sanger Institute、Human Cell Atlas、Human Protein Atlas 都在名单里,NVIDIA 是技术伙伴。这不是几个实验室一起写 prompt,而是要把数据生成、数据处理、测量技术、成像技术和工程生物技术一起推。
Biohub 还拿 Protein Data Bank 和 Human Genome Project 做类比。前者支撑了 AlphaFold 这类蛋白结构预测进展,后者说明生命科学一旦需要全球实验室对齐,单个机构很难自己把地基打完。
DeepMind 问的是:科学数据缺口在哪里。Biohub 做的是:在生命科学里,直接把一批开放、多模态、可复用的数据生产出来。
OpenAI:模型要进工具和权限边界
OpenAI 把它称为 life sciences model series 的第一步,用来支持生物学、药物发现和转化医学。这里的转化医学,简单说就是把实验室里的发现往临床应用推。按发布口径,它会在 ChatGPT、Codex 和 API 中以 research preview 的形式提供给 qualified customers,也就是通过资格审核的客户,不是公开给所有人随便用。
这不光是“OpenAI 做了一个更懂生物的模型”,更值得记的是配套工作流。
OpenAI 给 Codex 做了 Life Sciences Research Plugin,接入 50 多个公共 multi-omics 数据库、文献来源和生物学工具。multi-omics 可以粗略理解成把基因、转录、蛋白等不同层面的生物数据放在一起看。插件覆盖范围包括 genetics、functional genomics、protein structure、biochemistry、clinical evidence、public study discovery。
这些词翻成研究动作,就是:查遗传数据,查功能基因组数据,看蛋白结构,处理生物化学线索,接临床证据,找公开研究。
真实生命科学研究不是单轮问答。研究员要读文献、查数据库、看蛋白结构、处理实验输出、解释序列和功能关系、设计下一步实验。模型如果只能凭训练记忆回答,最多像一个会聊天的综述助手。要进入研究流程,它得能接工具、查数据、留下证据链。
OpenAI 的评测口径也往这个方向靠。LABBench2 里有 literature retrieval、database access、sequence manipulation、protocol design。Dyno Therapeutics 的任务用 unpublished sequences,目的是避免模型只在公开数据上背答案。
GPT-Rosalind 不是一个公开给所有人随便用的生命科学 Agent。OpenAI 写的是 trusted access,可以理解成受信访问:先面向美国合格企业客户;组织要经过 qualification and safety review;使用方需要有明确的 beneficial use、governance、safety oversight、controlled access。
这些限制听起来没有 benchmark 好看,但对生命科学很关键。这里有敏感数据,也有误用风险。模型越能接工具、调数据、做多步任务,越需要规定谁能用、用在哪里、怎么审计、怎么防止越界。
所以 GPT-Rosalind 的重点不是“又一个科学模型”。它补的是最后一段:把模型从聊天入口,放进有工具、有数据源、有权限边界的研究环境。
AI for Science 的地基
这三件事都没有否认模型能力的重要性。GPT-Rosalind 本身就是模型发布,Biohub 最终也要训练预测细胞行为的模型。只是它们共同说明了一点:科学 AI 的瓶颈,不会只靠下一个更强模型解决。
模型要帮科学家做事,手里得有干净、完整、可验证的数据;旁边得有能调用的工具;输出得能被实验和证据链复查;涉及敏感能力时,还要有访问控制和治理规则。
很多 AI for Science 项目看起来没有模型发布那么热闹,就是因为它们在补这些不显眼的部分。整理失败实验,补仪器元数据,开放细胞图谱,统一数据格式,把工具接进研究环境,规定哪些用户能访问敏感模型。这些事没有漂亮演示,但会决定 AI 能不能从“会讲科学”走到“能帮科学家做研究”。
科学 AI 的下一阶段,拼的不只是模型能力,也是谁能把科学数据变成 AI 能用、研究员敢用、实验能查的基础设施。
参考材料:
-
Google DeepMind: Science Needs AI Data Stocktakes: A Proof-of-Concept for Fusion -
Biohub: Virtual Biology Initiative -
OpenAI: Introducing GPT-Rosalind for life sciences research
夜雨聆风