OpenAI发布第一个生命科学大模型:GPT-Rosalind!这个名字来自生物学史上最大的遗憾之一
背景
从靶点发现到拿到 FDA 批准,平均要走 10 到 15 年,耗资 26 亿美元,约 90% 的临床试验以失败告终。这不完全是因为科学难,也因为研究流程本身太过繁重:海量文献、各自为政的数据库、不断更新的假说……每向前一步,研究者都得在信息的泥泞里跋涉。
AI 已在这个领域试水多年,AlphaFold 预测蛋白质结构,大语言模型被用于文献综述与序列解读。但多数用法是临时拼凑的——通用模型加几条提示词,总差那么一口气。2026年4月17日,OpenAI 发布 GPT-Rosalind,宣称这是专门为生命科学研究工作流而建的第一个前沿推理模型。
那个带着遗憾的名字
罗莎琳德·富兰克林(Rosalind Franklin)是英国晶体学家与 X 射线衍射专家。1952年,她拍摄的”51号照片”精确揭示了 DNA 分子的螺旋结构,Watson 和 Crick 在未经她同意的情况下看到了这张照片,并据此建立了 DNA 双螺旋模型。1962年,Watson、Crick 和 Wilkins 获得诺贝尔奖;富兰克林则在1958年因卵巢癌去世,年仅37岁,从未获得应有的承认。
这是一个带着致敬也带着遗憾的名字——一个研究者,用一生的严谨换来了她所在时代无法给予的认可;一个模型,试图用算力接过她未竟的事业。只是,X 和 Reddit 上立刻有人指出了讽刺:用一个研究成果被封锁的科学家命名,却把这个模型锁起来只给特定机构用——名字里的遗憾,在现实里重演了一遍。
为科研而生
GPT-Rosalind 不是在通用大模型上贴生物标签,而是专门针对生命科学研究工作流进行了优化训练。目标很具体:跨文献与数据库的多跳推理、从基因序列解读到功能预测、设计分子克隆方案、根据现有数据生成下一步假说——这些任务都要求模型不只懂背景知识,还能在多个步骤之间保持连贯的科学推理。
关于训练细节官方未公布,但从评测结果可以推断大概经历了三个层面的打磨。领域语料的专项训练:化学反应机制、蛋白质突变效应、基因组注释这类内容在通用互联网语料里占比极低,需要在专业文献和数据库条目上做深度预训练或微调。工具使用的专项优化:GPT-Rosalind 在多步骤工具调用上明显优于 GPT-5.4,说明它被专门训练了”何时用哪个工具、如何把多步输出拼成连贯推理链”的能力。任务对齐:文献综述与实验设计是截然不同的任务,针对不同科研任务类型的对齐训练,大概是它在基准测试上拉开差距的核心原因。
与之对比的是另一种思路:主流大模型加上 skills。这正是 OpenAI 同期开源的 Life Sciences Research Plugin 所走的路——不特调模型,直接给通用模型装上工具接口。门槛低、灵活性强。两种路线并不对立,更像是同一个系统的两个层次:开源工具层面向普通研究者,专项模型层面向高要求的企业科研环境。
编者注:其实我感觉通用基模加上技能拓展的思路更有生命力。另外,生命科学领域的数据类型有可能并不适合完全在GPT架构下直接训练,极高的维度、大量的噪音和稀疏的标签,会让模型训练非常困难,能够提升的科研任务类型可能也有限,但工作流提效和推理优化应该是没问题的。
评测成绩
OpenAI 公布了 GPT-Rosalind 在几个基准测试上的表现。
BixBench 是一个专门围绕真实世界生物信息学任务设计的基准,测的是模型在数据分析、序列处理、基因组工作流上的能力。GPT-Rosalind 在已公布评分的模型中取得了领先成绩。
LABBench2 覆盖更广泛的科研任务,包括文献检索、数据库访问、序列操作和实验方案设计。GPT-Rosalind 在11项任务中的6项超过了 GPT-5.4,其中提升最显著的是 CloningQA——这是一项要求端到端设计 DNA 与酶试剂的分子克隆协议的任务,直接对应实验室的真实操作。
最有意思的是与 Dyno Therapeutics(一家专注 AI 设计基因疗法的公司)的合作评测:用未发表、未污染的 RNA 序列设计了两项任务,参照系是57位人类 AI-bio 领域专家的历史成绩。GPT-Rosalind 在序列功能预测上最优10次提交排在第95百分位以上,序列生成排在约第84百分位。第95百分位意味着在这项特定任务上超越了几乎所有人类专家——不是用年,而是用分钟完成的。这不等于”AI 能治愈癌症”,但在某些边界清晰的科研子任务上,AI 超越人类专家集体表现这件事,已经可以被量化地证明了。
开源的那50个科研技能
GPT-Rosalind 对多数人来说需要资格审查才能用,但 OpenAI 同期在 GitHub 上开源了 Life Sciences Research Plugin,任何人都可以拿来用。
这是一个模块化工具集合,目前包含 50 余个科研技能,设计思路是让模型先理解研究问题、规范化实体(基因、蛋白质、疾病、变体等),再路由到正确的数据库完成查询,各技能既可单独使用也可组合成多步推理链。
按研究方向大致分为六族:人类遗传学与变异证据(OpenTargets、GWAS Catalog、ClinVar、gnomAD、FinnGen、UK Biobank 等15个来源);表达与功能基因组学(Human Protein Atlas、CellxGene、ENCODE、RNAcentral);蛋白质结构与通路(AlphaFold、RCSB PDB、UniProt、STRING、Reactome);化学与药理学(ChEMBL、PubChem、BindingDB、PharmGKB、HMDB);临床与癌症证据(ClinicalTrials.gov、cBioPortal、CIViC);文献与公共数据集(NCBI 全家桶、BioRxiv/MedRxiv、PRIDE、ProteomeXchange)。此外还有一个 research-router-skill 作为默认入口,负责理解任务、规范化实体,并选择最小可行的技能集合协调返回。
这些技能能覆盖的场景,比想象的要广。
-
• 想调研某个基因是否与某种疾病相关,它可以帮你横跨 GWAS、eQTL、PheWAS 三条证据链,整合 FinnGen 和 UK Biobank 的人群数据,最后给出一份综合背景报告——以前这件事可能要分散在十几个网站手工拼凑,现在几句话可以触发自动完成。 -
• 想在写论文前系统综述某个靶点的药物研发进展,它可以帮你同时查 PubMed 文献、ChEMBL 活性数据、ClinicalTrials 的临床试验状态,并归纳出目前到了哪个阶段、主要竞争者是谁、现有分子有什么局限。 -
• 想从一个蛋白质的序列出发了解它的功能、结构、互作伙伴、相关通路,AlphaFold + PDB + STRING + Reactome 的联动可以在一次对话里完成。这类”跨库多跳”的查询,正是人工操作最耗时也最容易遗漏的部分。
这个插件不依赖 GPT-Rosalind,配合任何主流模型都能跑。如果你现在就想在生命科学研究中用上 AI,并不需要等待资格审批——调用 GPT-5.4 加上这套技能,已经可以覆盖很多日常研究辅助需求。
预告: 麦伴科研(maltsci.com)正在筹备 Rosalind 特别版科研智能体,作为第一个云端智能体”生医数据专家”之后的第二款Agent产品。面向广大科研工作者,无需资格审批、无需本地配置,打开浏览器就能用上一线主流大模型 + 这50个开源科研技能的完整组合。预计效果优于原生 GPT-5.4,能达到满血 GPT-Rosalind + skills 约90%的水准。如果你不想排队等 OpenAI 的资格审查,欢迎关注我们上线通知。
围观者争议四起
X 上主要是兴奋。Kevin Weil 说”超级兴奋”,围观者充斥感叹号和”快给我访问权限”。有人算账:全球药物发现市场 2030 年预计超 1200 亿美元,单个药物从发现到批准平均耗资 26 亿;如果能在最早期发现环节显著提升成功率,撬动的价值不可估量。还有人说:本质上是给研究者配了一个读过所有相关论文、了解所有数据库的合作者,这个复利效应很难高估。
Reddit 则更复杂。r/singularity 第一条高赞评论直接点名:” 用一个研究成果被盗用封锁的女科学家命名,然后把这个模型锁起来——这是一种选择。” 有人补刀:”OpenAI,如果你不想开源,就改个名字。”
关于突破潜力,Reddit 更有分寸。有人写得颇有逻辑:生物学的瓶颈不是智力,是实验——细胞需要时间生长,动物模型是糟糕的疾病代理,生物系统不是设计出来的,天然对理解充满敌意。结论是:在通用机器人普及和实验室自动化成本大幅下降之前,AI 攻克疾病的大突破还要等。反驳的人则祭出开尔文勋爵1895年的名言——”比空气重的飞行器不可能存在”——然后说:等着瞧。
还有关于安全的担忧:生物模型越来越强,de novo 病原体设计的门槛就越来越低,这正是 OpenAI 实施”可信访问”机制的真实原因之一。这些声音勾勒出 GPT-Rosalind 所处的真实张力:兴奋与谨慎、开放与管控、命名的致敬与现实的门槛。
结语
GPT-Rosalind 的意义,不只在于它在某几项基准测试上赢了,更在于它代表的方向:专项训练、深度工具集成与领域对齐,为生命科学打造一个真正够用的 AI 合作者。AlphaFold 重塑了结构生物学,现在 OpenAI 试图覆盖整条研究流程——从文献综述到假说生成再到实验设计,一路打通 (BTW,也是我们麦伴科研的愿景)。
当然,生物学里有太多东西是模型学不到的。每次实验失败的原因,往往既不在文献里也不在数据库里,而在那个每天泡在实验室里修仪器的博士生的直觉经验里。最可能的近期图景是:AI 不是取代实验,而是减少做错误实验的概率——每一个假说被更严格地验证,每一次实验前有更好的方案设计,这些叠加起来,才产生真正的复利。
Rosalind Franklin 用一生证明了严谨的数据能战胜时代的偏见,只是她没能亲眼看到。今天用她名字命名的模型,能否让更多研究者在有生之年等到那个答案——我们还不知道。
参考资料
-
• Introducing GPT-Rosalind for life sciences research | OpenAI -
• Life Sciences Research Plugin | GitHub -
• Reddit r/singularity 讨论 -
• Kevin Weil on X
夜雨聆风