OpenAI给生命科学开外挂,开启独立模型线

大家好，我是 Ai 学习的老章

OpenAI 这两天又憋了个大招，这次受众很特别，目标直奔药厂、实验室和公共卫生团队——GPT-Rosalind 出新能力更新

这玩意儿名字大家可能比较陌生，OpenAI 专门为生命科学研究做了一条独立模型线，独立于 ChatGPT 和 Sora，名字致敬的是 DNA 双螺旋幕后功臣 Rosalind Franklin

小黑把这次更新的核心画了出来：不只答题、接进实验室、跑数据、可复查，OpenAI 在这次公开了一个判断：生命科学这个领域，靠一个会答题的大模型不够用，必须把模型、工具、数据、可复查产物全打包，才有用

往下看

简介：GPT-Rosalind 到底是个啥

先说时间线，把前因后果交代清楚：

2026-04-16，OpenAI 首次发布 GPT-Rosalind，定位是面向生物学、药物发现和转化医学的前沿推理模型
2026-05-29，配套放出 Rosalind Biodefense，把它接到生物防御这条公共安全线上
2026-06-03，本次能力更新，把 GPT-5.5 的工具使用和代码能力，叠加到生命科学领域的专业模型智能上

定位很明确：一个只对合格组织开放的科研工作台，跟面向所有人的通用 ChatGPT 是两条路子

它能干啥？官方给出的场景挺硬核：

药物化学：分子设计、性质预测
基因组学：变异解释、靶点优先级
定量生物学：从论文、数据集、内部数据里抽取证据并交叉核查
湿实验故障排查：实验做不出来，让它帮你看看是哪儿崩了
证据综合：把分散在文献、数据库、临床记录里的信号拢起来给个判断
实验设计：根据假设给出可执行的实验路径
科学沟通：把复杂结论翻译成监管能看、专家能审的文档

听起来像把一个常驻博士后塞进了对话框

这次更新到底干了啥

一句话：模型变强了，工具变多了，可信访问变宽了

模型层面，OpenAI 在 GPT-5.5 的工具使用和代码能力基础上，叠了一层生命科学专业增强，重点是药物发现、药物化学和基因组学

工具层面，新增两个 Codex 插件作为执行层：

Life Sciences Research：用于证据检索、生物学解释、靶点和文献背景整理
Life Sciences NGS Analysis：用于下一代测序数据的处理、QC、可视化和可复查产物

访问层面，OpenAI 把研究预览扩大到全球合格组织，企业走治理审核 + 企业级部署，政府和公共卫生团队走专门的可信访问审批

用一张图看整个 GPT-Rosalind 工作台的层级关系，从科研问题到模型推理，再到 Codex 执行层，最后落到可审计的复查产物：

下图是 NGS Analysis 插件的实际工作画面，左侧是分子改变记录，右侧是用药匹配和疗效曲线，所有产物都可以追溯：

这种设计其实很关键——药物研发是个需要审计的事，谁、什么时候、用什么数据、跑出什么图、得出什么结论，都得能复盘

评测从题库走向工作流

这是我个人觉得这次更新最值得说的一段

过去大模型的评测，基本是「我考你答」：MMLU、GPQA、AIME，每道题独立打分，看准确率

OpenAI 这次把生命科学评测做成了 LifeSciBench，思路完全变了：不只看你能不能答对一道题，而是看你能不能在完整的科研工作流里走完一遍

工作流里包括：证据处理、分析、设计与优化、推理、验证与操作、转化、科学沟通——基本就是真实科研里 PI 到博后到博士生每天在干的事

文章里给了个 demo 任务：准备 AAV9 微型抗肌萎缩蛋白基因疗法的 FDA Type B meeting

要拿高分，模型得逐项质疑证据是否支持加速批准，至少要看：

检测特异性
替代终点是否真的有效
活检设计合不合理
外部对照能不能站得住
年龄混杂因素
AAV 持久性
安全性
适用人群限制

也就是说，给的回答必须能经得住 FDA 评审专家的反向拷问

具体跑分数据，挑几个看：

评测	GPT-Rosalind	GPT-5.5	token 用量变化
MedChemBench	27.5%	25.1%	少 7.2%
GeneBench	21.6%	20.4%	少 31%
LabWorkBench	63.2%	55.8%	少 5.3%

中文产品页给的「每 token 性能提升」更直观：GeneBench 提升 53.7%，MedChem Bench 提升 18.0%，LabWorkBench 提升 19.6%，LifeSciBench 提升 4.4%

绝对分数看上去不算炸裂，但横向看 GPT-5.5 同条件，每点性能消耗的 token 还更少——这对要长期跑大量分析的药企来说，省的是真金白银

下图是产品页里的靶点优先级 + 基因证据可视化，能看到模型是怎么把多源证据排排坐的：

Codex 插件：把模型钉进真实数据流

如果说模型升级是引擎更猛，那两个 Codex 插件就是给引擎接上传动轴

Life Sciences Research Plugin 覆盖的方向特别广：

Human genetics and variant evidence（人类遗传与变异证据）
Expression, cell context, and functional genomics（表达、细胞背景、功能基因组学）
Protein, structure, pathway, and functional biology（蛋白、结构、通路、功能生物学）
Chemistry, metabolites, and pharmacology（化学、代谢物、药理）
Clinical, translational, and disease evidence（临床、转化、疾病证据）
Literature, search, and public study discovery（文献、搜索、公开研究）
Multi-omics, proteomics, and specialized data sources（多组学、蛋白组学和专用数据源）

它要做的远不止调一个 API：先识别科研问题属于哪一类，再做实体识别（基因、蛋白、疾病、表型、变异、化合物、组织、细胞类型），再选最少够用的工具组合，最后对重要结论做交叉核查

NGS Analysis Plugin 更技术性，目标是从原始测序输入开始，跑完一条可复现的分析流：

FASTQ QC 和 trimming
Bulk RNA-seq counts/QC、差异表达
单细胞 RNA-seq 计数生成、count 后 QC
DNA variant calling
ATAC-seq、ChIP-seq、CUT&RUN、CUT&Tag
16S/18S/ITS/COI 扩增子分析
Shotgun 宏基因组

亮点是：优先用公开、可安装、可复现的工具和 nf-core 工作流，先做本地环境检查再装东西，每次跑都生成带时间戳的运行目录——里面有清单、验证摘要、日志、QC 报告、产物索引、输入输出关系

我第一眼看到这个就想到——生信工程师天天要写的那种乱七八糟的脚本，被 OpenAI 抄了底

下图分别是 bulk RNA-seq 和单细胞 RNA-seq 的工作画面，能看到从原始数据进去到 QC 报告、UMAP 出来全自动：

文章里举的 demo 场景挺有代入感：科学家拿到一份液体肿瘤活检，先用 NGS Analysis 插件查 ctDNA 记录，定位到 KRAS G12C，再切到 Research 插件查这个靶点最新的抑制剂选择和耐药机制

模型 → 插件 → 数据 → 可复查产物，这套组合对真实实验室来说是有意义的，比单独丢一个 ChatGPT 给科学家强太多

不只研究，还能做实验

中文产品页里还放了一张挺有意思的图——蛋白结合实验摘要 + 3D 结构视图，模型可以辅助蛋白结合相关的实验设计与分析：

证据热图也是产品页里的一个亮点，把多个数据源的支持/反驳信号摞在一起，方便研究者一眼看清哪些证据足够强：

合作伙伴名单也挺扎实：Amgen、Novo Nordisk、Thermo Fisher Scientific、Moderna、Allen Institute、Oracle Health and Life Sciences

Amgen 在反馈里说：生命科学问题特别复杂，数据特别独特，一旦做错风险很大，OpenAI 这套能力有望帮他们更快把药交付给患者

这句话听起来像商业互吹，背后反映的是真实需求

谁能用，怎么用

这部分必须单独说一下，因为 GPT-Rosalind 不是给所有人用的

OpenAI 给的可信访问门槛包括：

合法的科研目的
明确的公益价值
治理和安全监督
受控访问
企业级安全

具体到访问路径分两类：

企业：通过治理审核和企业级部署控制，把 GPT-Rosalind 接进已批准的研究工作流，OpenAI 还提供托管工作区，没 Enterprise 账号也能用
政府和公共卫生团队：合法研究、防备、韧性建设方向，单走一条审核通道

申请入口：

GPT-Rosalind 访问申请：https⋅//openai⋅com/form/life-sciences-access/
Rosalind Biodefense 项目申请：https⋅//openai⋅com/form/rosalind-biodefense-program/

国内大多数老板可能用不上，但这种「不普惠化」反而是这条产品线最值得抄的设计哲学——专业模型 + 受控访问 + 行业合规，比无门槛先发更适合医疗、金融、政务

One More Thing：Rosalind Biodefense

如果说 GPT-Rosalind 是给科学家造的工作台，那 Rosalind Biodefense 就是给公共安全造的盾牌

OpenAI 的逻辑很直白：AI 在加速生物学进展，攻防是同一个曲线，进攻方变强，防御方必须同步变强

Rosalind Biodefense 把 GPT-Rosalind 提供给可信开发者、政府、公共卫生团队，重点覆盖：

流行病学建模
早期检测
筛查
防备
非药物干预
其他公共卫生能力

初期支持组织包括 Fourth Eon、SecureDNA、SecureBio、Detection、ProEquip 等政府和实验室方向涉及 Lawrence Livermore National Laboratory、Johns Hopkins Applied Physics Laboratory、CEPI

OpenAI 还会赞助这些组织的 GPT-Rosalind 访问并给启动支持，这是一个用商业模型反哺公共安全的做法，挺难得

总结

这次更新的关键，其实不在分数提升的幅度，重点是 OpenAI 公开承认了一件事：

❝
生命科学这种高复杂度领域，模型再强，单点答题也没用，必须把模型、工具、数据、可复查产物打包成完整工作流，才能真正进入实验室

GPT-Rosalind 的产品路径很值得看：

优点	槽点
评测贴近真实科研工作流，不只比答题	研究预览阶段，普通开发者用不上
模型 + 两个 Codex 插件，把推理钉进数据流	主要绑定 Codex 生态，跨生态兼容性弱
可信访问 + 企业级合规，适合医药行业落地	申请审批慢，对中小研究团队不友好
顺带启动 Rosalind Biodefense，公共安全有兜底	主要面向北美和盟友，地缘门槛在那

适合谁关注：

国内做 AI for Science、AI for Drug Discovery 的团队，可以参考它的工作流设计、评测方法、Codex 插件结构
药企信息部门，可以提前研究合规与可信访问框架
公共卫生和疾控相关方向，关注 Rosalind Biodefense 的落地节奏

GPT-Rosalind 单看 benchmark 提升不算特别夸张，但 LifeSciBench 这种「考工作流」的评测方式 + Codex 插件这种「执行 + 可复查产物」的工程设计，会逐步成为专业领域模型的标准范式

我个人是给这套思路打 90 分——这不只是又一个炫技发布，更像是一个把 AI 真正推进专业行业的可复用模板