击败95%人类专家!OpenAI生命科学模型GPT‑Rosalind进入新药发现快车道

算泥社区是集 “AI 大模型开发服务 + 算法 + 算力” 于一体的开源生态社区，欢迎关注！

生命科学研究浩如烟海的文献与无止境的试错消耗着一代代研究者的精力。

OpenAI为生命科学研究打造的GPT-Rosalind正式亮相。

这款深度理解化学和基因组学、直接连通数十种科研工具的AI模型，正试图将长达十几年的新药研发长征缩短，它在专业测试中击败了人类专家，而且已悄然进入全球顶尖药企的研发一线。

打破新药研发的时钟

一款新药从最初的靶点发现，一路走到获得监管部门的最终批准，平均需要耗费10到15年的漫长岁月。

这个周期里填满了枯燥且极具挑战的案头与实验室工作。

早期发现阶段取得的任何微小进展，都会在后续漫长的流程中产生巨大的复利效应。选准了靶点，提出了有力的生物学假设，设计了高质量的初步实验，后期临床试验的失败率就会大幅降低。

生命科学领域的进展之所以缓慢，底层科学问题本身的深奥是其一，更在于研究工作流的极度复杂性。科学家每天都要面对浩如烟海的学术文献、结构各异的专用数据库以及庞杂的实验数据。他们必须在这些极度分散的信息碎片中不断提出假设并加以验证。

这些传统的工作流耗时极长，呈现出高度碎片化的特征，极难实现规模化运作。

先进的AI系统完全有能力协助研究人员加快工作节奏。系统能提升现有工作的处理效率，更能引导科学家去探索未知的可能性。那些容易被人类大脑遗漏的隐蔽联系，会在模型的梳理下清晰地浮出水面，帮助研究团队更早地确立可靠的科研假设。

通过全面支持证据合成、假设生成、实验规划等多步骤的繁杂任务，这款新模型致力于加速新药研发的早期进程。假以时日，这些智能系统将助力生命科学机构实现从前难以想象的重大突破，大幅提高药物研发的成功率。

GPT-Rosalind这款模型的名字致敬了伟大的女科学家罗莎琳德·富兰克林。她当年严谨务实的研究工作，为揭示DNA（脱氧核糖核酸）的双螺旋结构提供了关键证据，为现代分子生物学奠定了坚实的基石。

跑分超越专家的底气

作为专为现代科学工作量身定制的工具，GPT-Rosalind系列模型能够熟练处理已发表的科学证据、实验数据和专业工具。

在内部评估中，它在处理分子、蛋白质、基因、生物通路以及疾病相关生物学推理任务时表现优异。

研发团队评估了该模型在基础科学发现和工业研究领域的各项核心能力。这些测试全面衡量了模型在不同科学分支下的推理水平，涵盖化学反应机制、蛋白质结构与突变效应分析、蛋白质相互作用以及DNA序列的系统发育解释。

测试体系还着重考察了模型能否真正支撑实际的科研工作流。模型需要准确解释复杂的实验输出结果，识别出只有深耕多年的领域专家才能敏锐察觉的隐蔽模式，并综合外部信息来规划后续的跟进实验。

评估标准还要求模型准确选择并使用合适的计算工具、数据库和特定领域功能，以此来辅助自身的逻辑推理。

综合来看，模型在科学研究的端到端全流程中取得了显著进步，展现出协助研究人员攻克高难度发现任务的强大实力。

展示了模型在核心生物和化学基准测试中的全面提升。

在行业评估环节，一系列高难度的公开基准测试进一步验证了它的能力。在专门针对真实生物信息学和数据分析任务设计的BixBench基准测试中，GPT-Rosalind在所有公布成绩的模型中稳居榜首。

在衡量各项研究任务表现的LABBench2基准测试中，任务范围涵盖文献检索、数据库访问、序列操作和实验方案设计。

在总共11项任务中，GPT-Rosalind有6项成绩超越了GPT-5.4。提升最显著的是CloningQA任务，这项任务要求模型端到端地设计分子克隆方案所需的DNA和酶试剂，对准确度的要求极高。

研发团队还与致力于AI设计基因疗法的Dyno Therapeutics公司展开合作，使用从未公开且未被污染的序列数据，测试模型在RNA序列到功能预测及生成任务上的表现。

模型的成绩与AI生物领域的57个历史人类专家得分进行了正面较量。

在Codex应用中直接进行评估时，模型十次提交中的最佳成绩，在预测任务上击败了95%的人类专家，在序列生成任务上击败了84%的人类专家。

科学家每天都需要生成证据、分析复杂数据并得出经得起推敲的生物学结论，这些扎实的评估数据为模型在真实科研工作流中的表现提供了极具价值的参考。

五十个工具与访问、治理防线

为了让科学家用得顺手，平台在GitHub上发布了全新的生命科学研究插件，供Codex用户免费使用。

https://github.com/openai/plugins/tree/main/plugins/life-science-research

这个资源包内含丰富的模块化技能，覆盖了大部分常见的科研工作流，旨在帮助用户顺畅处理人类遗传学、功能基因组学、蛋白质结构、生物化学、临床证据以及公共研究发现等多个领域的棘手任务。

这些技能模块充当着指挥调度的角色，协助科学家更高效地解答那些范围宽泛、边界模糊且需要多步拆解的复杂问题。该插件彻底打通了50多个公共多组学数据库、文献来源和生物学工具的访问权限，为蛋白质结构查找、序列搜索、文献综述和公共数据集发现等日常重复性工作流提供了一个灵活便捷的启动平台。

符合条件的企业用户可以在研究工作流中结合GPT-Rosalind使用此插件，进行深度的生物学推理，普通用户也可以在主线模型中调用这个强大的插件包。

研发团队希望把这些强大的能力交到那些最有可能增进人类健康福祉的科学家手中，同时必须建立坚固的防线，严防生物技术的意外滥用。

生命科学模型目前通过受信任的访问部署架构启动，初期仅面向美国本土符合条件的企业客户开放，在资格审查、访问管理和组织治理方面设置了最严格的控制措施。与此同时，平台更广泛地开放了一系列连接器和生命科学研究插件，让广大研究人员也能利用主线模型更高效地完成部分科研任务。

这款模型在开发之初就融入了更高级别的企业级安全控制和强化的访问管理机制，确保它能在受严格监管的研究环境中进行专业的科学应用。

访问评估基于三项核心原则，包含有益使用、强效治理与安全监督以及具备企业级安全的受控访问。具体到操作层面，参与机构必须从事具有明确公共利益的合法科学研究，维持适当的治理、合规和防滥用控制机制，将模型访问权限严格限制在安全、管理完善的内部环境中，且仅供经过严格审批的用户使用。

参与机构须同意生命科学研究预览版的各项条款并遵守API使用政策，在入驻或后续合作期间，平台可能会随时要求机构提供额外的补充信息。

符合要求的组织可以通过资格和安全审查流程申请访问权限。在研究预览期间，只要不违反滥用防护规定，使用该模型不会消耗现有的额度或Token。随着项目规模的扩大，有关定价和可用性的更多细节将陆续公布。

拥抱顶尖科研生态

生命科学模型的初衷，是帮助科研机构在需要技术能力和运营控制并重的环境中，更快地产出更高质量的研究成果。

OpenAI专属生命科学团队联同麦肯锡、波士顿咨询集团以及贝恩（Bain）公司等顾问合作伙伴，正全力协助各大机构发掘高价值的应用场景，将模型无缝整合到企业现有的研发管线中，推动产出实实在在的成果。

Amgen，Moderna，Allen Institute，Thermo Fisher Scientific等众多知名机构已经深度参与其中，将GPT-Rosalind应用于驱动科学发现的核心工作流。

目前，平台正与Los Alamos National Laboratory（洛斯阿拉莫斯国家实验室）等国家级科研机构开展深入合作，共同探索由AI引导的蛋白质和催化剂设计，重点研究AI系统在保留或优化关键功能特性的前提下，精准修改生物结构的能力。

随着不断的迭代与进化，这些智能系统必将成为科学发现旅程中越来越能干的破局者，协助科学家以更快的速度完成从提出问题到寻找证据、从积累证据到形成洞察、最终从洞察转化为患者救命新疗法的全过程。

参考资料：

https://openai.com/index/introducing-gpt-rosalind/

END