
昨晚 Anthropic 发布了 Claude Opus 4.7。全网的头条都是两件事:一个是编程能力又挤过了 GPT-5.4 和 Gemini 3.1 Pro,一个是那个不对公众开放、据说主攻网络安全的 Mythos Preview。

至于生物学,几乎没有人谈。但 FutureHouse 技术团队成员 Jakub Lála 凌晨翻到了 System Card 里一段被折叠的评估,连发了四条。

那段话讲的是一个朴素到不能再朴素的任务:给模型一份生物大分子的结构数据,再配一些基础工具,让它回答——这个分子到底在干什么。一道"看结构,说功能"的题。成绩是这样的:

两个月前的 Opus 4.6,在开放式问答上只能拿 30.9 分。两个月后的 4.7,拿到了 74.0。翻了一倍还多。Jakub 用一句话点到了要害:"涨分主要发生在开放式这个 setting,而开放式才更贴近实际。"

(进入水木知了社群,讨论AI智能体在生物医药领域的应用)
针对Opus在生物医药领域的
多选题已经没意义了,
开放题才是真实战场


先把一个事情说清楚:多选题刷到 98%,几乎没什么信息量了——Mythos Preview 也就领先 0.4 个点。这个设定已经饱和。
真正有区分度的是开放式问答。而开放式问答,才是我们在真实世界里让 AI 干的活——丢给它一个 PDB 文件,一份结构坐标,也许再加几个工具调用权限,让它自己把故事讲清楚:这是个什么蛋白?活性位点在哪?可能结合什么底物?这个突变大概会怎样影响功能?

三个月前,让 Opus 4.6 干这件事,有 7 成概率它会给你一个听起来合理、实际上是幻觉的答案。现在 4.7 的对错比例,基本反过来了。这不是"benchmark 又涨了几个点"的故事。这是 structure-function 推理这件事,第一次在一个通用模型身上,越过了能不能用于真实工作的那条线。
为什么这一条
可能被行业严重低估


有三个背景得放在一起看。
第一,Opus 4.6 两个月前的宣传口径就是"计算生物学、结构生物学、有机化学、系统发生学四项综合比 4.5 提升近 2 倍"——那已经是一次大跳跃。Opus 4.7 两个月后,又把其中最硬的一块(开放式结构→功能推理)再翻一倍。
连续两代,加速度还在涨。

第二,这次发布的主旋律被压在编程上。 Anthropic 自己的官方 blog 把重点全给了 software engineering 和 agentic coding,生物学只作为评估图表里的一个可折叠的 tab 出现。生物这条线的大跳跃,基本靠 System Card 的细节被扒出来。几乎可以说,是 Anthropic 自己把这件事往低调里做的。


第三,Mythos Preview 的存在透露了另一层。 Mythos 是 Anthropic 小范围发给 11 家机构、主要做网络安全用途的"上限模型"。但从这张表看,它在生物结构-功能推理上也是目前最强的 80.6%。

这暗示前沿实验室在生物推理上的真实能力,比公开模型展示的还要再高一档。换句话说,Opus 4.7 的 74%——可能根本不是天花板,只是愿意向公众开放的水位。

做 AI 药物、AI 抗体的,
今晚该做几件事


如果你在做抗体、做蛋白、做结构生物学,或者在搭相关的 AI agent,有几件事值得立刻处理:
第一,重测你所有现有的 skill / prompt / workflow。 任何涉及"看结构推功能"的步骤——epitope 预测注释、抗体 developability 判读、PPI 界面分析、突变效应解读——今晚用 4.7 跑一遍,跟 4.6 的结果做对比。按这个 benchmark 的幅度,你大概率会看到"能用"和"还不能用"之间的那条线,被重新划了位置。

第二,重新推 agent 的任务边界。 之前那些因为"模型会乱编"而只能做成检索工具、不敢让它做解读的环节——epitope 标注、binding mode 分析、mutation 效应解释——从 30% 到 74% 意味着:你的 agent 工作流里有一大类"必须人来复核结构推理"的步骤,可能今天就可以把人工 check 的比例往下调一档。

第三,注意成本账。 Opus 4.7 换了 tokenizer,同样输入会比 4.6 多消耗 1.0-1.35 倍的 token;同时在高 effort 下它思考得更多,输出也更长。定价和 4.6 持平($5/M 输入,$25/M 输出),但实际账单会上浮。长文档、长推理的 workflow,重新算一下再切。

最后


两个月前,Opus 4.6 在"看结构说功能"这件事上还只能勉强及格。昨天发布的 4.7,拿到 74%,已经逼近 Anthropic 目前握在手里的上限模型。编程榜上超过GPT-5.4 是今天的头条——但这条静悄悄的生物学曲线,才是我们这行人今晚真的该关灯坐下来想一想的信号。做 AI 药物设计的,今晚确实不太好睡了。


夜雨聆风