
来源:NQI洞察家 · 阅读时长:约12分钟
2026年4月16日,Anthropic悄然发布Claude Opus 4.7。没有发布会,没有直播倒计时,就这么安静地发了。有趣的是,Anthropic在公告里非常坦诚:"这并非我们最强大的模型。"那个更强的Claude Mythos Preview依然还在藏。但就是这个并非最强的Opus 4.7,却引发了极大关注——因为它解决了一个比聪明更重要的问题:可靠。
Anthropic官方发布配图(图源:Anthropic)
01 编码能力的质变
SWE-bench Pro是目前业界公认最苛刻的代码能力评测之一。它从真实的GitHub开源仓库里挑选高难度issue,让模型在没有提示、只给代码库的情况下独立定位问题、写出修复、跑通测试。
Opus 4.7拿到64.3%,比前代4.6的53.4%提升约11个百分点,也超过了GPT-5.4的57.7%。这不是统计噪音,是系统性提升。
SWE-bench Pro 编码基准对比
• Claude Opus 4.7:64.3%
• GPT-5.4:57.7%
• Claude Opus 4.6:53.4%
学术benchmark之外,真实生产环境的数据更具说服力。CursorBench——Cursor公司设计的专门测试AI在真实代码仓库里完成工程任务的基准——Opus 4.7拿到70%,4.6只有58%。Rakuten的生产代码库中,4.7解决的实际工程问题数量是4.6的3倍。
这个差距意味着:原来你把issue扔给模型、大概率还要自己跟进处理的那类任务,现在有相当大的概率可以直接完成。
02 视觉分辨率翻三倍
Opus 4.7的图像输入上限提高到长边2576像素、约375万像素,是此前Claude模型的3倍以上。
听上去是个参数调整,实际影响很具体。Computer Use的典型场景:让模型操控屏幕,读懂密集的数据仪表盘,在IDE里识别报错行,在PDF里找到特定条款。这类任务有一个非常直接的瓶颈——模型能不能看清楚。
分辨率提升意味着什么?
分辨率低的时候,AI就像一个高度近视、又没戴眼镜的人盯着屏幕工作:能做,但错误率高,大字能看清,小字只能猜。375万像素上限相当于给模型配了一副清晰度够用的眼镜。
ScreenSpot-Pro基准专门测试模型在GUI界面上精准导航的能力。Opus 4.7使用高分辨率图像时,无工具准确率是79.5%,启用工具后87.6%;而Opus 4.6只有57.7%和83.1%。仅仅因为能看清图像,视觉导航准确率就提升了约22个百分点。
03 文档推理全场第一
OfficeQA Pro测的是模型处理Word、Excel、PPT等Office文档并做推理的能力。这个基准上,4.7拿到了80.6%,4.6是57.1%,GPT-5.4是51.1%,Gemini 3.1 Pro是42.9%。
OfficeQA Pro 文档推理对比
80.6%
Opus 4.7 | 领先第二名23个百分点
不是小幅领先,是全场第一且和第二名拉开23个百分点的差距。企业里大量工作其实是文档工作:分析财报、审合同、整理会议纪要、拆解RFP。这些任务过去都需要人一页一页地翻。
80.6%的准确率意味着,把一份20页的合同丢进去让模型找关键条款,或者让它帮你读完那份200页的审计报告找出风险点,现在的可靠性已经达到可以放心用的程度了。
04 当可靠比聪明更重要
这代模型最有趣的变化,不是某个benchmark数字,而是行为模式的转变。
知名云端开发平台Replit的负责人这样描述:"它在技术讨论中会反驳我,帮我做出更好的决定。它真的感觉像一个更好的同事。"
"数据科学平台Hex的测试里,4.7遇到缺失数据时会直接报错,而不是像前代那样塞一个'看似合理但完全错误'的备选值。低消耗状态下的4.7,等同于中等消耗状态下的4.6。"
这种"拒绝顺从"的特质,恰恰是高级软件工程里最稀缺的东西。它不再一味地"唯命是从",也不再为了交差而胡编乱造。
光会"顶嘴"还不够,遇到挫折就罢工的AI同样不是好同事。Notion团队测试发现,4.7的工具错误率降到了原来的三分之一,更关键的是,它能在工具链崩溃时自己绕过障碍,继续把任务跑完。
05 极端案例:从零构建完整引擎
Anthropic公布了一个极端案例:4.7在没有任何人类干预的情况下,从零构建了一个完整的Rust文本转语音引擎——写神经网络模型、SIMD内核和浏览器演示,还自己把输出喂给语音识别器做验证,连测试都一并完成了。
前端框架巨头Vercel还发现了一个过去从未有过的行为:4.7会在开始写系统级代码之前,先自己进行数学证明。这已经超出了写代码的范畴,进入了严谨工程设计的领域。
06 新功能与定价
除了能力本身,这次还带来了几个值得关注的新特性:
xhigh努力级别:介于high和max之间的新档位,推理强度高于high,但token消耗比max更克制
任务预算:公开测试中,让开发者设定token消耗目标,引导模型控制推理深度
/ultrareview:Claude Code新增深度审查指令,对代码进行严格自动化review
Auto Mode:Max订阅用户专属,允许Claude Code无需手动逐步确认的情况下自动执行操作序列
定价维持在每百万输入token 5美元、输出 25美元不变。API标识符是`claude-opus-4-7`,在Claude产品、Anthropic API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Azure AI Foundry均可使用。
07 Mythos Preview:更强的牌还在手里
Anthropic发布的benchmark对比表里,除了Opus 4.7、4.6、GPT-5.4,还有一列:Mythos Preview。
Mythos Preview(未公开发布)
• SWE-bench Pro:77.8%(Opus 4.7是64.3%)
• SWE-bench Verified:93.9%(Opus 4.7是87.6%)
• Terminal-Bench 2.0:82.0%(Opus 4.7是69.4%)
Mythos Preview在所有任务上都大幅领先Opus 4.7。Anthropic没有公开发布它,原因是因为网络攻防能力太强,安全评估还没完成。Opus 4.7本身也做了主动取舍,训练阶段就压低了网络攻防能力,内置自动拦截机制。
小结:这次升级让我觉得真正有意思的地方不是某一个具体的benchmark数字,而是能力提升的分布方式:视觉、长文本、文档推理、工具调用……这些全都是构建真实智能体应用时会遇到的核心能力瓶颈。Anthropic这次的更新不像是把一个方向推到极致,更像是在全面夯实底座——而底座越扎实,上层应用能做的事就越多。
当AI停止谄媚,真正的生产力才开始爆发。Opus 4.7是Anthropic今天能给的最好答案,但不是他们手里的最后一张牌。
💡 一句话记忆:可靠比聪明更重要——Opus 4.7敢于反驳你,遇到缺失数据会报错而不是乱编,能绕过障碍继续完成任务。
往期精选
• 充电宝新国标深度解析:罗马仕崩塌与行业转折
• 注册计量师考试全攻略
• 计量领域核心期刊盘点TOP13
关注我们,随时随地掌握最新NQI领域资讯!

夜雨聆风