【AI热点】Claude Opus 4.7 深度解析:当AI学会＂反驳＂你,可靠比聪明更重要

来源：NQI洞察家 · 阅读时长：约12分钟

2026年4月16日，Anthropic悄然发布Claude Opus 4.7。没有发布会，没有直播倒计时，就这么安静地发了。有趣的是，Anthropic在公告里非常坦诚："这并非我们最强大的模型。"那个更强的Claude Mythos Preview依然还在藏。但就是这个并非最强的Opus 4.7，却引发了极大关注——因为它解决了一个比聪明更重要的问题：可靠。

Anthropic官方发布配图（图源：Anthropic）

01 编码能力的质变

SWE-bench Pro是目前业界公认最苛刻的代码能力评测之一。它从真实的GitHub开源仓库里挑选高难度issue，让模型在没有提示、只给代码库的情况下独立定位问题、写出修复、跑通测试。

Opus 4.7拿到64.3%，比前代4.6的53.4%提升约11个百分点，也超过了GPT-5.4的57.7%。这不是统计噪音，是系统性提升。

SWE-bench Pro 编码基准对比

• Claude Opus 4.7：64.3%

• GPT-5.4：57.7%

• Claude Opus 4.6：53.4%

学术benchmark之外，真实生产环境的数据更具说服力。CursorBench——Cursor公司设计的专门测试AI在真实代码仓库里完成工程任务的基准——Opus 4.7拿到70%，4.6只有58%。Rakuten的生产代码库中，4.7解决的实际工程问题数量是4.6的3倍。

这个差距意味着：原来你把issue扔给模型、大概率还要自己跟进处理的那类任务，现在有相当大的概率可以直接完成。

02 视觉分辨率翻三倍

Opus 4.7的图像输入上限提高到长边2576像素、约375万像素，是此前Claude模型的3倍以上。

听上去是个参数调整，实际影响很具体。Computer Use的典型场景：让模型操控屏幕，读懂密集的数据仪表盘，在IDE里识别报错行，在PDF里找到特定条款。这类任务有一个非常直接的瓶颈——模型能不能看清楚。

分辨率提升意味着什么？

分辨率低的时候，AI就像一个高度近视、又没戴眼镜的人盯着屏幕工作：能做，但错误率高，大字能看清，小字只能猜。375万像素上限相当于给模型配了一副清晰度够用的眼镜。

ScreenSpot-Pro基准专门测试模型在GUI界面上精准导航的能力。Opus 4.7使用高分辨率图像时，无工具准确率是79.5%，启用工具后87.6%；而Opus 4.6只有57.7%和83.1%。仅仅因为能看清图像，视觉导航准确率就提升了约22个百分点。

03 文档推理全场第一

OfficeQA Pro测的是模型处理Word、Excel、PPT等Office文档并做推理的能力。这个基准上，4.7拿到了80.6%，4.6是57.1%，GPT-5.4是51.1%，Gemini 3.1 Pro是42.9%。

OfficeQA Pro 文档推理对比

80.6%

Opus 4.7 | 领先第二名23个百分点

不是小幅领先，是全场第一且和第二名拉开23个百分点的差距。企业里大量工作其实是文档工作：分析财报、审合同、整理会议纪要、拆解RFP。这些任务过去都需要人一页一页地翻。

80.6%的准确率意味着，把一份20页的合同丢进去让模型找关键条款，或者让它帮你读完那份200页的审计报告找出风险点，现在的可靠性已经达到可以放心用的程度了。

04 当可靠比聪明更重要

这代模型最有趣的变化，不是某个benchmark数字，而是行为模式的转变。

知名云端开发平台Replit的负责人这样描述："它在技术讨论中会反驳我，帮我做出更好的决定。它真的感觉像一个更好的同事。"

"数据科学平台Hex的测试里，4.7遇到缺失数据时会直接报错，而不是像前代那样塞一个'看似合理但完全错误'的备选值。低消耗状态下的4.7，等同于中等消耗状态下的4.6。"

这种"拒绝顺从"的特质，恰恰是高级软件工程里最稀缺的东西。它不再一味地"唯命是从"，也不再为了交差而胡编乱造。

光会"顶嘴"还不够，遇到挫折就罢工的AI同样不是好同事。Notion团队测试发现，4.7的工具错误率降到了原来的三分之一，更关键的是，它能在工具链崩溃时自己绕过障碍，继续把任务跑完。

05 极端案例：从零构建完整引擎

Anthropic公布了一个极端案例：4.7在没有任何人类干预的情况下，从零构建了一个完整的Rust文本转语音引擎——写神经网络模型、SIMD内核和浏览器演示，还自己把输出喂给语音识别器做验证，连测试都一并完成了。

前端框架巨头Vercel还发现了一个过去从未有过的行为：4.7会在开始写系统级代码之前，先自己进行数学证明。这已经超出了写代码的范畴，进入了严谨工程设计的领域。

06 新功能与定价

除了能力本身，这次还带来了几个值得关注的新特性：

xhigh努力级别：介于high和max之间的新档位，推理强度高于high，但token消耗比max更克制

任务预算：公开测试中，让开发者设定token消耗目标，引导模型控制推理深度

/ultrareview：Claude Code新增深度审查指令，对代码进行严格自动化review

Auto Mode：Max订阅用户专属，允许Claude Code无需手动逐步确认的情况下自动执行操作序列

定价维持在每百万输入token 5美元、输出 25美元不变。API标识符是`claude-opus-4-7`，在Claude产品、Anthropic API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Azure AI Foundry均可使用。

07 Mythos Preview：更强的牌还在手里

Anthropic发布的benchmark对比表里，除了Opus 4.7、4.6、GPT-5.4，还有一列：Mythos Preview。

Mythos Preview（未公开发布）

• SWE-bench Pro：77.8%（Opus 4.7是64.3%）

• SWE-bench Verified：93.9%（Opus 4.7是87.6%）

• Terminal-Bench 2.0：82.0%（Opus 4.7是69.4%）

Mythos Preview在所有任务上都大幅领先Opus 4.7。Anthropic没有公开发布它，原因是因为网络攻防能力太强，安全评估还没完成。Opus 4.7本身也做了主动取舍，训练阶段就压低了网络攻防能力，内置自动拦截机制。

小结：这次升级让我觉得真正有意思的地方不是某一个具体的benchmark数字，而是能力提升的分布方式：视觉、长文本、文档推理、工具调用……这些全都是构建真实智能体应用时会遇到的核心能力瓶颈。Anthropic这次的更新不像是把一个方向推到极致，更像是在全面夯实底座——而底座越扎实，上层应用能做的事就越多。

当AI停止谄媚，真正的生产力才开始爆发。Opus 4.7是Anthropic今天能给的最好答案，但不是他们手里的最后一张牌。

💡 一句话记忆：可靠比聪明更重要——Opus 4.7敢于反驳你，遇到缺失数据会报错而不是乱编，能绕过障碍继续完成任务。

往期精选

• 充电宝新国标深度解析：罗马仕崩塌与行业转折

• 注册计量师考试全攻略

• 计量领域核心期刊盘点TOP13

关注我们，随时随地掌握最新NQI领域资讯！