【AI工具速览】编程能力暴涨11%?Claude Opus 4.7来了,AI开始学会＂拒绝＂了

编程能力暴涨11%？Claude Opus 4.7来了，AI开始学会”拒绝”了

这事儿挺有意思的。

今天（4月17日），Anthropic发布了Claude Opus 4.7。

我本来以为又是那种”我们提升了0.5%准确率”的挤牙膏式更新。

结果一看数据，我愣住了。

编程能力从53.4%涨到64.3%，单代提升11个百分点。

这在AI圈是什么概念？

相当于你考试从60分直接考到71分，不是靠蒙，是实打实的本事涨了。

先说重点：为什么这次不一样？

以前的AI更新，基本就是：

我们更大了，我们更快了，我们更聪明了。

这次呢？

我们学会说”不”了。

这是Claude Opus 4.7最核心的变化——它变得更”靠谱”了。

什么叫靠谱？

用户给的方案错了，它会反驳
信息缺失，它会报错，不会瞎编
输出结果前，它会自己验证

Cursor团队说了一句让我印象深刻的话：

“Claude在技术讨论中会反驳我，帮我做出更好的决定。”

这才是AI应该有的样子。

不是你说啥它都说”好的老板”，而是”老板，你这个问题有问题”。

数据有多狠？

直接上硬核的：

测试项目	Opus 4.7	GPT-5.4	Gemini 3.1 Pro
SWE-bench Pro	64.3%	57.7%	54.2%
GDPval-AA知识工作	1753 Elo	1674	1314
视觉推理CharXiv	82.1%	–	–
法律测试BigLaw	90.9%	–	–

光看数字可能没感觉，我给你翻译一下：

在真实编程任务中，Opus 4.7能解决64%的GitHub Bug，比GPT-5.4高出快7个点。

Cursor的内部测试更夸张——代码完成率从58%涨到70%，提升了21%。

日本乐天测完说：生产级任务解决数量是Opus 4.6的3倍。

视觉能力也开挂了

这块容易被忽略，但真的很强。

Opus 4.7支持长边最高2576像素的图像处理，约375万像素。

是之前的3倍以上。

什么概念？

以前你给它一张密集的代码截图，它可能看不全。现在它能看清楚每个细节，包括那些藏在角落里的变量名。

XBOW视觉精度基准测试：从54.5%飙升到98.5%。

这已经不是”能看”了，是”看得比人还清楚”。

有个细节让我笑了

在BrowseComp网页搜索测试中，Opus 4.7的得分(79.3%)反而比Opus 4.6(83.7%)低了。

Anthropic解释说：这是因为4.7遇到缺失信息会直接报错，而不是编造答案。

宁可降低某些指标，也要确保输出的可靠性。

我觉得这才是对的。

AI最可怕的不是它不会，而是它”自信地胡说八道”。

现在Opus 4.7选择”我不会，但我不装”。

这比”我会，但其实我不会”强太多了。

价格怎么样？

跟Opus 4.6持平：

输入：$5/百万Token
输出：$25/百万Token

比GPT-5.4贵，但考虑到性能差距，性价比反而更高。

有个小坑：新分词器会让相同内容的Token消耗增加1.0-1.35倍。

也就是说，你的账单可能会贵个10%-35%。

但如果你用的是Claude Code这种编程场景，代码完成率涨了21%，算下来还是划算的。

新功能值得关注

几个实用的新东西：

xhigh推理等级：介于high和max之间，在深度和速度之间给你更多选择。Claude Code已经默认开到xhigh了。

/ultrareview命令：专门用来做代码审查，通读代码变更，标记bug和设计问题。Pro和Max用户免费用3次。

Auto Mode扩展：Max用户可以让Claude在授权范围内自主决策，减少长任务中断。

Task Budgets：API新功能，帮你规划长任务的Token预算。

我的看法

说实话，我对”AGI最后一公里”这种说法一直持保留态度。

从GPT-3到GPT-4，从GPT-4到GPT-5，每一代都有人说”最后一公里”。

结果呢？最后一公里走了一代又一代。

但Claude Opus 4.7确实给了我不一样的感觉。

不是因为它参数有多大（Anthropic甚至没公开参数量），也不是因为它跑分有多高。

而是因为它开始有自己的判断了。

Hex团队发现：Opus 4.7遇到缺失数据会直接报错，而Opus 4.6会尝试填充可能错误的值。

Vercel团队注意到：Opus 4.7写系统级代码前，会自己先做数学证明。

这叫什么？这叫”负责任”。

AI开始从”听命行事的小弟”变成”会质疑你的同事”。

这才是我想要的工作伙伴。

对了，还有个事

Anthropic年化收入已经突破300亿美元了，超过了OpenAI的250亿美元。

财富10强企业里，8家在用Claude。

全球GitHub公共提交中，4%是由Claude Code完成的。

一个搞AI安全的公司，把AI商业化做到了行业第一。

这本身就很值得琢磨。

相关链接：

官网：https://www.anthropic.com/
Claude Code：https://claude.ai/code
API文档：https://docs.anthropic.com/

PS：Replit负责人说”Claude在技术讨论中会反驳我”，我测试了一下，它确实会。而且反驳得有道理。我突然觉得我的技术方案有点危险…