乐于分享
好东西不私藏

【AI工具速览】编程能力暴涨11%?Claude Opus 4.7来了,AI开始学会"拒绝"了

【AI工具速览】编程能力暴涨11%?Claude Opus 4.7来了,AI开始学会"拒绝"了

编程能力暴涨11%?Claude Opus 4.7来了,AI开始学会”拒绝”了

这事儿挺有意思的。

今天(4月17日),Anthropic发布了Claude Opus 4.7。

我本来以为又是那种”我们提升了0.5%准确率”的挤牙膏式更新。

结果一看数据,我愣住了。

编程能力从53.4%涨到64.3%,单代提升11个百分点。

这在AI圈是什么概念?

相当于你考试从60分直接考到71分,不是靠蒙,是实打实的本事涨了。

先说重点:为什么这次不一样?

以前的AI更新,基本就是:

我们更大了,我们更快了,我们更聪明了。

这次呢?

我们学会说”不”了。

这是Claude Opus 4.7最核心的变化——它变得更”靠谱”了。

什么叫靠谱?

  • 用户给的方案错了,它会反驳
  • 信息缺失,它会报错,不会瞎编
  • 输出结果前,它会自己验证

Cursor团队说了一句让我印象深刻的话:

“Claude在技术讨论中会反驳我,帮我做出更好的决定。”

这才是AI应该有的样子。

不是你说啥它都说”好的老板”,而是”老板,你这个问题有问题”。

数据有多狠?

直接上硬核的:

测试项目
Opus 4.7
GPT-5.4
Gemini 3.1 Pro
SWE-bench Pro
64.3%
57.7%
54.2%
GDPval-AA知识工作
1753 Elo
1674
1314
视觉推理CharXiv
82.1%
法律测试BigLaw
90.9%

光看数字可能没感觉,我给你翻译一下:

在真实编程任务中,Opus 4.7能解决64%的GitHub Bug,比GPT-5.4高出快7个点。

Cursor的内部测试更夸张——代码完成率从58%涨到70%,提升了21%。

日本乐天测完说:生产级任务解决数量是Opus 4.6的3倍

视觉能力也开挂了

这块容易被忽略,但真的很强。

Opus 4.7支持长边最高2576像素的图像处理,约375万像素。

是之前的3倍以上。

什么概念?

以前你给它一张密集的代码截图,它可能看不全。现在它能看清楚每个细节,包括那些藏在角落里的变量名。

XBOW视觉精度基准测试:从54.5%飙升到98.5%

这已经不是”能看”了,是”看得比人还清楚”。

有个细节让我笑了

在BrowseComp网页搜索测试中,Opus 4.7的得分(79.3%)反而比Opus 4.6(83.7%)低了。

Anthropic解释说:这是因为4.7遇到缺失信息会直接报错,而不是编造答案。

宁可降低某些指标,也要确保输出的可靠性。

我觉得这才是对的。

AI最可怕的不是它不会,而是它”自信地胡说八道”。

现在Opus 4.7选择”我不会,但我不装”。

这比”我会,但其实我不会”强太多了。

价格怎么样?

跟Opus 4.6持平:

  • 输入:$5/百万Token
  • 输出:$25/百万Token

比GPT-5.4贵,但考虑到性能差距,性价比反而更高。

有个小坑:新分词器会让相同内容的Token消耗增加1.0-1.35倍。

也就是说,你的账单可能会贵个10%-35%。

但如果你用的是Claude Code这种编程场景,代码完成率涨了21%,算下来还是划算的。

新功能值得关注

几个实用的新东西:

xhigh推理等级:介于high和max之间,在深度和速度之间给你更多选择。Claude Code已经默认开到xhigh了。

/ultrareview命令:专门用来做代码审查,通读代码变更,标记bug和设计问题。Pro和Max用户免费用3次。

Auto Mode扩展:Max用户可以让Claude在授权范围内自主决策,减少长任务中断。

Task Budgets:API新功能,帮你规划长任务的Token预算。

我的看法

说实话,我对”AGI最后一公里”这种说法一直持保留态度。

从GPT-3到GPT-4,从GPT-4到GPT-5,每一代都有人说”最后一公里”。

结果呢?最后一公里走了一代又一代。

但Claude Opus 4.7确实给了我不一样的感觉。

不是因为它参数有多大(Anthropic甚至没公开参数量),也不是因为它跑分有多高。

而是因为它开始有自己的判断了

Hex团队发现:Opus 4.7遇到缺失数据会直接报错,而Opus 4.6会尝试填充可能错误的值。

Vercel团队注意到:Opus 4.7写系统级代码前,会自己先做数学证明。

这叫什么?这叫”负责任”。

AI开始从”听命行事的小弟”变成”会质疑你的同事”。

这才是我想要的工作伙伴。

对了,还有个事

Anthropic年化收入已经突破300亿美元了,超过了OpenAI的250亿美元。

财富10强企业里,8家在用Claude。

全球GitHub公共提交中,4%是由Claude Code完成的。

一个搞AI安全的公司,把AI商业化做到了行业第一。

这本身就很值得琢磨。

相关链接:

  • 官网:https://www.anthropic.com/
  • Claude Code:https://claude.ai/code
  • API文档:https://docs.anthropic.com/

PS:Replit负责人说”Claude在技术讨论中会反驳我”,我测试了一下,它确实会。而且反驳得有道理。我突然觉得我的技术方案有点危险…