【AI工具速览】编程能力暴涨11%?Claude Opus 4.7来了,AI开始学会"拒绝"了
编程能力暴涨11%?Claude Opus 4.7来了,AI开始学会”拒绝”了
这事儿挺有意思的。
今天(4月17日),Anthropic发布了Claude Opus 4.7。
我本来以为又是那种”我们提升了0.5%准确率”的挤牙膏式更新。
结果一看数据,我愣住了。
编程能力从53.4%涨到64.3%,单代提升11个百分点。
这在AI圈是什么概念?
相当于你考试从60分直接考到71分,不是靠蒙,是实打实的本事涨了。
先说重点:为什么这次不一样?
以前的AI更新,基本就是:
我们更大了,我们更快了,我们更聪明了。
这次呢?
我们学会说”不”了。
这是Claude Opus 4.7最核心的变化——它变得更”靠谱”了。
什么叫靠谱?
-
用户给的方案错了,它会反驳 -
信息缺失,它会报错,不会瞎编 -
输出结果前,它会自己验证
Cursor团队说了一句让我印象深刻的话:
“Claude在技术讨论中会反驳我,帮我做出更好的决定。”
这才是AI应该有的样子。
不是你说啥它都说”好的老板”,而是”老板,你这个问题有问题”。
数据有多狠?
直接上硬核的:
|
|
|
|
|
|---|---|---|---|
|
|
64.3% |
|
|
|
|
1753 Elo |
|
|
|
|
82.1% |
|
|
|
|
90.9% |
|
|
光看数字可能没感觉,我给你翻译一下:
在真实编程任务中,Opus 4.7能解决64%的GitHub Bug,比GPT-5.4高出快7个点。
Cursor的内部测试更夸张——代码完成率从58%涨到70%,提升了21%。
日本乐天测完说:生产级任务解决数量是Opus 4.6的3倍。
视觉能力也开挂了
这块容易被忽略,但真的很强。
Opus 4.7支持长边最高2576像素的图像处理,约375万像素。
是之前的3倍以上。
什么概念?
以前你给它一张密集的代码截图,它可能看不全。现在它能看清楚每个细节,包括那些藏在角落里的变量名。
XBOW视觉精度基准测试:从54.5%飙升到98.5%。
这已经不是”能看”了,是”看得比人还清楚”。
有个细节让我笑了
在BrowseComp网页搜索测试中,Opus 4.7的得分(79.3%)反而比Opus 4.6(83.7%)低了。
Anthropic解释说:这是因为4.7遇到缺失信息会直接报错,而不是编造答案。
宁可降低某些指标,也要确保输出的可靠性。
我觉得这才是对的。
AI最可怕的不是它不会,而是它”自信地胡说八道”。
现在Opus 4.7选择”我不会,但我不装”。
这比”我会,但其实我不会”强太多了。
价格怎么样?
跟Opus 4.6持平:
-
输入:$5/百万Token -
输出:$25/百万Token
比GPT-5.4贵,但考虑到性能差距,性价比反而更高。
有个小坑:新分词器会让相同内容的Token消耗增加1.0-1.35倍。
也就是说,你的账单可能会贵个10%-35%。
但如果你用的是Claude Code这种编程场景,代码完成率涨了21%,算下来还是划算的。
新功能值得关注
几个实用的新东西:
xhigh推理等级:介于high和max之间,在深度和速度之间给你更多选择。Claude Code已经默认开到xhigh了。
/ultrareview命令:专门用来做代码审查,通读代码变更,标记bug和设计问题。Pro和Max用户免费用3次。
Auto Mode扩展:Max用户可以让Claude在授权范围内自主决策,减少长任务中断。
Task Budgets:API新功能,帮你规划长任务的Token预算。
我的看法
说实话,我对”AGI最后一公里”这种说法一直持保留态度。
从GPT-3到GPT-4,从GPT-4到GPT-5,每一代都有人说”最后一公里”。
结果呢?最后一公里走了一代又一代。
但Claude Opus 4.7确实给了我不一样的感觉。
不是因为它参数有多大(Anthropic甚至没公开参数量),也不是因为它跑分有多高。
而是因为它开始有自己的判断了。
Hex团队发现:Opus 4.7遇到缺失数据会直接报错,而Opus 4.6会尝试填充可能错误的值。
Vercel团队注意到:Opus 4.7写系统级代码前,会自己先做数学证明。
这叫什么?这叫”负责任”。
AI开始从”听命行事的小弟”变成”会质疑你的同事”。
这才是我想要的工作伙伴。
对了,还有个事
Anthropic年化收入已经突破300亿美元了,超过了OpenAI的250亿美元。
财富10强企业里,8家在用Claude。
全球GitHub公共提交中,4%是由Claude Code完成的。
一个搞AI安全的公司,把AI商业化做到了行业第一。
这本身就很值得琢磨。
相关链接:
-
官网:https://www.anthropic.com/ -
Claude Code:https://claude.ai/code -
API文档:https://docs.anthropic.com/
PS:Replit负责人说”Claude在技术讨论中会反驳我”,我测试了一下,它确实会。而且反驳得有道理。我突然觉得我的技术方案有点危险…
夜雨聆风