
4月16号晚上,Anthropic悄咪咪地丢出了Claude Opus 4.7。
没有发布会,没有预热,连官方推文都写得像在汇报日常工作——"我们发布了一个新模型,在几个测试上表现还行。"
但你打开数据一看:SWE-bench Pro从53.4%直接飙到64.3%,真实生产环境测试里解决问题的数量是上代的3倍,视觉识别准确率从54.5%跳到98.5%。
说"还行"属实是谦虚了。
如果你不太了解这些数字的含义,简单翻译一下:这个AI模型现在修bug的能力,已经超过了很多初级程序员。而且价格一分没涨。
距离上代Opus 4.6发布才过去两个多月,这次更新到底带来了什么?对写代码的人来说又意味着什么?咱们掰开揉碎了聊。
🚀 编程能力:从"能用"到"真香"
这次Opus 4.7最核心的卖点就是编程能力的提升。但光说"提升了"不够直观,我们拿几个权威基准测试的数据来看看。
📊 核心编程基准测试对比
| 64.3% | +10.9个百分点 | ||
| 87.6% | +6.8个百分点 | ||
| 70% | +12个百分点 | ||
| 69.4% | +4个百分点 |
数据可能有点抽象,我换个说法:
SWE-bench Pro是拿GitHub上的真实issue让AI去修。64.3%的通过率意味着什么?你丢10个bug给它,它能独立搞定6到7个。而上一代只能搞定5个出头。听起来差距不大,但在工程实践中,这意味着代码审查的人工干预量可能直接砍掉三分之一。
更离谱的是Rakuten做的那组生产环境实测——Opus 4.7解决的问题是4.6的3倍。不是提升30%、50%,是翻了3倍。这已经不能用"迭代升级"来形容了,更像是一次质变。
SWE-bench Pro 对比
和GPT-5.4、Gemini 3.1 Pro比起来,Opus 4.7在编程这个垂直领域已经拉开了明显差距。SWE-bench Pro上领先GPT-5.4将近7个百分点,领先Gemini 3.1 Pro超过10个百分点。
👁️ 视觉能力:终于能看清屏幕了
如果你用过AI编程工具的截图分析功能,大概率被坑过:给它一张Figma设计稿或者终端截图,它经常"看个大概"就开始编——按钮位置不对、颜色认错、甚至直接把文字内容识别串了。
4.6时代的视觉分辨率大概在1568像素(长边),等效约115万像素。听起来不小,但放到4K屏幕、高密度设计稿面前,就跟拿老花镜看报纸似的——大字能看见,小字全糊。
Opus 4.7把这个数字拉到了2576像素,等效约375万像素,直接翻了3倍多。
📐 视觉分辨率对比
图像长边像素 · 等效像素总量
分辨率提升 3 倍+
数字翻3倍已经是挺夸张的事了,但真正让人眼前一亮的是视觉准确率的变化——
在XBOW视觉精度测试中,4.6只有54.5%的准确率,4.7直接飙到了98.5%。也就是说,以前两张截图有一张半可能会看错,现在二十张才可能错一张。
这意味着几个实际场景的体验会有质的变化:
⚡ 新能力:不止是"更聪明"
除了跑分更高,4.7还带来了一些实打实的新机制。
1. xhigh推理档位
4.6时代的推理强度分为low、medium、high、max四档。这次在high和max之间插了一个新的xhigh档位。
听起来像个无关紧要的调整?不是的。实际上,4.7的整条能力曲线都往上抬了一档——4.7的low能打过4.6的medium,4.7的medium能打过4.6的high,4.7的high已经超过了4.6的max。
所以xhigh的意义在于:当你遇到真正棘手的问题(比如跨文件重构、长时间Agent任务),现在有了一个性价比更高的选择——不用直接上最贵最慢的max,用xhigh就能获得接近的效果。
2. 自我验证机制
4.7引入了一个叫"自我验证"的能力。简单说就是:AI在输出结果之前,会先自己检查一遍,看有没有偏离原始需求。
这解决了一个很常见的痛点——你让AI修一个登录bug,结果它顺手把注册页面也重构了。4.7会更严格地按照字面意思执行指令,不"自作聪明"。
3. /ultrareview代码审查
Claude Code新增了这个命令,触发后会从头读取所有代码变更,标记bug和设计问题。Pro和Max用户各送3次免费体验。
4. Routines自动化
这个功能是跟4.7一起发布的Claude Code重磅更新。它让Claude可以变成一个"云端员工"——你配置好任务和触发条件,它就能7×24小时自动跑,不用你盯着。
触发方式有三种:定时(每晚自动扫issue)、API(接到告警自动修bug)、GitHub Webhook(PR一提交自动review)。合上电脑也能干活,这大概是每个程序员都想要的功能。
🔄 Opus 4.6 vs 4.7:到底升级了什么?
如果你在用4.6,值得换吗?我们列一个全面对比:
📋 完整功能对比
| 64.3% | ||
| 87.6% | ||
| 70% | ||
| 2,576px | ||
| 98.5% | ||
| 5档(+xhigh) | ||
| ✅ | ||
总结一下:编程更强、看得更清、想得更深、价格不变。4.6有的好东西(Context Compaction、128K输出、1M上下文)一个没丢。
唯一需要注意的"坑"是:4.7换了一套新的Tokenizer,同样一段代码切出来的token可能会多10%到35%。而且Claude Code默认把推理强度从high提到了xhigh,所以实际账单可能会悄悄涨一些。
⚠️ 升级前注意这几件事
🏆 三强争霸:Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro
2026年Q1的AI编程赛道,基本就是这三家在打。各自有各自的打法:
🎯 旗舰模型编程能力对比
简单总结就是:编程和Agent能力,Opus 4.7暂时领跑;性价比和上下文长度,Gemini 3.1 Pro有优势;桌面自动化操控,GPT-5.4最强。
有意思的是,在纯推理能力(GPQA Diamond)上,三家已经全部逼近94%——差距不到1个百分点。这意味着"谁能更好地思考"这个问题,已经不再是各家拉开差距的地方了。真正的战场转移到了"谁能更好地执行"。
💼 程序员该慌吗?
每次AI模型能力大幅提升,"程序员要失业了"的话题就会被拎出来讨论一轮。
这次Opus 4.7发布后,我翻了翻Hacker News和技术社区的讨论,有意思的是,大部分一线开发者的反应不是恐慌,而是——
"终于不用自己写那些重复性的CRUD代码了。""代码review可以让AI先过一遍,我只需要关注架构和业务逻辑。""能用工具提升效率的,为什么要手动干?"
更理性的看法是这样的:
初级重复工作会被加速替代
写增删改查接口、写单元测试、整理文档这类工作,AI确实越做越好。4.7修bug的能力已经接近初级工程师水平,SWE-bench Verified 87.6%的通过率不是开玩笑的。
对"工具链思维"的要求更高了
未来的程序员不太可能是"不用AI写代码"或"完全依赖AI写代码"的二选一。更现实的路径是:学会根据任务类型选择合适的工具——深度代码理解用Claude,快速原型用Cursor,复杂调试多模型交叉验证。
真正稀缺的是业务理解和架构能力
AI能帮你写出漂亮的代码,但它不知道你的用户真正想要什么,不知道你们的业务边界在哪,不知道技术债务该怎么还。这些东西还是得人来判断。
Anthropic自己说得挺坦诚的:Opus 4.7的核心逻辑不是比谁更会写诗、谁更能编故事,而是让AI在执行长链路、高难度的工程任务时变得足够靠谱。
翻译成人话就是:AI越来越擅长当你的"高级助手"了,但它还替代不了那个做决策的人。
说到底,编程这件事正在经历一次角色转变。
以前程序员是自己搬砖的人,以后程序员更像是
指挥AI搬砖的包工头。
砖搬得又快又好,但图纸还是得你画。
💡 实用建议:怎么用最划算?
最后给一些接地气的使用建议,不吹不黑:
✅ 建议直接升级的场景:
代码审查、bug修复、多文件重构、大型代码库理解、AI Agent自动化工作流、截图/图表/设计稿分析。
⏸️ 可以先观望的场景:
纯文本生成(Sonnet 4.6性价比更高)、对token成本敏感的高频调用、已有稳定4.6工作流且效果满意。
⚠️ 需要注意的:
如果你有线上跑着的自动化Prompt模板,别急着切——先小流量测试,确认4.7更"字面化"的指令遵循不会把你的流程搞崩。
对大多数写代码的人来说,Opus 4.7值得试。价格不变、能力全面提升、视觉体验质变,这波升级诚意是够的。
至于"程序员会不会失业"这个问题——
与其担心AI替代你,不如先学会用好AI。会用AI的程序员淘汰不会用AI的程序员,这个趋势已经很明显了。
—— END ——
数据来源:Anthropic官方博客、OfoxAI、袁慎建技术博客、腾讯新闻
文中数据截至2026年4月18日,以官方最新信息为准
觉得有用就点个「在看」吧 👀
关注我,持续追踪AI编程领域最新动态
夜雨聆风