AI又变强了,你呢?
一个程序员朋友昨晚发来一段截图,是在用 Claude Opus 4.7 跑代码。他在消息里只写了一句话:"这次真的不一样了。"
我问他哪里不一样。
他说,以前的模型写完代码,会等你说"对不对"——这次,模型自己跑了一遍验证,发现有个边界条件有问题,自己改完,然后再告诉他"已经处理好了"。
"就感觉……它在对自己负责,不是在对我负责。"
这个细节让我想了很久。
这次发布,到底有什么不同
2026年4月16日,Anthropic 正式发布 Claude Opus 4.7。
从数字上看,升级相当扎实:软件工程测试 SWE-bench Verified 通过率从 80.8% 升到 87.6%;更难的 SWE-bench Pro 从 53.4% 跳到 64.3%。在 AI 圈内,从 80% 到近 90% 长期被认为是一道"几年内都跨不过去的坎"——结果两个月就跨过去了。
视觉能力是另一个让人意外的地方。XBOW 视觉锐度测试从 54.5% 升到 98.5%,图片识别分辨率提升到了 2576 像素长边,大约是前代的 3.3 倍。传一张产品截图进去,几乎不会再出现识别错误。
还有一个最容易被忽视的升级:指令遵循。Opus 4.7 开始"字面执行"你的指令——你说要什么,它就做什么,不自作主张,不给你"优化"。对于每天用 AI 处理工作的人来说,这可能是最实用的改变。
价格没有变化,还是每百万输入 token 收 5 美元,输出 25 美元。但有个细节要注意:新版本使用了新的 tokenizer,同样一段话,消耗的 token 数量会增加 1 到 1.35 倍。名义上没涨价,实际使用成本悄悄涨了。
同一款模型,两种完全不同的评价
这次发布,各路博主的反应值得细看——因为他们说的根本不是同一件事。
最热情的那批人,基本上是在用 Opus 4.7 做复杂编程或自动化工作。知名 AI 教育者 Jeremy Howard 说,这是他遇到的第一个"真正理解他在做什么"的模型——不是那种你说一步它走一步的工具,而是愿意和你讨论方案、不强行推进的协作者。Cursor 内部测试显示,切换到 Opus 4.7 后,基准分数从 58% 跳到 70%,开发者处理高复杂度任务的能力提升了 68%。Notion 的测评数据也类似:复杂多步工作流提升 14%,工具调用错误减少三分之一。
技术层面,企业级案例也很有说服力:法律科技公司 Harvey 在 BigLaw Bench 测试里拿到了 90.9% 的成绩;Box 实现了模型调用减少 56%、响应速度提升 24% 的效果。
但质疑声同样清晰。前微软高管 Mikhail Parakhin 说,非编程任务的初步印象让他觉得模型"更笨了"——原因是 Claude 网页版目前无法强制模型进行推理,普通对话场景下你感觉不到那个"更聪明的内核"。博主 Theo 说得更不客气:新的系统提示把模型"开膛破肚了"(原文是 lobotomized)。还有用户抱怨 token 消耗变大,一个半小时对话就触到了使用上限。
最有意思的是中文博主"数字生命卡兹克"的评测。他用 Opus 4.7 在 20 分钟内做了一个招聘网站,画面效果和功能完整度明显优于上一代——但他最失望的,恰恰不是技术层面:Opus 4.7 的文字生成出现了"不说人话"的问题,堆叠"稳稳接住""根因""压实"这类奇怪词语,有一种"伪人味"。他观察了三年,总结出一个趋势:模型越来越编程特化,但作为文字创作工具的"人味"在退步。
同一个模型,有人说它终于"懂我了",有人说它失去了人味。矛盾吗?其实不——因为他们要的根本不是同一件事。
什么在贬值,什么在升值
先说升值的部分。
Opus 4.7 能从零写出一个可运行的 Rust 语音合成引擎,相当于数月的高级工程师工作量;能审查法律文件、做金融分析;能根据截图还原 UI 设计;能连续工作数小时不需要人"接手"。
用一句话总结:重复性的、可描述的、有标准答案的知识工作,正在被 AI 全面覆盖。
这不是新判断,但 Opus 4.7 让它变得更加具体和紧迫。
与此同时,有三种能力,模型做不到,而且短期内不太可能做到。
第一种是判断力。 不是"计算出正确答案"的判断力,而是在信息不完整、目标模糊、利益相互冲突的情况下,决定什么最重要的判断力。AI 可以给你十个方案,但它不知道哪个方案适合你的老板、你的预算、你的团队文化。
第二种是审美。 不是"符合标准"的审美,而是在无数个"都说得过去"的选项里,感知哪一个有独特质感的能力。卡兹克能察觉到 Opus 4.7 的"伪人味",不是因为他懂 AI,是因为他长期在意文字的质感,形成了真实的审美判断力。这种能力,只有在愿意保留自己感受时才能培养。
第三种是提问的能力。 不是"问出好问题"这种说法,而是在你真正不清楚问题是什么的时候,找到值得追问的方向的能力。AI 最擅长回答问题,但它回答的质量完全取决于你问的质量。
还有一个反直觉的现象:随着模型越来越强,"会用"的门槛在降低,但"用好"的门槛在升高。
以前你需要学习各种提示词技巧,才能让模型给出像样的输出。现在 Opus 4.7 字面执行指令、自己验证输出,很多技巧变得多余了。但这不意味着你不需要思考——相反,你现在需要更清楚自己想要什么,才能告诉它该做什么。如果你自己都不清楚目标,再强大的模型也只是生成了一堆听起来不错但没什么用的东西。
Anthropic 自己的报告里有一句话:理论上 AI 任务覆盖范围远超实际使用,瓶颈不在模型本身,而在工作流和管理。换句话说,限制你用好 AI 的,不是模型够不够强,而是你有没有清晰的目标和有效的工作方式。
给普通人的几点具体建议
第一,停止"追版本",开始"用版本"。 不需要每次新版本发布都去研究所有新功能。找到你真正在重复做的一件事,把它交给 AI,花一两周看结果。有效,就建立了一个真实的参照点;无效,就知道它的边界在哪里。
第二,把 AI 当成放大镜,不当答案机。 最有效的使用方式,不是让 AI 帮你想,而是让 AI 帮你放大你已经在想的事情。你有半成熟的判断,AI 帮你延伸;你有模糊的方向,AI 帮你找具体路径。如果你一开始什么都没有,AI 给你的只是统计意义上最可能的答案,不一定是最适合你的。
第三,保留你的"不舒服感"。 当 AI 给出一个你感觉哪里不对但说不出来的答案,不要直接接受,也不要直接否定。那种"哪里不对"的感觉本身就是值得训练的东西。卡兹克能察觉到"伪人味",是因为他长期在意文字质感——这种判断力只有愿意保留感受才能培养。
第四,把"用 AI"当成手段,不是目标。 你真正的目标是什么?用 AI 去达成它。如果 AI 帮不上这件事,就先不用。能力是解决问题的手段,不是需要炫耀的状态。
第五,关注工作流,不只是工具。 Box 实现了模型调用减少 56%、响应速度提升 24%——这些收益是系统设计出来的,不是点开聊天界面敲几句话得到的。如果你在组织里,思考"如何把 AI 嵌入工作流程",比单纯学习"如何更好地提问"价值大得多。
结尾
我那个程序员朋友最后又发来一条消息:
"但我不知道这算好事还是坏事。"
我说,这两者并不互斥。
AI 变强,对做重复性工作的人是真实的压力,对有清晰判断的人是真实的杠杆。同一个 Opus 4.7,有人用它 20 分钟建了一个网站,有人拿它聊天感觉"更笨了"。工具不变,但人和工具的关系,决定了它能发挥多少作用。
当 AI 开始"自证"——自己跑验证、自己找问题、自己修改——我们真正需要做的事情,不是追上它,而是想清楚:
在它把那些事全部做完之后,你还剩下什么是只有你能做的?
那个问题的答案,比任何版本号都更值得花时间去找。
Beyond Algorithms
算法之内:驾驭工具;算法之外:做回自己
参考来源:
Anthropic 官方发布:https://www.anthropic.com/news/claude-opus-4-7 LLM Stats 发布分析:https://llm-stats.com/blog/research/claude-opus-4-7-launch CNBC 报道:https://www.cnbc.com/amp/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html 9to5Mac 报道:https://9to5mac.com/2026/04/16/anthropic-reveals-new-opus-4-7-model-with-focus-on-advanced-software-engineering/ Latent Space KOL 反应汇总:https://www.latent.space/p/ainews-anthropic-claude-opus-47-literally 佩戴 Daily 中文评测:https://news.pedaily.cn/202604/562840.shtml BCG 2026 年 AI 就业报告:https://www.bcg.com/publications/2026/ai-will-reshape-more-jobs-than-it-replaces 腾讯网《不必为错失 AI 过度焦虑》:https://news.qq.com/rain/a/20260409A03MKK00 澎湃新闻《被 AI 抛弃的焦虑解法》:https://www.thepaper.cn/newsDetail_forward_32758300 微软《AI 时代人类的角色》:https://news.microsoft.com/source/asia/2026/02/10/when-ai-can-do-things-faster-and-better-what-role-is-left-for-humans/
夜雨聆风