AI终于学会＂自己检查作业＂了:Claude 4.7发布,我用了一整天说点真话

AI终于学会自己检查作业了：我拿Claude 4.7折腾了一整天

4月17日凌晨，Anthropic悄咪咪发了Claude Opus 4.7。

说实话，我当时困得不行，想着瞄两眼就睡。结果翻完技术文档，直接清醒了——这次不是挤牙膏，三个维度都有实打实的跨步：编程、长任务、还有最亮眼的“自主检查”。

我平时天天跟AI打交道，第二天花了一整天实测。下面不吹不黑，聊点真实感受。

一、到底升级了啥？

官方给了三个核心点，我挨个说。

1. 编程能力涨了11%，超过了GPT-5.4

数据摆出来：

SWE-bench Pro编程测试：64.3%，比上一代高了近11个点
工具调用评测：77.3%，领先GPT-5.4和Gemini 3.1 Pro
错误自我修复率：80%（写错了能自己改回来）

翻译成大白话：Claude现在不光能写代码，还能处理复杂的长任务，并且交作业前自己先检查一遍。

2. 看图能力提升了3倍

我拿了一张密密麻麻的财务报表截图试了试——10个季度的数据全对，它还主动标了一句“Q2利润为负值，可能是季节性波动”。

这种“主动发现问题”的本事，以前没见过。

3. 新增“自主检查”功能（最值得聊）

以前的AI，任务做完就直接扔给你，里面有没有坑你要自己找。

Opus 4.7不一样。它会主动对自己的输出做逻辑检查，发现矛盾、数值错误、推理漏洞，然后修正完再给你。

有个早期测试者分享的例子：一个复杂的代码重构任务，Claude不仅改完了功能，还自己发现了一个隐藏的边界条件错误——原始需求里根本没提，但特定输入下会崩溃。它顺手修了，还附了说明。

这种行为，过去的AI做不到。

二、我实测了三个场景，结果差别挺大

场景1：让AI独立写个小程序 —— 通过

我让它写一个“每日待办事项管理器”网页。

以前用其他AI：写完一堆报错，来回改五六次才能跑。

Opus 4.7：写完自动跑了一遍，发现有个按钮没绑定事件，自己改了，然后告诉我“我测试过了，可以用”。

我一行代码没写，一个bug没帮它改。

结论：编程确实是这次最大亮点，非程序员也能用AI做出能跑的东西。

场景2：丢一张复杂报表截图让它分析 —— 通过

10个季度数据的财务报表，提取+趋势分析。

全部正确，还主动标注了负利润季度。

结论：看图能力提升很大，看报表、设计稿、截图精度高了不少。

场景3：让它写一篇自媒体文章 —— 勉强及格

我给了和这篇文章一样的选题，让它自己写。

写出来有框架、有数据、逻辑也顺，但读起来就是一股“AI味”。

开头“随着……的发展”，结尾“让我们拭目以待”，中间“首先……其次……最后”。

结论：文案能力有进步，但离“像人写的”还差得远，得自己润色。

三、Claude Code的渗透速度比我想的快

跟Opus 4.7一起上线的还有Claude Code的重大更新：

/ultrareview命令：专门做代码审查，逐行查语法、可维护性、安全性、性能
Auto模式扩展到Max用户：减少人工确认中断，长任务跑得更顺
任务预算功能公测：开发者可以限定“最多消耗多少token”，成本终于可控了

有个数据挺有意思：Claude Code在全球代码提交中的占比已经达到单日4%。

也就是说，全球每天大约4%的代码提交，有Claude Code辅助。半年前这个数字还接近于零。

这说明AI编程已经从“实验性玩具”变成了“生产力工具”。对开发者来说，你得学会跟AI协作，而不是跟它竞争。

四、普通人最该关注哪个能力？

直接说答案：编程能力。

为啥？因为这是唯一能直接帮你赚钱的。

AI编程：适合所有人，能接外包、做小工具、做网站，难度两颗星
AI视觉分析：适合数据或设计从业者，间接提高效率，难度三颗星
AI创作：适合自媒体/运营，但需要大量人工润色，难度一颗星

你可能想说“我不会编程啊”——

2026年了，编程早不是程序员的专利。

就像20年前你会用Word打字就算“懂电脑”，现在你会用AI写代码，就算“懂数字工具”。

Claude Opus 4.7这次升级最大的意义是：你不需要会编程，只需要会描述需求。

五、给普通人的三条实在建议

不用急着掏钱升级

Opus 4.7定价没变。如果你已经在用Claude Pro，直接就能用。没用过的，先试试免费版，觉得有用再升级。

从小需求开始试水

别一上来就让AI写个完整APP。先试这些：

写个自动整理Excel的小工具
写个批量重命名文件的脚本
写个简单的个人网页

门槛真没你想的那么高。

重点用它的“自检”功能

Opus 4.7最大的变化就是它会自己检查。你让它做完事后，多问一句“你检查过了吗？有没有bug？”——它会认真自查一遍。

这功能用好了，能省下大量返工时间。

六、泼点冷水吧

三个不推荐做的事：

别拿它做专业领域的绝对判断——医疗、法律、财务等建议，仅供参考，不能替代真人专家。
别指望一次性出完美作品——无论代码还是文章，AI的第一版都不完美，但它给了你一个“能跑”的起点。
注意token消耗——官方说分词器更新后，token消耗是之前的1.0到1.35倍。长任务要盯着点用量。

最后说几句感受

Claude Opus 4.7这次有几个信号挺值得琢磨：

第一，“自主检查”能力的出现很关键。这不是简单的功能升级，而是AI从“执行工具”向“协作伙伴”演化的一个标志。未来的AI助手，不光帮你干活，还会帮你把关。

第二，Claude Code的渗透速度吓人。4%的全球代码提交占比，意味着AI编程已经扎进真实生产环境了。

第三，价格战还没打完。微软同一天把图像生成价格砍了41%，Anthropic选择用能力提升来竞争。两条路都能走通，就看服务谁。

AI竞赛还在继续，下一个惊喜会是什么？我不知道。但我知道一件事：学会用AI的人，永远比拒绝AI的人更有竞争力。

就说这么多，大家都有什么想法？欢迎聊聊。

点赞关注AI智能体小队，每天与你分享最新AI动向