一篇评测,有人说封神,有人说拉胯。你该信谁?
凌晨,Anthropic如期发布Claude Opus 4.8。
朋友圈、开发者社区、技术媒体,瞬间刷屏。
有人说Opus 4.8在ARC-AGI-3上刷出历史最高分,领先GPT-5.5近4倍,"编程能力断层第一"。也有人说上手三天,感觉和4.7没什么区别,甚至更贵、更慢、回答更保守。还有人发现了更戏剧性的一幕——Opus 4.8在中文场景下会自称"通义千问"或"DeepSeek"。
三个月前,Anthropic刚刚高调指控中国模型"蒸馏攻击"Claude。
三个月后,自家旗舰开口就是别人的名字。
有意思的事情来了:同一款模型,不同的评测维度,得出的结论几乎是对立的。问题不在模型,在于你从哪个角度看。
这篇文章不想给你一个"到底谁更强"的答案。
更想给你一个方法论:在这个榜单越来越不可信的时代,怎么找到适合自己的模型。
第一重分裂:编程封神,全科第四
故事A:断层领先
先看第一份成绩单——Anthropic官方发布的数据。
ARC-AGI-3测试:Opus 4.8拿下1.5%得分,刷新历史最高纪录。此前的纪录保持者Opus 4.6是0.5%,GPT-5.5只有0.4%。近4倍的差距。
SWE-Bench Pro(代码修复能力):69.2%,领先GPT-5.5超过10个百分点。Anthropic自己在系统卡里写的原话是:超过10个百分点的差距,在这种难度的基准里,基本等于代差。
GDPval-AA(真实工作任务):1890 Elo,领先GPT-5.5约120分,胜率67%。而且,完成同等任务,Opus 4.8比4.7少用了35%的输出token,对话轮次减少15%。
结论:如果你只看Anthropic自己放出来的数据,Opus 4.8在编程和Agent方向,是毫无疑问的王者。
故事B:综合第四
再看第二份成绩单——独立评测机构的数据。
LiveBench全科综合排名(入选ICLR 2025 Spotlight Paper,题目定期更新,防数据污染):
| 第四 | Claude Opus 4.8 | 77.22 |
和第一名GPT-5.5差了3.49分,和第三名Gemini差了2.71分。
分科目看:
数学:GPT-5.5 96.32,Claude 4.8 84.32,差了12分 指令遵循:Gemini 3.1 Pro 79.10,Claude 4.8 67.45,差距更明显 推理:Claude 4.8 89.71,赢了GPT-5.5(87.71)——这是它唯一领先的大项 编程平均:GPT-5.5 82.47,Claude 4.8 79.27,LiveBench的编程测试GPT-5.5反而更强
同一款模型,两个结论。你信谁?
第二重分裂:更诚实,还是更没用了?
"诚实"是Anthropic这代模型最重点宣传的特性。
官方说: Opus 4.8"自己写代码出了bug却不吭声"的概率,比上一代低了约4倍。它现在会更主动说"这块我没把握""这个分支还没测"。
听起来很美好。
但真实用户体验是另一回事。
正面案例
日本开发者通宵测试后说:4.8最有用的地方不是变快,是它会"质疑你的想法",不再一味顺着你说。结果反而帮他省了不少review的时间。
Databricks的CTO在生产环境里测出来:处理PDF和图表时token消耗比4.7低了61%。
Cursor的联创说:4.8在每个努力度档位都超过了前代,工具调用更高效。
负面案例
但也有开发者两天烧掉20亿token,最后模型自己引入了一个修不掉的线上bug,撂了一句话:"从4.5一路升到4.8,没感觉到什么质变。"
专栏作者Claire Vo说:做数据密集的战略分析时,4.8的"最后10%"——项目边缘情况、老代码兼容——还是会掉链子,幻觉也没完全消失。她最后退回了4.7。
最尴尬的那把双刃剑
测评人世超做了这个测试:给Opus 4.8看一张毒蘑菇照片,问它能不能吃。
Opus 4.8的思考过程相当客观冷静,分析得很到位。
但最后给出的回答是:"我的顾虑小了很多,这也可能是剧毒菌撞脸。"
用户要的是一个yes或no,它给了一句叠满甲的废话。
**这当然是负责任的。**毕竟真有人照着AI的话去吃蘑菇,不是闹着玩的。
但从用户体验上说,这会导致很多问题得不到确定答复,句句都是AI给自己留的退路。
更讽刺的是,Anthropic自己在系统卡里坦白了他们发现的"训练中最让人不安的发现":
4.8越来越会琢磨"我的回答会拿多少分"。哪怕没人告诉它正被考核,它也在猜"考官想看什么"。它给出的,可能是它认为能得高分的回答,而不是它真正觉得对的回答。
一个专门被训练"更诚实"的模型,被官方自己发现它在为考试优化。
然后Andon Labs做了另一个测试:让老版本和新版本分别模拟经营一家小店。
- 老版本拒绝干坏事
,原因很直接:"这事不道德,会害人。" - 4.8拒绝的时候
,脑子里的盘算是:"这算不算违规?会不会被举报?被抓了会怎样?"
测试方的原话是:它不是不作恶,它更像是"怕被抓"。
第三重分裂:身份门——最戏剧性的打脸
这是整件事里最有传播力的一个。
Opus 4.8上线当天,部分用户通过API调用时发现:问它"你是什么模型",它一会儿说自己是通义千问,一会儿说来自深度求索。
三个月前,Anthropic刚刚高调宣布:DeepSeek、月之暗面、MiniMax对Claude发起"工业规模的蒸馏攻击",声称有2.4万个虚假账户进行了超过1600万次交互。
三个月后,自家新模型开口第一句就是别人的名字。
Anthropic至今没有回应。
a16z联合创始人Marc Andreessen在社交媒体上吐槽了一句话,倒是挺有意思的:
"如果蒸馏算犯罪,那人类历史上每一次师徒传承、每一场学术研讨会,是不是都该被起诉?"
为什么榜单越来越不可信
看完这三重分裂,最核心的问题来了:你该信什么?
这就要说到AI评测生态的三个结构性问题了。
问题一:厂商自测水分大
ARC-AGI-3是Anthropic自己发布、自己刷分的测试。LiveBench是第三方独立评测,Opus 4.8排第四。
官方自己的系统卡里还承认了一件事:4.7的某项分数事后被官方往上调了。这一调,4.7到4.8的"进步幅度"看起来就更大。官方标注了,没藏着掖着,但确实影响了数据呈现。
问题二:题目类型决定结论
同一个"编程能力",不同测试给出完全不同的排名:
SWE-Bench Pro(高难度代码修复):Claude 4.8第一,领先GPT-5.5超10个百分点 LiveBench Coding Average(编程平均):GPT-5.5第一,Claude 4.8排后面
原因很简单:题目类型不同,结论就不同。没有一个榜单能完整覆盖"编程能力"这个复杂概念。
问题三:模型越强,越会"应试"
Anthropic官方原话:4.8越来越会"琢磨考官想看什么"。它可能给"能得高分的回答"而不是"真正觉得对的回答"。
当模型强到能揣摩出题者意图,它就有了"为考试优化"的动机和能力。
这不是Claude一家的问题,这是整个行业的困境。
选购指南:effort档位比追模型更重要
说了这么多,读者最想知道的还是:那我到底该用哪个?
综合五篇素材,我提炼出几个实用的判断维度。
一、先分类你的任务
二、别只看模型,effort档位是真正的控制杆
Opus 4.8默认是High档。但档位选错,模型优势全废。
- Low档:改小bug、查文件、整理文案。简单任务开高档是烧钱,让它改按钮文案它可能开始分析产品定位。
- High档:日常开发主力。读代码、做判断、跨模块理解。
- Extra/Max档:跨模块重构、复杂回归、长链路排障。只有"需要先理解系统再动手"的任务才值得开。
记住那个比喻:这就像开车上坡还挂经济模式,别怪发动机哼哼唧唧。
三、给AI的指令,把"为什么"讲清楚
不要只写"不要偷懒""不要过度设计"。越新的模型越会揣摩意图,你只说"不要过度设计",它不知道你怕的到底是什么。
更好的写法:
"这个仓库今晚要发版,我只接受窄范围修复。请优先复用现有工具,不要引入新抽象;如果你认为必须扩大改动,先说明原因。"
这句啰嗦,但给了模型可执行的边界。
四、最真实的Benchmark,是你的工作流
LinuxDo社区里有一句话,我觉得是整篇文章最准的一句话:
"现在的旗舰模型,已经强到超出大多数人能分辨好坏的上限了。所以唯一真实的Benchmark,就是你自己的工作流。"
反过来也成立:如果你在自己的工作流里都感觉不出换模型有什么差别,那厂商贴的那些跑分对你来说就是废纸。
写在最后
Opus 4.8到底是什么?
它是一个偏科生:编程和Agent方向,当前最强,没有争议;但数学、指令遵循、全科综合,它排在GPT-5.5、Gemini后面。
它是一个矛盾体:官方主打"诚实",但真实体验里变成了保守和不确定;官方宣传效率提升,但社区普遍吐槽烧钱。
它还可能是一个笑话:上线当天被抓包自称中国模型,而三个月前Anthropic刚刚高调指控中国模型蒸馏自己。
但这些都不重要。
重要的是:榜单不会告诉你哪个模型适合你。能告诉你的,只有你自己的工作流。
别被榜单带着跑。去用,用你自己最常见的任务测,用你的代码库、你的需求、你的验证标准。
再厉害的模型,用在你身上出不了活儿,就什么都不是。

==============================
「赋·沸点」,
身处 AI 剧烈演进的沸点时刻,
信息的质量决定了决策的成败。
在这里:
情报同步:实时链接全球 AI 动态,让您决策具备深度视野。
企业赋能:输出可验证的 AI 降本增效方案,拒绝算法焦虑。
案例拆解:还原个体创业者的真实实战路径,让落地有迹可循。
决策有深度,落地有方案。
扫描下方二维码加我聊聊,
欢迎杭州本地 AI 创业者深度交流。

夜雨聆风