马斯克说中国AI明年才能追上Fable 5,但真的“分水岭”是这个

抓住风口，看懂趋势

本期要点：真正该比的不是榜单

你好，我是王煜全，这里是王煜全要闻评论。

最近，全国不少省份都在中考或即将开考。都说东亚人最会考试，但没想到，这个应试思维也被带到了AI领域。

几天前，X平台上有人问马斯克，中国大模型大概什么时候能达到Anthropic Claude Fable 5的水平？

马斯克回了一句，大概2027年一季度。但很快，中国某AI公司的创始人就回应：不需要那么久。

之后，马斯克补充道，如果只看benchmark，也就是基准测试，也许会更快；但如果按真实世界实用性来衡量，2027年一季度追上也已经很厉害了。

也就是说，马斯克同意中国大模型公司能快速考出好成绩，但不一定能应对真实世界的需求。

这跟大家常说的伪学霸“高分低能”几乎是一回事。现在，中国的一部分大模型好像也获得了这样的标签。

但我们认为，所谓“追上 Fable 5”，其实是个伪命题，而且也没有必要。

很明显，随着Fable 5的出现，AI的“刷题时代”已经结束，追不追上Fable 5已经不重要了，重要的是，你的AI是否能真正成为生产力。

分数之争

为什么说“追上 Fable 5”是伪命题？

因为这个说法既没法被证明，也没法被证伪。

比如，你究竟看哪个benchmark？

是Deep Research，即深度研究？还是编程？或者是长程任务？是看单个任务还是复杂任务？是要求成本相同，还是不计成本？是单模型还是多模型编队？标准不同，结论完全不同。

目前比较受关注的是三个新测试。

第一个是OpenRouter Fusion的DRACO测试。

在这个测试中，把Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro编在一起跑深度研究类问题，得分已经接近Fable 5，说明多模型协作能提高深度研究的答案质量。

第二个是FrontierSWE，测的是几小时到十几小时级别的复杂任务，包括系统优化、大型代码构建、应用机器学习研究。

在这个测试里，智谱的GLM-5.2得分排名前列，只稍微落后Claude和GPT。

第三个，是AA-Briefcase，是Artificial Analysis新出的长程任务测试。在这个测试中，智谱的GLM-5.2也仅在Claude Fable 5、Claude Opus 4.8之后，排名第三，已经进入长程工程的第一梯队。

只看这些成绩，当然可以说，国产模型将很快追上Fable 5。

可是，这里面的最大问题是，你有高分，但为什么开发者们还是首选Claude或GPT，而不把你当首选模型呢？为什么只是在需要省钱的时候才会考虑试一试？

这里面的原因，可能连我们自己的大模型公司都说不清，或不敢明说。

但这至少说明了一点，这些测试的分数只能证明你不差，却没办法量化你和最领先模型在真实世界中的表现还有多大差距。

终局

那该如何证明你的实力呢？

不应该总是对标所谓最强模型，更不是看哪个测试的分数更高一点，我们想强调的是，要有终局思维。

比如，如果能证明你的AI模型可以把脑力劳动变成可执行、可监督、可纠错的自动化流程，就是一个重要的阶段性节点。

我们一直有一个判断，工业时代，机器把体力劳动自动化；AI时代，大模型以及AI Agent就是要把脑力劳动自动化。

这就像是，工业化的终极目标，是打造完全自动化的生产线，整个产线上完全不需要人的参与，从头到尾完全由机器负责执行，人只是这个生产线的设计者和监督者，以及在出现错误时作为介入者。

未来，在各类脑力劳动中，人类也将从具体的执行中解放出来，变成智能系统的设计者、监督者、验收者和异常处理者。

这次Fable 5的革命之处，其实也并不完全在于比其他模型聪明多少，而是在于它能让整个工作流程持续推进，不会总出错，或者说出错了也会自我修复，直到交付最终结果，而且整个过程不太需要人的参与。

其中要克服的，大多是工程性难题，比如如何降低幻觉率，如何把任务拆解，还有工具调用，任务执行，以及把结果验证的流程内化到模型之中等等。

这个时候，中国模型如果还在一心刷榜，想用分数来证明自己，无疑就像是别人已经走上工作岗位、靠解决真实难题而赚到钱了，你却还在用高考成绩证明自己是个所谓的人才。

中国标准

那中国模型可以怎么做呢？我们也在这儿提一些不成熟的想法，供大家参考。

既然已经看到，中国AI模型真正要证明的是自己具有生产力，就不应该只追别人的榜单，我们自己也可以拿出可检验的生产力标准。

这就像是，考试只能证明你是个比较聪明认真的学生，榜单回答的也只是你的模型比较聪明，但无法向企业和开发者证明你能很好地把活干了。

我们觉得，这套生产力标准应该至少能向别人表明三件事。

第一，我们的模型能听懂任务、拆解任务、并自主执行任务。

能听懂是第一步，能拆解是“会干活”的基础，能自主执行是从AI助手到自动化生产线的跨越。

第二，还要证明，我们的模型能不断降低人在整个生产流程中的介入水平。

比如过程能否追踪、错误率能否不断下降，特别是能否自主修复错误。

第三，就是生产力能否量化。

这不仅是证明你能写文章、画画、做视频、写代码，更是要证明你能解决哪些实际问题、能替代多少人工环节、能创造多少商业价值。

我想，把这些数字和相关案例拿出来，比任何测试都有说服力。

因为所有要用AI的企业，其实不关心你在榜单排第几，它们只关心你是否稳定、能替代多少工作、能创造多少价值。

我们觉得，只要中国的AI模型，能坚持朝着“把脑力劳动做成自动化生产线”的这个方向不断突破，证明自己已经能在真实世界里大幅提高生产力，就不用去证明自己是否超过Fable 5，也不用费劲去跟马斯克打嘴仗，也会得到大家的认可和应用。

最后，也想做个小调研，你觉得中国AI模型和Claude以及GPT这些前沿模型差距大不大？可否分享一下你的具体案例？

以上就是今天的内容，最后，提醒一下，科技特训营十周年了，7月1号我们将上线AI王煜全，特训营也将随之涨价到7999元。但6月15号到30号报名或续费特训营，将额外获赠2个月学时，并同时享受AI王煜全权益。

快快加入科技特训营吧，和我一起，先人一步，领先一路！

王煜全要闻评论，我们明天见。

↓长按图片扫码报名，先人一步，领先一路

最后，鉴于公众号推送机制的改变，你未来刷到要闻评论的机会可能没那么多了，建议你加入粉丝群，第一时间得到我的独家前沿分析，快快扫码加入吧！