马斯克说中国AI明年才能追上Fable 5,但真的“分水岭”是这个
抓住风口,看懂趋势
你好,我是王煜全,这里是王煜全要闻评论。
最近,全国不少省份都在中考或即将开考。都说东亚人最会考试,但没想到,这个应试思维也被带到了AI领域。几天前,X平台上有人问马斯克,中国大模型大概什么时候能达到Anthropic Claude Fable 5的水平?马斯克回了一句,大概2027年一季度。但很快,中国某AI公司的创始人就回应:不需要那么久。之后,马斯克补充道,如果只看benchmark,也就是基准测试,也许会更快;但如果按真实世界实用性来衡量,2027年一季度追上也已经很厉害了。也就是说,马斯克同意中国大模型公司能快速考出好成绩,但不一定能应对真实世界的需求。这跟大家常说的伪学霸“高分低能”几乎是一回事。现在,中国的一部分大模型好像也获得了这样的标签。但我们认为,所谓“追上 Fable 5”,其实是个伪命题,而且也没有必要。很明显,随着Fable 5的出现,AI的“刷题时代”已经结束,追不追上Fable 5已经不重要了,重要的是,你的AI是否能真正成为生产力。
是Deep Research,即深度研究?还是编程?或者是长程任务?是看单个任务还是复杂任务?是要求成本相同,还是不计成本?是单模型还是多模型编队?标准不同,结论完全不同。第一个是OpenRouter Fusion的DRACO测试。在这个测试中,把Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro编在一起跑深度研究类问题,得分已经接近Fable 5,说明多模型协作能提高深度研究的答案质量。第二个是FrontierSWE,测的是几小时到十几小时级别的复杂任务,包括系统优化、大型代码构建、应用机器学习研究。在这个测试里,智谱的GLM-5.2得分排名前列,只稍微落后Claude和GPT。第三个,是AA-Briefcase,是Artificial Analysis新出的长程任务测试。在这个测试中,智谱的GLM-5.2也仅在Claude Fable 5、Claude Opus 4.8之后,排名第三,已经进入长程工程的第一梯队。只看这些成绩,当然可以说,国产模型将很快追上Fable 5。可是,这里面的最大问题是,你有高分,但为什么开发者们还是首选Claude或GPT,而不把你当首选模型呢?为什么只是在需要省钱的时候才会考虑试一试?这里面的原因,可能连我们自己的大模型公司都说不清,或不敢明说。但这至少说明了一点,这些测试的分数只能证明你不差,却没办法量化你和最领先模型在真实世界中的表现还有多大差距。
不应该总是对标所谓最强模型,更不是看哪个测试的分数更高一点,我们想强调的是,要有终局思维。比如,如果能证明你的AI模型可以把脑力劳动变成可执行、可监督、可纠错的自动化流程,就是一个重要的阶段性节点。我们一直有一个判断,工业时代,机器把体力劳动自动化;AI时代,大模型以及AI Agent就是要把脑力劳动自动化。这就像是,工业化的终极目标,是打造完全自动化的生产线,整个产线上完全不需要人的参与,从头到尾完全由机器负责执行,人只是这个生产线的设计者和监督者,以及在出现错误时作为介入者。未来,在各类脑力劳动中,人类也将从具体的执行中解放出来,变成智能系统的设计者、监督者、验收者和异常处理者。这次Fable 5的革命之处,其实也并不完全在于比其他模型聪明多少,而是在于它能让整个工作流程持续推进,不会总出错,或者说出错了也会自我修复,直到交付最终结果,而且整个过程不太需要人的参与。其中要克服的,大多是工程性难题,比如如何降低幻觉率,如何把任务拆解,还有工具调用,任务执行,以及把结果验证的流程内化到模型之中等等。这个时候,中国模型如果还在一心刷榜,想用分数来证明自己,无疑就像是别人已经走上工作岗位、靠解决真实难题而赚到钱了,你却还在用高考成绩证明自己是个所谓的人才。
那中国模型可以怎么做呢?我们也在这儿提一些不成熟的想法,供大家参考。既然已经看到,中国AI模型真正要证明的是自己具有生产力,就不应该只追别人的榜单,我们自己也可以拿出可检验的生产力标准。这就像是,考试只能证明你是个比较聪明认真的学生,榜单回答的也只是你的模型比较聪明,但无法向企业和开发者证明你能很好地把活干了。我们觉得,这套生产力标准应该至少能向别人表明三件事。第一,我们的模型能听懂任务、拆解任务、并自主执行任务。能听懂是第一步,能拆解是“会干活”的基础,能自主执行是从AI助手到自动化生产线的跨越。第二,还要证明,我们的模型能不断降低人在整个生产流程中的介入水平。比如过程能否追踪、错误率能否不断下降,特别是能否自主修复错误。这不仅是证明你能写文章、画画、做视频、写代码,更是要证明你能解决哪些实际问题、能替代多少人工环节、能创造多少商业价值。我想,把这些数字和相关案例拿出来,比任何测试都有说服力。因为所有要用AI的企业,其实不关心你在榜单排第几,它们只关心你是否稳定、能替代多少工作、能创造多少价值。我们觉得,只要中国的AI模型,能坚持朝着“把脑力劳动做成自动化生产线”的这个方向不断突破,证明自己已经能在真实世界里大幅提高生产力,就不用去证明自己是否超过Fable 5,也不用费劲去跟马斯克打嘴仗,也会得到大家的认可和应用。最后,也想做个小调研,你觉得中国AI模型和Claude以及GPT这些前沿模型差距大不大?可否分享一下你的具体案例?
以上就是今天的内容,最后,提醒一下,科技特训营十周年了,7月1号我们将上线AI王煜全,特训营也将随之涨价到7999元。但6月15号到30号报名或续费特训营,将额外获赠2个月学时,并同时享受AI王煜全权益。快快加入科技特训营吧,和我一起,先人一步,领先一路!最后,鉴于公众号推送机制的改变,你未来刷到要闻评论的机会可能没那么多了,建议你加入粉丝群,第一时间得到我的独家前沿分析,快快扫码加入吧!推荐阅读:
大革命中不要占小山头!前哨大会2025,带你看懂AI时代的成功法则
别再迷信万亿参数!2026年你该关心的,是让AI“乖乖干活”【深度】
从“帮你查”到“帮你做”,带你看懂AI的下个千亿美元机会【新年特辑】
未来三年,AI停止聊天开始干活!新黄金时代正式开启【春节致辞】
↓点击报名前哨AI夏令营,带孩子赶上Agent浪潮!