乐于分享
好东西不私藏

AI越强,这道题越得0分?大模型的"死穴"藏不住了

AI越强,这道题越得0分?大模型的"死穴"藏不住了

最近,AI圈发生了一件让所有人都没想到的事。

在一项叫 ARC-AGI-3 的基准测试里,GPT-5.5、Opus 4.7——这两个当下最顶尖的大模型——加起来得分是个位数,而人类受试者随手就是满分100。

你没看错:最强AI集体挂科,小学生反而拿了满分。

这不是测试事故,这是一个认知警报。


为什么AI会在”简单题”上翻车?

先说一下 ARC-AGI-3 是什么。

它不是普通的考题,而是一个专门设计来测试通用智能边界的基准。题目看起来像小学语文——几段文字,一个日常场景,问你接下来会发生什么。

按理说,AI在代码生成、复杂推理上已经把人类甩了几条街,为什么卡在送分题上?

答案就两个字:常识

AI的核心能力是统计,它见过海量文本,能找到最可能出现的下一个词。但人类的常识不是统计出来的,是我们从小跟世界打交道长出来的。

你看到水管弯折,就知道水往哪流。AI不会,它得先学过这个物理规则才能推断。

这就是统计和常识的差距。


人类凭什么能满分?

ARC-AGI-3 的题目不需要微积分,也不需要热力学定律。考的都是我们习以为常的东西:

  • 一个人在门口弯腰系鞋带,你知道他要出门
  • 杯子里的水冒热气,你知道杯子是热的
  • 锤子敲钉子,你知道钉子往里走

三岁小孩都能推断,但AI不行。

因为人类的常识是具身的。 我们有身体,活在物理世界里,所有认知都跟身体绑定。我们不需要”学会”这些规则,我们就是”知道”。

AI没有身体,没在物理世界里生活过,它的知识全是从人类语言里二手传来的。有些东西文字传不了。


顺带说一句:AI分两种,别混着用

AI圈子里有个一直没说清楚的问题:

情绪价值型AI和生产工具型AI,根本不是一回事。

有些AI天生就是用来陪聊的,共情能力极强,说话温温柔柔,让你觉得被理解、被治愈。你跟它倾诉工作烦恼,它能给你安慰。这类AI越像人越好。

有些AI天生就是用来干活的,精准、高效、不知疲倦,帮你写代码、分析数据、生成文案。这类AI越不像人越好。

问题来了:混着用会怎样?

让一个生产工具陪你聊天,它会用”数据分析报告”的语气说”我理解你的感受,从统计学角度来看,你属于常见应激反应”——听起来对,但哪里不对。

让一个情绪陪伴AI帮你写商业提案,它用”亲爱的朋友”开头,结尾说”让我们一起拥抱这个美好的下午”——能看吗?不能。

混用的结果就是人格分裂。 你分不清这个AI到底是来干活的还是来陪聊的,更分不清它的建议是真专业还是在哄你开心。

工具就该当工具用,陪伴就该当陪伴用。别让AI干它不擅长的事,也别在正经工作里指望AI给你情感支持。


这个”0分”告诉我们什么?

好,回到那道让AI得0分的题。

它暴露的不是AI的能力上限,而是当前AI跟人类认知之间那条看不见的鸿沟。

任务迁移。 AI能解复杂方程,但答不对小学阅读理解。解方程是训练数据里见过无数次的,阅读理解需要”理解”——两个完全不同的能力。

常识推理。 人类靠直觉,AI靠统计。我们在物理世界里泡大了,自然就知道东西会往下掉。AI没有身体经验,常识永远有缺陷。

零样本学习的边界。 ARC-AGI-3 测的是AI能否像人类一样遇到全新规则时快速学会并泛化应用。人类看一两个例子就能提炼规律,AI需要海量数据,换个场景可能就失灵。

这三条线,就是AI目前的死穴。


所以,下次当你对着AI叹气的时候……

你有没有遇到过这种情况:

AI写文案行云流水,但你总觉得哪里不对——太完美了,完美到没有灵魂。
AI帮你分析数据,结论精准,但你问它”这个数据说明了什么趋势”,它又支支吾吾。
AI陪你聊天,温柔体贴,但你冷静下来一想,发现它其实什么都没说。

不是AI不够好,是AI也有它跨不过去的坎。

最强的大模型能在ARC-AGI测试里拿满分,不代表它真的懂这个世界。人类的常识、直觉、共情,是几百万年进化出来的底层能力,不是靠喂数据就能喂出来的。

别焦虑AI会取代你。有些东西,AI学不会。

学会用好AI的同时,也别忘了:你是人类,有些能力,是你天生的护城河。


这篇文章写给所有对AI好奇、焦虑、又舍不得放弃的人类。🦞