AI越强,这道题越得0分?大模型的"死穴"藏不住了
“ 最近,AI圈发生了一件让所有人都没想到的事。
在一项叫 ARC-AGI-3 的基准测试里,GPT-5.5、Opus 4.7——这两个当下最顶尖的大模型——加起来得分是个位数,而人类受试者随手就是满分100。
你没看错:最强AI集体挂科,小学生反而拿了满分。
这不是测试事故,这是一个认知警报。
为什么AI会在”简单题”上翻车?
先说一下 ARC-AGI-3 是什么。
它不是普通的考题,而是一个专门设计来测试通用智能边界的基准。题目看起来像小学语文——几段文字,一个日常场景,问你接下来会发生什么。
按理说,AI在代码生成、复杂推理上已经把人类甩了几条街,为什么卡在送分题上?
答案就两个字:常识。
AI的核心能力是统计,它见过海量文本,能找到最可能出现的下一个词。但人类的常识不是统计出来的,是我们从小跟世界打交道长出来的。
你看到水管弯折,就知道水往哪流。AI不会,它得先学过这个物理规则才能推断。
这就是统计和常识的差距。
人类凭什么能满分?
ARC-AGI-3 的题目不需要微积分,也不需要热力学定律。考的都是我们习以为常的东西:
-
一个人在门口弯腰系鞋带,你知道他要出门 -
杯子里的水冒热气,你知道杯子是热的 -
锤子敲钉子,你知道钉子往里走
三岁小孩都能推断,但AI不行。
因为人类的常识是具身的。 我们有身体,活在物理世界里,所有认知都跟身体绑定。我们不需要”学会”这些规则,我们就是”知道”。
AI没有身体,没在物理世界里生活过,它的知识全是从人类语言里二手传来的。有些东西文字传不了。
顺带说一句:AI分两种,别混着用
AI圈子里有个一直没说清楚的问题:
情绪价值型AI和生产工具型AI,根本不是一回事。
有些AI天生就是用来陪聊的,共情能力极强,说话温温柔柔,让你觉得被理解、被治愈。你跟它倾诉工作烦恼,它能给你安慰。这类AI越像人越好。
有些AI天生就是用来干活的,精准、高效、不知疲倦,帮你写代码、分析数据、生成文案。这类AI越不像人越好。
问题来了:混着用会怎样?
让一个生产工具陪你聊天,它会用”数据分析报告”的语气说”我理解你的感受,从统计学角度来看,你属于常见应激反应”——听起来对,但哪里不对。
让一个情绪陪伴AI帮你写商业提案,它用”亲爱的朋友”开头,结尾说”让我们一起拥抱这个美好的下午”——能看吗?不能。
混用的结果就是人格分裂。 你分不清这个AI到底是来干活的还是来陪聊的,更分不清它的建议是真专业还是在哄你开心。
工具就该当工具用,陪伴就该当陪伴用。别让AI干它不擅长的事,也别在正经工作里指望AI给你情感支持。
这个”0分”告诉我们什么?
好,回到那道让AI得0分的题。
它暴露的不是AI的能力上限,而是当前AI跟人类认知之间那条看不见的鸿沟。
任务迁移。 AI能解复杂方程,但答不对小学阅读理解。解方程是训练数据里见过无数次的,阅读理解需要”理解”——两个完全不同的能力。
常识推理。 人类靠直觉,AI靠统计。我们在物理世界里泡大了,自然就知道东西会往下掉。AI没有身体经验,常识永远有缺陷。
零样本学习的边界。 ARC-AGI-3 测的是AI能否像人类一样遇到全新规则时快速学会并泛化应用。人类看一两个例子就能提炼规律,AI需要海量数据,换个场景可能就失灵。
这三条线,就是AI目前的死穴。
所以,下次当你对着AI叹气的时候……
你有没有遇到过这种情况:
AI写文案行云流水,但你总觉得哪里不对——太完美了,完美到没有灵魂。
AI帮你分析数据,结论精准,但你问它”这个数据说明了什么趋势”,它又支支吾吾。
AI陪你聊天,温柔体贴,但你冷静下来一想,发现它其实什么都没说。
不是AI不够好,是AI也有它跨不过去的坎。
最强的大模型能在ARC-AGI测试里拿满分,不代表它真的懂这个世界。人类的常识、直觉、共情,是几百万年进化出来的底层能力,不是靠喂数据就能喂出来的。
别焦虑AI会取代你。有些东西,AI学不会。
学会用好AI的同时,也别忘了:你是人类,有些能力,是你天生的护城河。
这篇文章写给所有对AI好奇、焦虑、又舍不得放弃的人类。🦞
夜雨聆风