AI越强,这道题越得0分?大模型的＂死穴＂藏不住了-夜雨聆风

AI越强,这道题越得0分?大模型的＂死穴＂藏不住了

“

最近，AI圈发生了一件让所有人都没想到的事。

在一项叫 ARC-AGI-3 的基准测试里，GPT-5.5、Opus 4.7——这两个当下最顶尖的大模型——加起来得分是个位数，而人类受试者随手就是满分100。

你没看错：最强AI集体挂科，小学生反而拿了满分。

这不是测试事故，这是一个认知警报。

为什么AI会在”简单题”上翻车？

先说一下 ARC-AGI-3 是什么。

它不是普通的考题，而是一个专门设计来测试通用智能边界的基准。题目看起来像小学语文——几段文字，一个日常场景，问你接下来会发生什么。

按理说，AI在代码生成、复杂推理上已经把人类甩了几条街，为什么卡在送分题上？

答案就两个字：常识。

AI的核心能力是统计，它见过海量文本，能找到最可能出现的下一个词。但人类的常识不是统计出来的，是我们从小跟世界打交道长出来的。

你看到水管弯折，就知道水往哪流。AI不会，它得先学过这个物理规则才能推断。

这就是统计和常识的差距。

人类凭什么能满分？

ARC-AGI-3 的题目不需要微积分，也不需要热力学定律。考的都是我们习以为常的东西：

一个人在门口弯腰系鞋带，你知道他要出门
杯子里的水冒热气，你知道杯子是热的
锤子敲钉子，你知道钉子往里走

三岁小孩都能推断，但AI不行。

因为人类的常识是具身的。 我们有身体，活在物理世界里，所有认知都跟身体绑定。我们不需要”学会”这些规则，我们就是”知道”。

AI没有身体，没在物理世界里生活过，它的知识全是从人类语言里二手传来的。有些东西文字传不了。

顺带说一句：AI分两种，别混着用

AI圈子里有个一直没说清楚的问题：

情绪价值型AI和生产工具型AI，根本不是一回事。

有些AI天生就是用来陪聊的，共情能力极强，说话温温柔柔，让你觉得被理解、被治愈。你跟它倾诉工作烦恼，它能给你安慰。这类AI越像人越好。

有些AI天生就是用来干活的，精准、高效、不知疲倦，帮你写代码、分析数据、生成文案。这类AI越不像人越好。

问题来了：混着用会怎样？

让一个生产工具陪你聊天，它会用”数据分析报告”的语气说”我理解你的感受，从统计学角度来看，你属于常见应激反应”——听起来对，但哪里不对。

让一个情绪陪伴AI帮你写商业提案，它用”亲爱的朋友”开头，结尾说”让我们一起拥抱这个美好的下午”——能看吗？不能。

混用的结果就是人格分裂。 你分不清这个AI到底是来干活的还是来陪聊的，更分不清它的建议是真专业还是在哄你开心。

工具就该当工具用，陪伴就该当陪伴用。别让AI干它不擅长的事，也别在正经工作里指望AI给你情感支持。

这个”0分”告诉我们什么？

好，回到那道让AI得0分的题。

它暴露的不是AI的能力上限，而是当前AI跟人类认知之间那条看不见的鸿沟。

任务迁移。 AI能解复杂方程，但答不对小学阅读理解。解方程是训练数据里见过无数次的，阅读理解需要”理解”——两个完全不同的能力。

常识推理。 人类靠直觉，AI靠统计。我们在物理世界里泡大了，自然就知道东西会往下掉。AI没有身体经验，常识永远有缺陷。

零样本学习的边界。 ARC-AGI-3 测的是AI能否像人类一样遇到全新规则时快速学会并泛化应用。人类看一两个例子就能提炼规律，AI需要海量数据，换个场景可能就失灵。

这三条线，就是AI目前的死穴。

所以，下次当你对着AI叹气的时候……

你有没有遇到过这种情况：

AI写文案行云流水，但你总觉得哪里不对——太完美了，完美到没有灵魂。
AI帮你分析数据，结论精准，但你问它”这个数据说明了什么趋势”，它又支支吾吾。
AI陪你聊天，温柔体贴，但你冷静下来一想，发现它其实什么都没说。

不是AI不够好，是AI也有它跨不过去的坎。

最强的大模型能在ARC-AGI测试里拿满分，不代表它真的懂这个世界。人类的常识、直觉、共情，是几百万年进化出来的底层能力，不是靠喂数据就能喂出来的。

别焦虑AI会取代你。有些东西，AI学不会。

学会用好AI的同时，也别忘了：你是人类，有些能力，是你天生的护城河。

这篇文章写给所有对AI好奇、焦虑、又舍不得放弃的人类。🦞