AI能力认知的巨大鸿沟:为什么有人觉得AI很蠢,有人却说它改变一切?

前 OpenAI 联合创始人、特斯拉前 AI 总监 Andrej Karpathy 最近在社交媒体上发表了一篇引人深思的长文，试图解释当下 AI 领域一个令人困惑的现象：为什么对于同样的 AI 技术，不同群体的人会产生截然相反的认知？有人嘲笑 AI 连最简单的问题都答不好，有人却惊叹它能独立完成需要数周时间的复杂编程任务。

这种认知鸿沟正在变得越来越大，而 Karpathy 认为，这背后有着深刻的结构性原因。

第一道鸿沟：你用的是什么版本的 AI?

Karpathy 指出的第一个问题是使用的 AI 版本和层级差异。许多人对 AI 的印象停留在去年某个时候试用的免费版 ChatGPT，这些体验深深影响了他们对 AI 能力的整体判断。他们看到过各种关于模型“幻觉”、答非所问的搞笑视频，比如 OpenAI 的高级语音模式在回答“我应该开车还是走路去洗车店”这种简单问题时出现的失误。

但问题在于，这些免费的、旧版本的、甚至已经被弃用的模型，完全无法代表 2026 年最新一代智能体模型的真实能力。特别是 OpenAI Codex 和 Claude Code 这样的前沿智能体系统，它们的表现已经与一年前的模型有了天壤之别。

这就像用诺基亚功能机的体验来评判今天的智能手机——你的认知基准本身就已经过时了。

第二道鸿沟：AI 在哪些领域真正强大？

即便是那些愿意每月支付 200 美元使用最先进模型的用户，Karpathy 指出，他们的体验也可能存在巨大差异。这是因为 AI 的能力提升在不同领域是极不均衡的。

在搜索、写作、日常建议等常见使用场景中，AI 的进步其实并不算特别显著。但在编程、数学、科研这些高度技术化的领域，AI 的能力提升却是“令人震惊的”(staggering)。

为什么会出现这种差异？Karpathy 给出了两个关键原因：

第一，技术层面的可验证性差异。编程任务有明确的奖励函数——代码能否通过单元测试，是或否，黑白分明。这种可验证的反馈机制非常适合强化学习训练。相比之下，写作质量如何评判？好文章的标准是什么？这些主观性强、难以量化的任务，在训练优化上天然处于劣势。

第二，商业价值的驱动。在 B2B（企业对企业）场景中，编程、数学、科研等技术能力能够直接创造巨大的商业价值。因此，AI 公司会将最大比例的团队资源投入到这些领域的改进上。市场的金矿在哪里，优化的重点就在哪里。

两个平行世界：怀疑者与“AI 精神病患者”

基于以上两个因素，Karpathy 观察到 AI 用户群体实际上分裂成了两个截然不同的阵营，他们几乎生活在两个平行世界中。

第一个群体是 AI 怀疑者或温和使用者。他们可能用过免费版 ChatGPT，或者即便付费也主要用于日常写作、搜索等场景。在这些领域，AI 的表现确实进步有限，甚至可能出现各种令人啼笑皆非的错误。这个群体对 AI 能力的评估相对保守，认为媒体和技术圈对 AI 的炒作言过其实。

第二个群体则是 Karpathy 所说的“AI 精神病”(AI Psychosis）患者——那些既付费使用最先进的前沿智能体模型，又在编程、数学、科研等专业技术领域深度使用 AI 的人。对这个群体来说，2026 年 AI 能力的飞跃是“令人震惊的”。

当你把一个计算机终端交给这些最新的智能体模型时，你可以亲眼看着它们解决那些通常需要数天甚至数周才能完成的编程难题。这种体验是如此震撼，以至于这个群体对 AI 能力、发展速度以及各种网络安全相关影响的重视程度，远远超过第一个群体的想象。

数据说话：认知鸿沟有多大？

在 Karpathy 的推文评论区，有用户引用了 OpenAI 自己的数据和哈佛大学 NBER 的研究：编程相关的查询仅占 ChatGPT 消息总量的约 4%，而非工作相关的查询占比超过 73%。

另一位评论者分享的图表显示，在 AI 智能体的工具调用中，软件工程占据了近一半的比例。这意味着，AI 能力的“尖峰”确实集中在技术领域，而这恰恰是绝大多数普通用户接触不到或用不上的场景。

怀疑者们准确地描述了 AI 在大部分市场领域的表现——进步确实没那么戏剧性。但他们没有看到的是，在另一个维度上，AI 正在以惊人的速度改变专业技术工作的方式。

同时存在的两个真相

Karpathy 用一个精彩的对比总结了这种认知分裂：

“OpenAI 的免费版、可能已经有些被忽视的‘高级语音模式’会在 Instagram 短视频里答错最愚蠢的问题，与此同时， OpenAI 最高级别的付费 Codex 模型会持续工作一个小时，连贯地重构整个代码库，或者发现并利用计算机系统中的漏洞。“

这两个看似矛盾的现象，实际上都是真实的。它们并不互相否定，而是反映了 AI 能力发展的不均衡性和使用场景的巨大差异。

这种鸿沟意味着什么？

Karpathy 的观察揭示了一个重要问题：当社会不同群体对同一技术的认知产生如此巨大的差异时，我们如何进行有效的公共讨论？

对于政策制定者、投资者、教育工作者和普通公众来说，理解这种认知鸿沟的存在至关重要。AI 既不是万能的神话，也不是一无是处的笑话。它的能力是高度场景化的，在某些领域已经达到了令人震惊的水平，而在另一些领域仍然表现平平。

更重要的是，这种不均衡的发展模式很可能会持续下去。那些能够提供明确验证标准、创造巨大商业价值的技术领域，将继续获得最多的资源投入和最快的进步速度。而那些更加主观、更难量化、商业价值相对较低的应用场景，可能会在相当长的时间里停滞不前。

当两个群体基于完全不同的使用体验对话时，他们实际上是在谈论两个不同的“AI”。认识到这一点，或许是弥合认知鸿沟的第一步。

关于作者： Andrej Karpathy 是人工智能领域的知名专家，曾担任特斯拉 AI 总监和 OpenAI 研究科学家，目前专注于 AI 教育和研究工作。他的观察往往能够穿透技术表象，揭示行业发展的深层逻辑。