Karpathy 大神发了一条长推,讲了一个现象。
他说,从时间线来看,人们对 AI 能力的理解正在出现越来越大的鸿沟。
鸿沟。不是分歧,不是争论,是鸿沟。
两群人站在同一个时代里,看到的是两个完全不同的 AI。然后他们各自基于自己看到的那个 AI,得出了截然相反的结论,还觉得对面那群人脑子有问题。
我觉得这个观察太准了。
你应该刷到过这些视频。ChatGPT 的语音模式,有人问它「我要去加油站加油,加油站只离我500米,我该开车去还是走路去」,很多AI都是回复应该走路去,惹得评论区全是哈哈哈哈哈。还有各种「AI 翻车合集」,什么算错数学题啊,编造不存在的论文啊,一本正经胡说八道啊。刷完之后你会觉得,就这?这就是要改变世界的 AI?
说实话,如果我对 AI 的全部认知就来自这些视频,我也会觉得这玩意就是个高级玩具。
但问题在于,这些翻车视频里用的,大多是免费版,或者是去年甚至更早的模型。很多人在某个时间点试了一次 ChatGPT 的免费版,觉得也就那样,然后这个印象就钉死了。之后不管 AI 怎么迭代,他心里的锚点永远停留在那次体验上。
Raschka 在底下回复说了一句,他说这个差距其实还要更大。他身边很多朋友和家人,接触 AI 的主要入口甚至是 iPhone 上的 Apple Intelligence。
如果一个人对 AI 的全部体感来自 Siri 的升级版,那他当然会觉得 AI 不过如此。这不是他的问题,是他的信息入口决定了他的认知天花板。
然后在鸿沟的另一边,站着另一群人。
这群人每个月花 200 美元订阅最前沿的模型,用 OpenAI Codex,用 Claude Code,在编程、数学、科研这些领域里,每天跟 AI 贴身肉搏。
Karpathy 说,这群人正在经历某种「AI 狂热」。
我觉得「狂热」这个词其实不太准确,更准确的说法应该是,他们被吓到了。
因为当你把一个电脑终端交给今年这一轮的 agentic 模型,你会看到它连续工作一个小时,有条不紊地重构整个代码库。那些你原本以为需要几天甚至几周才能完成的编程问题,它就这么给你解了。不是解了一半让你擦屁股,是从头到尾,逻辑自洽,能跑通。
这种感觉,怎么说呢。
就像你一直以为隔壁工位的实习生只会端茶倒水,结果有一天你发现他把你下个季度的项目全做完了,而且做得比你好。
你的第一反应不是开心,是后背发凉。
所以这两群人现在是彻底聊不到一块去了。一群人在笑 AI 连洗车店都搞不明白,另一群人在焦虑 AI 已经能自主发现并利用计算机系统的漏洞。他们说的都是事实,但他们说的完全不是同一个 AI。
Karpathy 用了一个词,叫「鸡同鸭讲」。
我觉得比鸡同鸭讲还严重。鸡和鸭至少生活在同一个农场里。这两群人,已经活在两个平行宇宙了。
那问题来了,为什么会这样?为什么 AI 的进步是这种奇怪的形状,在某些地方突飞猛进,在另一些地方几乎原地踏步?
Karpathy 给了两个原因,我觉得都说到点子上了。
第一个原因是技术层面的。现在 AI 能力提升最猛的领域,都有一个共同特征,就是它们有明确的、可验证的奖励函数。
这话听着有点技术,我用大白话说一下。
你让 AI 写代码,写完跑一下单元测试,过了就是过了,没过就是没过,对错非常清晰。你让 AI 做数学题,答案是 42 就是 42,不是 43。这种「对错分明」的任务,特别适合用强化学习来训练。模型做对了就奖励,做错了就惩罚,一轮一轮迭代下去,进步速度非常快。
但你让 AI 帮你写一篇文章呢?写一封邮件呢?给你一个人生建议呢?
好和坏的标准是什么?谁来判断?一千个读者有一千个标准。这种模糊的、主观的任务,强化学习就很难使上劲。不是不能做,是奖励信号太弱了,模型不知道该往哪个方向优化。
所以你会看到一个很吊诡的局面,AI 在最难的事情上进步最快,在最日常的事情上反而进步最慢。
写代码,难吧?突飞猛进。
聊天,简单吧?原地踏步。
这就是 Karpathy 说的「尖峰式」进步。能力的提升不是均匀的,是扎在几个特定的高技术领域里,像针一样尖锐地往上捅。
第二个原因更现实,是钱。
这些在编程和科研领域的能力,在 B2B 场景里太值钱了。一个能自主重构代码库的 AI,企业愿意为它付多少钱?一个能帮你搜索和写作的 AI 呢?差距是数量级的。
所以 OpenAI 也好,Anthropic 也好,团队里最大比例的人力,自然会被放到最能产生商业价值的方向上。真正的金矿在编程、在科研、在企业级应用,资源和重心就往那边倾斜。
底下有人回复了一组数据,挺有意思的。根据 OpenAI 自己的数据和哈佛 NBER 的一项研究,编程类查询只占 ChatGPT 消息的大约 4%。4%。而非工作类查询,占比超过 73%。
也就是说,绝大多数用户用 AI 干的事,恰好是 AI 进步最慢的那些事。
而 AI 进步最快的那些事,只有极少数人在用。
73% 的用户体验着最慢的进步,4% 的用户体验着最快的进步。然后这两群人上网一聊,发现对方说的话自己完全听不懂。
这不就是信息折叠吗。
AI 时代的折叠更隐蔽。没有物理墙壁,没有明确的分界线。你和你的同事可能坐在同一间办公室里,用着同一个品牌的 AI,但你们体验到的是两个完全不同的东西。一个人觉得 AI 是个偶尔好用的搜索引擎,另一个人觉得 AI 已经是半个同事了。
而且这个折叠还在加速。
Karpathy 提到了 OpenClaw 之所以引发那么大反响,是因为这是第一次有一大批非技术背景的人,真正体验到了最新的 agentic 模型。对他们来说,之前对 AI 的理解,基本就停留在「ChatGPT 这个网站」上。
这句话让我想了很久。
我们经常说 AI 已经很主流了,但这个「主流」到底是什么意思?是主流的人听说过 AI,还是主流的人真正用过最前沿的 AI?这两件事之间的距离,可能比我们想象的大得多。
世界上绝大多数人对 AI 的认知,来自免费版 ChatGPT、豆包、DeepSeek、以及社交媒体上的翻车视频。
这些入口,没有一个能让你看到 AI 真正的能力边界在哪。
反过来说,那些每天用 Claude Code 写代码、用 Codex 重构项目的人,他们看到的 AI 能力曲线的斜率,是陡峭到让人心慌的。他们不是在担心 AI 会不会取代人类,他们是在看着 AI 的能力增长速度,计算还有多久。
两个平行宇宙,两条完全不同的情绪曲线。
一边是调侃和不屑,一边是震撼和焦虑。
坦率的讲,我自己也在这个鸿沟里反复横跳。写文章的时候,AI 帮我的忙有限,我能理解那种「也就那样」的感觉。但当我用 Claude Code ,只用一晚上就能搭建一个非常好看的落地页的时候,我又会觉得,这个世界正在发生一些非常非常大的变化,只是大多数人还没感觉到。

Karpathy 最后总结了一句,一个人对 AI 有多震撼,几乎完全取决于他用 AI 写了多少代码。
这句话有点绝对,但方向是对的。
你对 AI 的感知,取决于你站在鸿沟的哪一边。而你站在哪一边,取决于你用 AI 做什么,用的是哪个版本,以及你上一次认真试用 AI 是什么时候。
如果你的印象还停留在去年的某次免费体验,我真的建议你,找个机会,认真地、完整地、用最新的前沿模型,去做一件你专业领域里的事情。不是随便聊两句天,是真的把一个任务交给它,看看它能做到什么程度。
你可能会被吓到。
也可能不会。
但至少,你会知道自己站在鸿沟的哪一边。
而不是站在一边,嘲笑另一边。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
夜雨聆风