AI能力认知的鸿沟正在扩大
今天在网上看到 Andrej Karpathy 大神分享了一个观点,我感觉非常认同。
他说道,人们对AI能力的理解正在出现越来越大的分歧。
第一个问题是使用的时效性和层级。
他认为很多人去年某个时候试了一下ChatGPT的免费版,然后就让那次体验过度地塑造了他们对AI的看法。
这群人的典型反应是嘲笑模型的各种毛病和幻觉。
没错,我也看过OpenAI高级语音模式在”我该开车还是走路去洗车店”这种简单问题上翻车的病毒视频。
但问题是,这些免费的、过时的/已弃用的模型,根本不能代表今年最新一轮前沿智能体模型的能力水平,尤其是OpenAI Codex 5.4 和Claude Code opus 4.6。
这就引出了第二个问题。
即便人们每月花 200 美元使用最先进的模型,很多能力提升也集中在高度技术化的”尖峰”领域。
搜索、写作、建议等日常查询,并不是能力飞跃最显著的方向。
一方面,这与强化学习依赖可验证奖励的技术细节有关;另一方面,也因为这些用例在商业价值上不够突出,企业在能力爬坡时没有优先投入,金矿在别处,资源自然跟着走。
于是就出现了第二类人群,他们同时满足两个条件:
1)付费使用前沿智能体模型(OpenAI Codex / Claude Code);
2)在编程、数学和研究等技术领域进行专业使用。
这群人是”AI精神冲击”最严重的群体,因为今年以来这些领域的进步只能用”惊人”来形容。
当你把一个终端交给这些模型,你可以亲眼看着它们碾压那些通常需要数天甚至数周才能完成的编程问题。
正是这第二类人,对AI能力的量级、增长斜率以及各种网络安全层面的连锁影响赋予了远更高的重视。
总结:这两类人在一个世界中就完全是鸡同鸭讲。
现实确实同时存在两面,OpenAI免费的、我觉得已经有点被”弃养”的高级语音模式,会在你刷到的短视频里连最蠢的问题都答不好;
与此同时,OpenAI最高付费层级的 Codex 模型可以花一个小时独立且连贯地重构整个代码库,或者在计算机系统中发现并利用漏洞。
后者是真的能做到,而且进步极其迅猛,原因有二:
1)这些领域提供了明确且可验证的奖励函数,天然适合强化学习训练(比如单元测试是否通过,是或否,而写作质量就很难明确评判);
2)这些能力在 B2B 场景下价值远更高,意味着团队中最大比例的人力都集中在改进它们。
夜雨聆风