不是那种「GPT-5 要来了」的预告,也不是「AGI 还有几年」的算命。
而是一些更底层、更让我睡不着觉的东西。
他说,很多 App 根本就不该被做出来。
他说,.md 文件正在替代 .sh 脚本。
他说,CPU 以后可能只是一个配角。
他还说了一句话,让我每隔一两天就会想起来——你可以外包你的思考,但你不能外包你的理解。
今天这篇,我想把这几个观点拆开,然后聊聊我自己是怎么看这些事的。
一、很多 App 不该出生,因为 LLM 把中间层蒸发了
Karpathy 举了一个他自己的例子。
他之前用 vibe coding 做了一个叫 Menu Gen 的应用。功能听起来挺复杂:上传一张菜单照片,应用做 OCR 识别、数据库映射、图像生成、界面渲染,最后把菜品图片覆盖到原菜单对应位置上。
好几层调用链。
当时他觉得这挺酷的。
但现在,他只需要把菜单照片丢给大模型,说一句「把菜品图片覆盖到原菜单上」,模型直接输出结果。
输入是图片,输出是图片。
中间那整个 Menu Gen 应用——没了。被蒸发了。
他说了一句非常扎心的话:那个应用根本就不该存在。
这让我想起了之前写过的一个观点——AI 正在吞噬所有软件。
但 Karpathy 说得更狠。不是「吞噬」,是「证明你一开始就是多余的」。
说人话就是:我们过去几十年做的很多软件,本质上只是在翻译。
把人的意图翻译成机器指令,把一种数据格式翻译成另一种格式,把一个系统的输出翻译成另一个系统的输入。
LLM 直接把这个翻译层跳过了。
你不需要一个 OCR 应用来识别菜单文字,不需要一个数据库来存储菜品信息,不需要一个渲染引擎来合成图片。
你只需要一句话。
这意味着什么?
过去以「信息转换」为核心价值的软件品类,全部面临死刑。
这不是优化,是物种灭绝。
二、.md 替代 .sh:语言本身成了执行层
Karpathy 还讲了一个更具体的例子——软件安装。
过去几十年,开发者习惯写 shell 脚本来处理安装流程。适配不同操作系统、检查依赖项、配置环境变量。几百行 bash,各种 if else,各种 apt-get 和 brew。
这是典型的 Software 1.0 思维:把每一条路径显式编码。
他的做法是:直接写一个 .md 文件,用自然语言描述安装步骤。
然后告诉模型:「照着这个做。」
模型会自己理解你的系统环境,自己判断该用什么包管理器,遇到错误自己调试。
语言本身,成了执行层。
这件事的冲击力,可能比大多数人以为的要大得多。
未来最重要的软件接口,可能不是 GUI,也不是 API。而是一份能被模型理解的、写清楚了的说明文档。
文档即代码。说明即程序。
我自己最近也在做类似的事。把项目的规范、流程、约定全部写成 AGENTS.md,agent 启动的时候自动读取,然后照做。
以前你要配 CI、写 hook、搞一堆自动化脚本才能让规范落地。现在只需要一个 markdown 文件。
这不是效率提升,这是范式的翻转。
三、锯齿智能:为什么 AI 能重构十万行代码,却建议你步行去洗车
Karpathy 以前提过一个概念,叫 Jagged Intelligence(锯齿智能)。
意思是模型的能力不是一条平滑的曲线,而像锯齿一样参差不齐。某个领域突然拔高到离谱,另一个领域又低得吓人。
比如现在的模型可以重构十万行代码库、发现安全漏洞、完成复杂数学证明。
但也可能建议你「步行去 50 米外的洗车店洗车」。
这荒诞感不是 bug,是系统性特征。
他之前的解释是可验证性。代码、数学、博弈这些任务是容易判断对错的,适合强化学习优化。模型在这些领域进步神速。
今年他多给了一个视角:经济学。
实验室的资源是有限的。算力、数据工程师的时间,都会被优先分配到那些高价值或可量化的领域。
为了让 GPT-4 看起来更聪明,实验室决定塞入海量棋谱。
这种人为的数据偏移,导致模型在某些领域突然起飞,而在那些缺乏数据覆盖的常识领域——比如洗车的逻辑——依然表现得像个傻子。
你看到的模型能力,不是它「学会了什么」,而是「实验室选择让它擅长什么」。
四、垂直领域还有机会,但不是你想的那种
既然大模型实验室在数学、编程这些可验证领域已经达到了「逃逸速度」。
后来者还有机会吗?
Karpathy 的回答是:有,但在垂直领域。
只要一个场景能构建反馈机制,有环境数据、有评估标准,你就可以投入强化学习资源做微调,得到明显收益。
通用模型公司解决的是广泛问题。但大量行业价值存在于具体场景里。
谁掌握真实数据、任务流程和评估标准,谁就能做出更强的垂直系统。
他甚至说,即使是写作,也可以通过多个大模型组成评审机制,对结果进行打分和筛选。
这意味着什么?
很多工作不是天然不可替代的。只是还没有人给它建立起有效的评估体系。
AI 创业的关键,可能不是找一个「不会被自动化的行业」——这种行业可能根本不存在。
而是找一个「还没被转化成训练环境的问题」。
这个判断非常精准。
我自己的体会也是。做 AI 内容创作这一年,最深的感受是:通用模型写出的东西千篇一律,但如果你能提供足够的上下文、风格指南、评估标准,它写出来的东西可以是独一无二的。
差异化不来自模型本身,来自你对场景的理解深度。
五、为 Agent 设计,而不是为人类设计
Karpathy 提到一个让我特别有共鸣的点。
他说,今天的大多数数字系统,仍然是为人类设计的,不是为智能体设计的。
他最明显的不满是什么?是开发文档。
文档还在一步步告诉人类该点击什么按钮、该配置什么参数、该输入什么命令。
但真正「智能体原生」的标志应该是:你只需要给一个提示词,比如「构建 Menu Gen」,智能体就能自己处理服务关联、DNS 配置、直接上线。
人类不需要知道中间发生了什么。
由此,一个新职业正在浮现:智能体工程(Agentic Engineering)。
它关注的已经不是写代码,而是如何组织多个智能体完成复杂任务。
面试也不考算法题了,而是看你能不能借助智能体完成真实项目。
这跟我上篇文章讲的 AGENTS.md 和多 Agent 协作,完全是同一个方向。
未来的竞争力,不是你多会写代码。
而是你多能让数据结构、流程说明和系统接口,对 LLM 变得可理解。
六、人类最后的护城河:理解
对谈最后,主持人问了一个比技术更古老的问题。
当智能越来越廉价,什么仍值得深度学习?
Karpathy 提到一条推文。他说自己每隔一两天就会想起它。
大意是:你可以外包你的思考,但你不能外包你的理解。
You can outsource your thinking, but you can't outsource your understanding.
这可能是整场峰会最重要的一句话。
模型可以生成方案、比较选项、执行流程,甚至替你写作和推理。
但它无法替你回答这些问题:什么重要?什么真实?什么值得追求?什么风险可以接受?
用 Karpathy 自己的话说:「人还是需要某些东西来指导思考和处理过程。而这种指导能力,从根本上受限于你的理解。」
他甚至承认,自己并不擅长「理解」。比如「我们知道了什么」「这件事为什么值得做」「我该如何指导我的智能体」。
他说,自己也正在成为一个认知瓶颈。
所以他痴迷于个人知识库、Wiki 系统、以及各种能重新组织信息的工具。
他会把读过的文章持续沉淀进自己的知识系统,不断追问、交叉提问。
因为同一份信息,换一种结构呈现,就会获得全新的洞察。
谁把海量信息压缩成自己的认知地图,谁就更具优势。
听到这里我整个人是麻的。
因为这完全就是我过去一年在做的事。
我的 CLAUDE.md、我的写作风格指南、我的三层记忆系统……本质上都是在做同一件事:
把自己的理解,结构化成 agent 能读懂的东西。
不是为了记住更多信息。而是为了在信息过载的时代,还能保持「什么值得做」的判断力。
七、CPU 沦为配角?这可能是最激进的预测
Karpathy 还提了一个更远的推演。
他说,未来神经网络可能承担大部分计算任务,成为新的主计算层。而传统 CPU 退居辅助位置,只负责少量确定性任务。
这个判断初听像是在画饼。
但你仔细想。现在的 AI 推理已经在从「CPU 上的一个进程」变成「独立部署的一个服务」。未来如果神经网络芯片继续进化,CPU 确实可能退化成类似协处理器的角色。
就像 GPU 当年从「图形加速卡」变成「通用计算的主力」。
历史的韵脚,总是惊人地相似。
写在最后
Karpathy 这场对谈,信息密度极大。
但我反复读了几遍之后,发现所有观点最终都指向同一个方向:
软件在消融,语言在崛起,而人类的价值,正在从「执行」迁移到「判断」。
很多 App 不该出生,因为 LLM 直接把信息转换层蒸发了。
.md 替代 .sh,因为语言本身就是最好的编程接口。
AI 能做几乎所有事,但「理解」——那种对重要性、真实性、值得追求的直觉判断——仍然只能由人来承担。
这让我想起了一句话。
赫伊津哈在《游戏的人》里说:在游戏中,我们最接近自己。
而在 AI 时代,或许可以改成:
在理解中,我们最接近不可替代。
未来不属于最会写代码的人,也不属于最会写 prompt 的人。
未来属于那些能把海量信息压缩成自己的认知地图、然后用它来指导 Agent 做事的人。
不在 AI 奖励函数里的那些东西——
才是人类最后的护城河。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
夜雨聆风