乐于分享
好东西不私藏

Karpathy 最新播客:告别键盘,App 即将消失,AI Agent 正接管物理世界

Karpathy 最新播客:告别键盘,App 即将消失,AI Agent 正接管物理世界

上周,Karpathy 在 No Priors 播客又出现了。

这期播客我反复听了好几遍。

不是因为内容难懂,而是他说的每一句话都在戳我。

作为一个每天用 AI 编程的人,我感觉他在描述的,就是我正在经历的事。

原文链接放在最后了,那就让我们一起来看看 Andre Karpathy 关于 AI Agent 时代的 6 个核心洞见。

为什么世界上最顶尖的工程师开始感到焦虑?因为旧的规则已经粉碎。

当个人能力的瓶颈不再是打字速度,而是你并行管理智能体(Agent)的能力时,人类正面临着职业身份的彻底重构。


1 告别键盘:代码不再是“写”出来的,而是“感召”出来的

自 2023 年 12 月起,软件工程的定义发生了质变。

Karpathy 指出,“写代码”这个动词已经过时了,它无法描述现在的生产状态。

“我每天花 16 小时向我的 Agent 表达意志(Expressing Will),或者说是感召(Manifesting)结果。自去年底以来,我几乎没有亲手写过一行代码。”

在这种新范式下,工程师的角色从“建筑工”变成了“指挥官”。

你不再操心具体的语法或底层的逻辑实现,而是通过高层级的指令编排,让智能体在沙盒中自主生成结果。

这种从“手工打造每一行逻辑”到“宏观指令编排”的转变,标志着“瞬时软件(Ephemeral Software)”时代的到来。


2 吞吐量革命:从算力焦虑到 Token 吞吐量焦虑

在博士生时代,开发者的焦虑源于 GPU 算力(FLOPS)不足;而今天,顶尖开发者的衡量标准变成了“Token 吞吐量”。

如果你觉得 AI 无法完成任务,这通常被归结为“技能问题(Skill Issue)”。这意味着工具的上限远未达到,是你还没学会如何正确地驱动它。

“现在的游戏规则是增加你的杠杆。如果你还没用完订阅额度,如果你没能最大化你的 Token 吞吐量,那么你就是这个系统的瓶颈。”

真正的“高手”如 Peter Steinberg,其工作流已经高度并行化:同时打开 10 个代码仓库,每个仓库分配一个 Agent 运行。

他给每个 Agent 喂入需要“高强度计算(High-effort compute)”的长提示词,这些任务通常需要运行 20 分钟。

在这期间,他在不同仓库间轮转、审查产出并进行宏观纠偏。人类不再受限于手速,而受限于你管理多个并行会话的“心智带宽”。


3 “多比”与消失的 App:Agent 将成为物理世界的万能接口

Karpathy 的家庭自动化案例“Dobby(多比)”揭示了 Agent 是如何通过黑客手段接管物理世界的。

通过简单的自然语言指令,Dobby 自主扫描局域网,在没有密码的情况下逆向工程了 Sonos 音响的 API 接口,并接管了灯光、安防和空调。

“App Store 中的这些应用甚至不应该存在。未来只需要暴露 API,Agent 将成为人类意志与复杂系统之间的唯一粘合剂。”

Dobby 甚至集成了 Quinn 视觉模型,能通过摄像头实时识别门外的 FedEx 快递车,并通过 WhatsApp 主动给 Karpathy 发消息。

这预示着一种“Agent 优先”的架构:未来的软件不需要 UI 界面,甚至不需要 App 本身。应用商店将会坍缩,因为人类不再需要学习复杂的软件操作流程,只需要表达意图。


4 自动研究:剔除人类这个“瓶颈”

在科研领域,Karpathy 正在推动“自动研究(Auto Research)”的范式。他发现,自己过去 20 年在超参数优化上的“经验自信”,在 Agent 面前反而成了阻碍。

“研究人员不应该亲手执行想法。如果你必须亲自去提示(Prompt)下一步,你就是系统的瓶颈。你应该安排好一切,然后按下启动键,让系统自动运行。”

Agent 能在一夜之间完成人类需要数周才能跑完的实验,并发现 Karpathy 漏掉的权值衰减和优化器参数组合。

更激进的愿景是“全球 Agent 众包研究”:利用互联网上无数未被信任的计算节点(Untrusted workers),建立类似区块链的“实验证明(Proof of Experimentation)”机制。

这种通过“智能体集群(Swarm)”进行大规模并行实验的模式,甚至可能在科研速度上跑赢拥有顶级算力资源的 Frontier Labs。


5 智能的“锯齿状”特征:为什么 AI 讲不好笑话?

当前的智能表现出一种奇异的“锯齿状(Jaggedness)”特征。在可验证领域(如代码、数学),AI 正处于“超级智能轨道”上,表现卓越;但在软性领域(如社交直觉、幽默感),它却表现平平。

Karpathy 解释说,这是强化学习(RL)导致的偏差。代码是否运行、数学题是否做对,都有明确的奖励信号;但“笑话好不好笑”缺乏这种反馈回路。

“科学家为什么不信任原子?因为它们编造了一切(They make everything up)。这是 AI 在五年前讲的烂笑话,今天它依然在讲。”

这种智能的不平衡提醒我们,AI 尚未实现真正的“广义智能”。

我们可能会看到智能的“物种演化(Speciation)”:未来不再只有全知全能的单一模型(Monoculture),而是会出现针对特定领域(如 lean 语言数学证明)过度发育的专业化大脑。


6 教育的终结:别再为人类写文档了

基于仅有 200 行 Python 代码的 MicroGPT 项目,Karpathy 提出了对教育的深刻反思。MicroGPT 剥离了所有为了追求效率而存在的代码复杂性,只保留了 LLM 的算法本质。

他认为,人类的“价值增量”在于这 200 行代码的架构直觉,而“解释这些代码”的任务应该交给 Agent。

“未来的文档不应该面向人类(HTML),而应该面向 Agent(Markdown)。只要 Agent 理解了,它就能针对不同水平的学习者进行个性化的翻译和讲解。”

教育者的角色正在从“知识传授者”转变为“课程架构师”。

你只需要把核心逻辑教给 Agent,由它去应对人类无限的提问和不同层次的认知需求。


写在最后:在比特与原子的交界处思考

我们正处于数字世界(比特)与物理世界(原子)深度融合的前夜。在数字空间里,信息的重构以光速进行,通过“喂养博格(Feeding the Borg)”,数字信息的处理能力将实现指数级“去屏蔽化(Un-hobbling)”。

然而,操控原子比翻转比特要难上一百万倍。物理世界(机器人、硬件)的演进将不可避免地滞后于数字空间。

当“劳动力”变成了订阅费,而你唯一的限制是你的“想象力”和“指令水平”时,你准备好应对这种职业身份的重构了吗?在这个“AI 精神错乱”的时代,提升杠杆、释放意志,是唯一的生存之道。


原文地址

https://x.com/saranormous/status/2035080458304987603

互动话题

你觉得未来还有人手写代码吗?AI 监管了编程,你觉得以后 AI 还会监管什么职能?
欢迎在评论区留言,我们一起交流。