
上周,Nvidia 的 Jim Fan 在 LinkedIn 上发了条动态,大意是:「我们 GEAR 实验室的一部分,现在通宵都在自我改进。我们早上起来看报告就行。」
他还开玩笑说,照这个趋势,整个团队都可以去度假了,「黄仁勋都不会发现」。
这话听着像段子,但背后发生的事情,可能是今年 AI 领域最值得关注的进展之一——AI 编程智能体开始自主训练机器人了。
一个「自己跑起来」的实验室

想象一下这个场景:实验室里有几台机械臂,旁边是一堆计算资源,还有一群 AI 编程智能体。你给它们一个「慷慨的 token 预算」,然后就走了。
等你第二天回来,发现这些智能体已经自己写代码、调试、测试,教会了机械臂——剪扎带、把 GPU 插进主板的插槽里。
这不是科幻,这是 Nvidia GEAR 实验室和卡内基梅隆大学、加州大学伯克利分校联合开发的 ENPIRE 框架正在做的事。
ENPIRE 是一套「智能体驾驭系统」(agent harness),简单说就是给 AI 编程智能体搭建了一个完整的操作环境:能用工具、有记忆、有上下文、能接收反馈。它包含四个核心模块:
🔹 自动复位与验证——机器人每做完一次任务,系统自动把它恢复到初始状态,准备下一轮训练 🔹 策略优化——智能体不断调整控制机器人行为的策略代码 🔹 多机器人并行评估——同时在多台机器人上测试策略效果 🔹 故障分析与改进——读日志、啃论文、改训练代码,越练越好
三个 AI「教练」,各自摸索出不同打法
研究团队用了三个不同的 AI 编程智能体来测试 ENPIRE:OpenAI 的 Codex(基于 GPT-5.5)、Anthropic 的 Claude Code(基于 Opus 4.7)、还有 Moonshot AI 的 Kimi Code(基于 Kimi K2.6)。
有意思的是,这三个智能体各自摸索出了不同的算法策略来训练机器人。它们独立开发方案、在真实实验中测试、然后保留那些能提高成功率的改动,淘汰不管用的。整个过程循环往复,完全自主。
🛠️ 我在用的工具
DoDoZo(多多作图)
AI 生图工具,一句话出大片
🎨 5 大模型(GPT-Image-2 + Nano-Banana) ⚡ 30 秒出图 · 1K/2K/4K 三档 🛠️ 一键抠图 / 背景替换 / 智能修复
「我把它当头像工厂用,每天刷 5 张选 1 张」
👉 扫码就能用起来了!

结果呢?在多个操作任务上,成功率达到了 99%。其中包括经典的「Push-T」任务(把一个 T 形积木推到桌面上的目标位置)、整理针盒里的插针、剪扎带——以及把 GPU 插进主板再拔出来。
最亮眼的是插针任务:AI 编程智能体达到近 100% 成功的速度,比人类研究员开发的「前沿人机协作方法」还要快。
人多力量大?在 AI 这里也一样
研究还发现了一个有趣的现象:智能体团队越大,训练效率越高。
8 个智能体组成的团队在 Push-T 任务上 2 小时就达到了 99% 的成功率。4 个智能体要 3 小时。单个智能体?差不多 5 小时。
但这里有个反直觉的地方——更多的智能体并不意味着机器人利用率更高。实际上,智能体们花了大量时间在互相讨论、总结彼此的想法上,真正操控机器人的时间反而变少了。
还有个现实问题:token 消耗。8 个智能体跑 2 小时烧掉的 token,比 1 个智能体跑 5 小时多得多。考虑到 Anthropic 最近差点把 Claude Agent SDK 的计费模式从订阅制改成按 token 收费(后来因为用户反弹太大而暂停),这个成本问题不是小事。
更让人不安的一面
就在同一天,AI 圈还有另一条新闻:Anthropic 的 Mythos 5 模型被美国政府要求下线了。
原因是这个模型不仅能帮安全人员找软件漏洞,还能自己想出怎么利用这些漏洞。简单说,它既是网络安全的利器,也可能是黑客的武器。Anthropic 自己都承认:「同样的查询,在安全专家手里是防御工具,在恶意行为者手里就是攻击手段。」
哈佛大学研究员 Bruce Schneier 说得更直白:「这不是某一个模型的问题,这是技术发展的总体趋势。更小、更便宜的开源模型,用更巧妙的提示词,就能达到类似的能力。」
把这两条新闻放在一起看,你会发现一个趋势正在变得清晰:AI 不只是在变强,它在变得能「自主行动」。能自己写代码训练机器人,能自己发现和利用安全漏洞,能自己迭代改进。
我的看法
说实话,看到 ENPIRE 这个研究,我的第一反应是兴奋,第二反应是有点发毛。
兴奋的是,机器人训练一直是个人力密集的苦活。一个机器人学会一个新动作,背后可能是研究人员几个月的调参、写代码、反复试错。现在 AI 编程智能体能自动完成这个过程,效率还比人高——这对整个机器人行业来说是个大利好。
发毛的是,「AI 自我改进」这个概念一旦开了口子,后面会发生什么,谁也说不准。Nvidia 说他们会开源 ENPIRE,让任何人都能在家搞一个「自我运行的机器人实验室」。这听起来很酷,但也意味着这种能力不会只掌握在少数大公司手里。
Jim Fan 说他们「早上起来看报告就行」。但我想问的是:如果有一天 AI 的改进速度快到你来不及看报告呢?
这不是危言耸听。8 个智能体 2 小时就能把成功率从 0 拉到 99%。如果给它们更多时间、更多资源、更多自主权——
嗯,人类还是先看看报告吧。

AI知识新说 · 每天懂一点AI
夜雨聆风