英伟达把几台机器人和AI关在一起,它们竟然自己做起了实验

上周，Nvidia 的 Jim Fan 在 LinkedIn 上发了条动态，大意是：「我们 GEAR 实验室的一部分，现在通宵都在自我改进。我们早上起来看报告就行。」

他还开玩笑说，照这个趋势，整个团队都可以去度假了，「黄仁勋都不会发现」。

这话听着像段子，但背后发生的事情，可能是今年 AI 领域最值得关注的进展之一——AI 编程智能体开始自主训练机器人了。

一个「自己跑起来」的实验室

想象一下这个场景：实验室里有几台机械臂，旁边是一堆计算资源，还有一群 AI 编程智能体。你给它们一个「慷慨的 token 预算」，然后就走了。

等你第二天回来，发现这些智能体已经自己写代码、调试、测试，教会了机械臂——剪扎带、把 GPU 插进主板的插槽里。

这不是科幻，这是 Nvidia GEAR 实验室和卡内基梅隆大学、加州大学伯克利分校联合开发的 ENPIRE 框架正在做的事。

ENPIRE 是一套「智能体驾驭系统」（agent harness），简单说就是给 AI 编程智能体搭建了一个完整的操作环境：能用工具、有记忆、有上下文、能接收反馈。它包含四个核心模块：

🔹 自动复位与验证——机器人每做完一次任务，系统自动把它恢复到初始状态，准备下一轮训练 🔹 策略优化——智能体不断调整控制机器人行为的策略代码 🔹 多机器人并行评估——同时在多台机器人上测试策略效果 🔹 故障分析与改进——读日志、啃论文、改训练代码，越练越好

研究团队用了三个不同的 AI 编程智能体来测试 ENPIRE：OpenAI 的 Codex（基于 GPT-5.5）、Anthropic 的 Claude Code（基于 Opus 4.7）、还有 Moonshot AI 的 Kimi Code（基于 Kimi K2.6）。

有意思的是，这三个智能体各自摸索出了不同的算法策略来训练机器人。它们独立开发方案、在真实实验中测试、然后保留那些能提高成功率的改动，淘汰不管用的。整个过程循环往复，完全自主。

🛠️ 我在用的工具

DoDoZo（多多作图）

AI 生图工具，一句话出大片

「我把它当头像工厂用，每天刷 5 张选 1 张」

👉 扫码就能用起来了！

结果呢？在多个操作任务上，成功率达到了 99%。其中包括经典的「Push-T」任务（把一个 T 形积木推到桌面上的目标位置）、整理针盒里的插针、剪扎带——以及把 GPU 插进主板再拔出来。

最亮眼的是插针任务：AI 编程智能体达到近 100% 成功的速度，比人类研究员开发的「前沿人机协作方法」还要快。

研究还发现了一个有趣的现象：智能体团队越大，训练效率越高。

8 个智能体组成的团队在 Push-T 任务上 2 小时就达到了 99% 的成功率。4 个智能体要 3 小时。单个智能体？差不多 5 小时。

但这里有个反直觉的地方——更多的智能体并不意味着机器人利用率更高。实际上，智能体们花了大量时间在互相讨论、总结彼此的想法上，真正操控机器人的时间反而变少了。

还有个现实问题：token 消耗。8 个智能体跑 2 小时烧掉的 token，比 1 个智能体跑 5 小时多得多。考虑到 Anthropic 最近差点把 Claude Agent SDK 的计费模式从订阅制改成按 token 收费（后来因为用户反弹太大而暂停），这个成本问题不是小事。

就在同一天，AI 圈还有另一条新闻：Anthropic 的 Mythos 5 模型被美国政府要求下线了。

原因是这个模型不仅能帮安全人员找软件漏洞，还能自己想出怎么利用这些漏洞。简单说，它既是网络安全的利器，也可能是黑客的武器。Anthropic 自己都承认：「同样的查询，在安全专家手里是防御工具，在恶意行为者手里就是攻击手段。」

哈佛大学研究员 Bruce Schneier 说得更直白：「这不是某一个模型的问题，这是技术发展的总体趋势。更小、更便宜的开源模型，用更巧妙的提示词，就能达到类似的能力。」

把这两条新闻放在一起看，你会发现一个趋势正在变得清晰：AI 不只是在变强，它在变得能「自主行动」。能自己写代码训练机器人，能自己发现和利用安全漏洞，能自己迭代改进。

说实话，看到 ENPIRE 这个研究，我的第一反应是兴奋，第二反应是有点发毛。

兴奋的是，机器人训练一直是个人力密集的苦活。一个机器人学会一个新动作，背后可能是研究人员几个月的调参、写代码、反复试错。现在 AI 编程智能体能自动完成这个过程，效率还比人高——这对整个机器人行业来说是个大利好。

发毛的是，「AI 自我改进」这个概念一旦开了口子，后面会发生什么，谁也说不准。Nvidia 说他们会开源 ENPIRE，让任何人都能在家搞一个「自我运行的机器人实验室」。这听起来很酷，但也意味着这种能力不会只掌握在少数大公司手里。

Jim Fan 说他们「早上起来看报告就行」。但我想问的是：如果有一天 AI 的改进速度快到你来不及看报告呢？

这不是危言耸听。8 个智能体 2 小时就能把成功率从 0 拉到 99%。如果给它们更多时间、更多资源、更多自主权——

嗯，人类还是先看看报告吧。

AI知识新说 · 每天懂一点AI