AI在宝可梦里按了842次“向下”,这事比通关更值得看

最近有篇关于 AI Agent 的论文，拿玩宝可梦做实验。

一听到这里，很多人第一反应可能是：这也能发论文？

一个 AI，对着二十多年前的像素游戏，按 A、B、上下左右，在草丛、山洞和道馆里来回折腾。听起来有点像技术圈的整活。

但我越看越觉得，这个实验很适合拿来观察今天的 AI Agent。

因为宝可梦不是一个“回答对就结束”的任务。它很长，很碎，很容易走偏。

你要记住自己在哪，要知道下一步去哪，要跟 NPC 对话，要穿过迷宫，要管理背包，还要打回合制战斗。前面漏一句话，后面可能绕半天。前面做错一个判断，后面可能一直在补锅。

💡
这不就很像现实里的很多工作吗？

▸帮你改一个老项目，不是生成一段代码就完了。
▸帮你处理一个复杂售后，不是写一句客服话术就完了。
▸帮你做一轮市场调研，也不是搜几条信息拼起来就完了。

真正麻烦的地方，永远是长期任务里的记忆、反馈、修正和不跑偏。

是它怎么失败。

有一次，AI 想去宝可梦里的发电厂。

老玩家知道，在初代宝可梦里，发电厂不是一个可以直接“飞过去”的地点。但 AI 不知道，或者说，它没有真正确认。

于是它打开菜单，准备用“飞翔”。

菜单不好操作，它就开始给自己写工具。它写了一个小工具，叫 fly_menu_navigator，看名字像是专门帮自己在飞翔菜单里找目的地的导航器。

这一步其实挺像今天很多 Agent 的工作方式：不会的地方，不只是继续硬做，而是给自己加工具。

问题是，它写出的工具调用格式错了。

系统需要它明确按一个特殊的 "tool" 按钮，才会真的执行这个工具。但它一直以为自己已经在调用工具，于是反复输出“Down”。

结果，它按了 842 次向下。

更荒诞的是，它在这个过程中还在认真反思。

它会写类似“我正在测试发电厂是不是可以飞过去，我会注意确认偏误”这样的话。

也就是说，它不是完全没思考。

▸它在思考。
▸它不是完全没复盘。
▸它在复盘。
▸它甚至不是没有工具。
▸它自己写了工具。

但它还是在原地绕了三个半小时。

💡
这就是长期 Agent 最真实、也最危险的地方：它可能看起来一直在努力，实际上没有推进。

AI Agent真正难的，不是“会想”，是“做错后能不能改”

今天很多人聊 Agent，喜欢用很大的词。

自主规划、工具调用、长期记忆、自我改进。

这些词都没错，但放到真实任务里，会立刻遇到一堆很小、很硬的问题。

▸工具调用格式会错。
▸记忆会过时。
▸目标会漂移。
▸复盘会变成自我安慰。

更麻烦的是，AI 有时候会把“我在分析”误以为“我在进步”。

那个按了 842 次 Down 的 AI，就卡在这里。

它的文字层面很像一个认真工作的员工：会写计划，会写反思，会提醒自己不要确认偏误。

但环境层面，它一寸没动。

这件事让我想到很多现实里的“假进展”。

▸项目周报写得很完整，但关键问题没解决。
▸会议纪要整理得很漂亮，但下周还是同样的人在同样的地方卡住。
▸一个人说自己复盘了半天，结果下次照样踩同一个坑。

所以判断一个 Agent 靠不靠谱，不能只看它会不会说“我反思了”。

要看它的反思有没有改变下一步动作。

这也是这篇论文真正想解决的问题。

所谓 Harness，其实就是给AI搭一张会变的工作台

论文里有个核心词，叫 Harness。

这个词不太好翻。你可以先把它理解成“工作台”或者“脚手架”。

一个大模型本身像大脑。

但只给它一个大脑，它干不了太多长期活。

你还得给它工具、记事本、任务分工、操作规范、失败记录。

这就像你让一个新人去装修房子。你不能只说“把房子装好”。你要给图纸、工具、预算表、验收标准，还要告诉他哪面墙不能砸。

如果干到一半发现水管位置不对，真正重要的不是让他写一句“我下次注意”，而是要改施工方案，改检查流程，改工具使用方式。

Agent 也是一样。

这篇论文提出的 Continual Harness，大概就是想让 AI 在长期运行中，一边做任务，一边改自己的工作台。

它会让一个“复盘员”定期看 AI 最近一段时间的行为，判断它是不是在绕圈、是不是工具调用失败、是不是目标停住了、是不是错过了关键线索。

然后它不只是提醒一句。

它会改四类东西：

▸提示词，告诉 AI 接下来该更注意什么。
▸子 Agent，相当于给不同问题配不同小助手。
▸技能库，把成功动作沉淀成可复用工具。
▸记忆，把重要信息留下，把过时信息降权。

这个思路很朴素，但很关键。

因为真正长期运行的 Agent，不能每犯一次错就重开一局。

现实工作没有“重置按钮”。

你处理线上事故，不能说我刚才学到了，我们把事故重新来一遍。

你跟客户推进项目，也不能让客户忘掉前面发生过什么。

长期 Agent 必须学会在残局里修正自己。

但别急着吹，它不是魔法

我喜欢这篇论文的一个地方，是它没有把事情讲得太满。

Continual Harness 对强模型有帮助，但对弱模型不一定有帮助。

在宝可梦 Emerald 的实验里，更强的 Gemini 3 Pro 加上这套机制，成本明显下降，完成度也更好。

但换成更弱的 Flash-Lite，效果反而可能比最简单的基线还差。

这点特别重要。

因为很多 Agent 产品现在容易犯一个毛病：把“加了工具”讲成“能干活”，把“有记忆”讲成“会成长”，把“能写计划”讲成“能执行”。

中间差得很远。

一个模型如果连基本观察、反馈理解和工具调用都不稳，你给它更多工具、更多记忆、更多子 Agent，它可能不是变强，而是更会把自己绕进去。

就像一个人看不懂图纸，你给他十本施工手册，他不会突然变成老师傅。

他只会更乱。

所以，Agent 的关键不是无限加功能。

而是要有能力门槛，也要有失败检测。

它得知道什么时候自己真的推进了，什么时候只是看起来很忙。

宝可梦实验给我们的启示，其实很现实

AI 玩宝可梦这件事，听起来猎奇。

但它暴露的问题一点都不猎奇。

未来我们让 Agent 做的很多事，都会长得像宝可梦。

▸路径不清楚。
▸反馈不及时。
▸任务很长。
▸中途会有很多小误差。
▸前面漏掉一句信息，后面可能花很久补救。

这时候，一个好 Agent 不该只是“更会说”。

它应该能留下轨迹，检查失败，更新记忆，修工具，必要时停下来承认自己不行。

我现在越来越觉得，长期 Agent 最怕的不是笨。

笨一点可以补。

最怕的是假装没出事。

▸明明工具没执行，它以为执行了。
▸明明目标没推进，它以为自己在探索。
▸明明已经重复失败，它还在写漂亮的反思。

这比单纯犯错更危险。

因为它会制造一种很像工作的错觉。

最后还是回到那842次“向下”

那个 AI 在宝可梦里按了 842 次 Down。

这当然有点好笑。

但笑完之后，我反而觉得它挺有价值。

因为它提醒我们：Agent 不是因为会写计划就可靠，也不是因为会调用工具就成熟，更不是因为会反思就真的能自我改进。

真正有用的 Agent，应该能在第十次、第一百次重复失败时停下来。

它要能意识到：

💡
我不是在探索。我是在原地打转。

然后，它要能改掉让自己打转的东西。

宝可梦里的发电厂不能直接飞过去。

现实里的很多目标，也不能靠一句提示词直接飞过去。

中间那段会迷路、会犯错、会修正、会重新搭工具的路，才是 Agent 真正要学会走的地方。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。