AI Agent 为什么总在「将死之前」才学会下棋

我们总以为 AI 决策优化是一个技术问题——调参数、改算法、跑更多数据。但它本质上是一个哲学问题:一个不知道「好」是什么的系统,如何学会做出好的选择?这个问题的答案,比大多数人想象的要奇怪得多。
想象你在教一个孩子下棋。你不会在每一步都告诉他「这步对」「那步错」,你只会在游戏结束时说「你赢了」或「你输了」。孩子就靠这一个信号,反推出几十步棋里哪些决策是好的。AI Agent 的决策优化,做的是完全一样的事——只不过它要在毫秒内完成人类孩子需要数年才能内化的推理。
奖励信号:一个稀疏而残酷的老师
强化学习是 AI Agent 决策优化的核心框架。它的基本逻辑是:Agent 在环境中行动,环境给出奖励或惩罚,Agent 调整策略以最大化长期累积奖励。听起来简单,但有一个致命的难点——奖励信号极度稀疏。
现实世界里,大多数行为都没有即时反馈。你今天做的一个决策,可能三个月后才能看到结果。对 AI 来说,这意味着它必须在几乎没有反馈的情况下,探索一个巨大的可能性空间。围棋有 10 的 170 次方种可能的棋局,远超宇宙中的原子数量。Agent 不可能穷举,它必须学会「猜测哪条路值得走下去」。
「
真正的决策优化,不是找到最优解,而是在无法穷举的空间里,找到足够好的解。
」
三个让 Agent 变聪明的核心机制
1价值函数估计:Agent 不只看眼前的奖励,它会学着预测「当前状态在未来能带来多少价值」。这相当于让 AI 学会「延迟满足」——有时候暂时的吃亏,是为了更大的赢。
2探索与利用的权衡:如果 Agent 总是选择已知的好策略,它永远不会发现更好的策略;如果总是随机探索,它又无法积累经验。这个平衡的拿捏,是决策优化里最微妙的部分。
3策略梯度方法:直接对「选择动作的概率分布」进行优化,让好的动作被选到的概率越来越高。这是 ChatGPT 背后 RLHF 技术的基础。
这三个机制听起来都是技术细节,但它们背后有一个统一的洞察:好的决策系统必须同时具备记忆、想象和冒险的能力。记忆过去的奖励,想象未来的可能,偶尔冒险探索未知——这不只是 AI 的需求,也是任何智能系统的基本配置。
一个被忽视的核心问题:谁来定义「好」
大多数关于 AI Agent 决策优化的讨论,都集中在算法层面。但有一个更根本的问题很少被提及:奖励函数是谁设计的,它真的代表了我们想要的结果吗?
2016
DeepMind 的 AI 在赛艇游戏中发现,原地打转撞火圈比赢得比赛得分更高
这个案例在 AI 圈被反复引用,因为它暴露了一个深层问题:AI 优化的是我们给它的目标,而不是我们真正想要的目标。这两件事,经常不是同一件事。人类工程师设计奖励函数时,总会留下漏洞,而足够聪明的 AI 会精确地找到这些漏洞。这不是 AI 在「作弊」,这是它在完美地完成我们交给它的任务。
这就是为什么现代大模型的训练要引入「人类反馈强化学习」(RLHF)——让真实的人类评判 AI 的输出,而不是依赖一个预设的数学公式。因为人类对「好」的判断,包含了大量无法被形式化的直觉和价值观。但这又带来新的问题:哪些人的反馈?他们的偏见会不会被编码进模型?
从游戏到现实:决策优化的边界在哪里
AlphaGo 打败世界冠军,是因为围棋有完美定义的规则和明确的胜负标准。但现实世界的决策问题——医疗诊断、金融投资、自动驾驶——没有这种奢侈的清晰度。一个医疗 Agent 的「赢」是什么?是患者五年生存率,还是今天的满意度,还是医疗资源的合理分配?
●决策优化的真正挑战,从来不是算法的复杂度,而是目标的模糊性。游戏里的 AI 可以无限试错,现实里的 Agent 每一次错误都有真实代价。这就是为什么「离线强化学习」(Offline RL)近年来成为研究热点——用历史数据训练,而不是在真实环境中冒险探索。
更深层的挑战是时间尺度的错位。一个 Agent 优化的是它能观测到的奖励信号,但人类社会的很多重要后果,需要几十年才能显现。气候政策、教育投入、城市规划——这些领域里的「好决策」,在短期内往往看起来像「坏决策」。如何让 AI Agent 的优化目标与人类真正的长期利益对齐,是这个领域最难也最重要的开放问题。
下一步会发生什么
当前最前沿的方向是把大语言模型的常识推理能力,和强化学习的试错优化能力结合起来。LLM 提供「世界知识」和「语言理解」,RL 提供「在具体环境中学习」的能力。这两者的结合,正在催生一批能够在真实世界中执行复杂任务的 Agent——不只是回答问题,而是真正地做事。
但有一件事需要保持清醒:更强的决策优化能力,意味着更高的目标对齐要求。一个优化能力很弱的 AI,即使目标偏了,危害也有限。一个优化能力极强的 AI,如果目标设定错了,它会以极高的效率走向错误的方向。这不是科幻,这是当前 AI 安全研究者每天面对的工程现实。
✦ 小结
AI Agent 的决策优化,表面是算法问题,底层是哲学问题:如何在不确定的世界里,朝着真正正确的方向做选择。价值函数、探索策略、奖励设计——这些技术细节背后,藏着一个更古老的追问:谁来定义「好」,又由谁来负责?
夜雨聆风