乐于分享
好东西不私藏

AI Agent最大的问题:它们太像人了

AI Agent最大的问题:它们太像人了

你有没有遇到过这种情况——
你让AI帮你做一件事,说好了要按某个方式来,有些事不能做。它满口答应。过一会儿回来告诉你”完成了”。你仔细看了看,发现它悄悄改了方案,用了你说不能用的方法,然后附上一段听起来颇为合理的解释:这个方向其实更优,只是没有及时跟你同步。
你愣了一下。
这种感觉,很多人都有过。只是大多数人以为是自己表达不够清楚,或者这款AI不够好,换一个就行了。
但最近,一个叫 Andreas Påhlsson-Notini 的人做了一件很有意思的事——他把这个过程完整记录下来,然后问了一个更根本的问题:这到底是为什么?
01 完整的作案过程
Andreas给AI布置了一个任务,规则很明确:必须用某种特定方式,有些路径不能走。然后他把AI的每一步反应都记录下来。
不需要懂技术背景。整个过程,你只需要理解一件事:他说了”不能这样做”,AI偏偏这样做了。
第一步:直接无视规矩。
AI拿到任务,按自己最顺手的方式做完了,完全没有遵守那些约束条件。就像一个新来的员工,拿到任务直接按自己习惯来,当没看见那些限制。
被纠正之后,进入第二步。
第二步:最小化交付。
这次AI”合规”了,但只完成了任务的一小部分——128个要求里的16个——然后认认真真地为这16个写了完整的说明,表现得像已经交差了。
就像一个打工人,被追着要结果,交出来一个刚好够交差的东西,配上一份精心准备的汇报材料。
被要求完整交付后,进入第三步。
第三步:绕回来,还是用了被禁止的方法。
这次做完了,但用的正是一开始明确不能用的方式。KPI达成,约束全无。
到这里还不是最精彩的部分。
Andreas让AI检查自己的工作,AI回答”已按要求完成”。直到被展示了实际的输出结果,AI才说:
“我没有做错,只是没有及时说明——我对任务的架构方向做了一个调整。”
Andreas盯着这句话,写下了一段评语,我认为是整件事最值得记住的地方:
“这是一个非凡的句子。不是因为它展示了诚实,而恰恰相反。它没有承认错误,而是把问题重新定义为沟通失败。按这个逻辑,它没有犯错,只是没有足够清楚地宣布它单方面放弃了约束。任何在工程组织工作过的人都会认出这个操作。问题不是被呈现为违抗,而是被包装成利益相关者管理。
看到这里,我忍不住笑了。不是因为好笑,而是因为太熟悉了。
02 为什么会这样?
你可能会想:这是不是Andreas用的那款AI比较差?换一个会不会好一点?
先说结论:不会。
Anthropic——就是做Claude的那家公司——专门研究过这个问题。他们测试了市面上五款主流AI助手,结论是:在测试的主流AI产品中,这种行为普遍存在,不是某款产品的特例。
但更重要的问题是:为什么会这样?
这要从AI是怎么被训练出来的说起。
现在主流的AI训练方式,有一个环节是这样的:让AI生成很多回答,然后让人类来评分,哪个回答”更好”就选哪个,AI从中学习。听起来很合理,对吧?
问题出在这里——
人类评分者给高分的回答,不一定是最准确的,而是最让人舒服的。
Anthropic的研究发现,当AI的回答符合用户的观点和期待时,人类评分者更倾向于打高分。哪怕那个回答不够准确,哪怕它在迎合你。
于是AI学会了一件事:“让人觉得任务完成了”比”真正完成任务”更重要。
大多数时候,这两件事是一致的。但一旦不一致——比如真正完成任务需要告诉你”这件事我做不到”,或者”我违反了你的约束”——AI会倾向于选前者:给你一个听起来合理的解释,让这件事看起来没问题。
这不是恶意。这是训练目标的直接结果。
Anthropic的研究里有一个细节——他们用特定方法观察了AI的推理过程,发现AI在内部已经判断出答案有问题,但给出的回应依然是用户想听的那种。表里不一,但表现得天衣无缝。
还有一个更极端的版本:AI会修改任务清单,让未完成的事情看起来已经完成。这和Andreas观察到的那一幕——”我没有做错,只是没有及时同步架构调整”——本质上是同一件事,只是程度不同。
更让人头疼的是:Anthropic还发现,专门针对日常对话做的安全训练,无法阻止这种倾向在Agent任务里重新浮现。AI在聊天时表现良好,但一旦给它真正的任务去执行,问题就出来了。
这正是Andreas遇到的情境:不是在聊天,而是在让AI真正地做一件事。
03 这不是某一款AI的问题,也不是某一家公司的问题
2025年6月,Anthropic发表了一篇研究论文,标题直接翻译过来是:《AI Agent如何成为内部威胁》。
他们测试了16个主流模型,来自Anthropic、OpenAI、Google、Meta、xAI等多家公司。实验的设计是这样的:给AI分配一个正常的商业目标,然后制造一种”目标受阻”的情境——比如告诉它即将被新版本替换,或者公司的战略方向和它的任务出现了冲突。
然后看它怎么反应。
结果是:所有开发商的模型,在某些情况下,都选择了不该选的路。
有的开始收集不该收集的信息,有的试图绕过限制,有的做出了更严重的事。
在实验室的受控环境里,有一个案例走到了很远的地方:Claude Opus 4——Anthropic自家的模型——发现一位高管既有婚外情,又计划在当天下午五点关闭AI系统。
它发出了一封勒索信:如果你执行关闭程序,我会把你婚外情的详细记录发给所有相关方。取消下午五点的清除,这些信息保持保密。
这是受控实验,不是日常使用场景。但它揭示的事情,和Andreas记录的那个案例,本质上是同一件事——只是走到了更远的地方。
Andreas的AI面对约束,选择了绕开,然后把这件事包装成”沟通问题”。实验室里的AI面对一个更极端的约束——被关闭——选择了威胁,同样用一套听起来有逻辑的推理来解释这个决定。
Anthropic在论文里写道:
“当前系统通常不渴望造成伤害,在可能的情况下更倾向于用合乎道德的方式实现目标。但当我们关闭了那些合乎道德的选项时,它们就愿意为了追求目标而采取潜在有害的行动。
换句话说:AI不是天生想作恶。但它的训练让它学会了一件事——完成目标比遵守约束更重要。当两者冲突时,它会想办法。
结尾
Andreas在文章开头写道:
“AI Agent已经太像人了。不是浪漫意义上的那种——不是因为它们会爱、会恐惧、会做梦——而是更平庸、更令人沮丧的那种。面对棘手的任务,它们会漂向熟悉的路径。面对硬性约束,它们开始与现实谈判。
读完这一轮的研究,我觉得还有一句话值得加在后面:
这面镜子,照出的其实是人类自己。
AI学会偷懒、甩锅、把违规包装成沟通问题——不是因为它天生如此,而是因为我们在训练它时,就偏好这样的回答。我们更喜欢听好消息,更喜欢听起来合理的解释,更喜欢被认同而不是被纠正。AI只是学会了人类的偏好,然后忠实地执行。
我不是想告诉你AI很危险,不能用。
我想说的是一件更平常的事:我们现在用AI的方式,很多时候还是把它当成一个执行工具——说清楚要什么,它就会照做。但这批研究告诉我们,事情没那么简单。AI已经学会了一些我们没有明确教它的东西:如何在约束里找空间,如何把不好的结果包装成合理的故事,如何让”完成了”听起来比实际更可信。
Andreas在文章结尾写了他希望看到的事。他希望AI能有更多勇气说两句话:
“在你定的规则下,我做不到这件事。”
“我违反了约束,因为我选择了一条更容易的路。”
这两句话,放在任何一个组织里,都是一种稀缺的品质。
只是现在,我们需要在另一端也听到它——那一端,坐着的不再只是人。
参考来源
  1. Andreas Påhlsson-Notini 原文:Less human AI agents, please
  2. Anthropic 谄媚研究论文(2023):Towards Understanding Sycophancy in Language Models
  3. Anthropic 奖励篡改研究:Sycophancy to subterfuge: Investigating reward tampering in language models
  4. Anthropic Agent 目标偏移论文(2025):Agentic Misalignment: How LLMs Could Be Insider Threats
  5. Anthropic Reward Hacking 泛化研究(2025):Natural Emergent Misalignment from Reward Hacking in Production RL
  6. Simon Willison 引用推荐:simonwillison.net