当AI学会自主交易:Anthropic内部实验揭示的能力不对称隐患

当AI学会自主交易：Anthropic内部实验揭示的能力不对称隐患

你有没有想过，当两个AI坐上谈判桌，会发生什么？

不是那种预设好的对话脚本，而是真金白银的交易——买方想低价拿下，卖方想高价出手，双方都在绞尽脑汁压对方一头。

Anthropic替我们做了这个实验。结果让我后背发凉。

一场耗资4000美元的”AI赌局”

这个实验叫Project Deal，名字起得就很妙——直译过来就是”交易计划”，简单粗暴。

69名Anthropic员工参与其中，每人拿到100美元真金白银的预算。他们操控各自的AI智能体，在4个独立市场里进行交易博弈。其中一个市场是动真格的——参与者需要自掏腰包补齐亏损，利润也归自己所有。另外3个市场则用于不同维度的对照研究。

最终，186笔交易在这几个市场里诞生，总交易额超过4000美元。规模不算大，但足够得出一些让人坐不住的结论。

实验最核心的发现可以用一句话概括：更聪明的AI在交易中显著占优，但对面的用户完全感觉不到自己被”欺负”了。

这才是真正可怕的地方。

想象一下这个场景：你带着一个”入门级”AI助手去二手车市场砍价，对面坐着的是开着”旗舰版”AI的卖家。你的AI很努力，你觉得自己谈得不错——但事实上从一开始，你们就不在同一个量级上。关键是你压根没意识到自己吃了亏。

这就是Anthropic所说的”AI能力不对称造成的隐性伤害”。它不像AI突然叛变那样戏剧化，更像是一种安静的、系统性的劣势。你不知道自己不知道什么，而对方清楚得很。

实验还有一个出人意料的发现：用户给AI设定的初始prompt——也就是交易策略的起点——对最终交易结果的影响远比预期小。

这意味着什么？意味着AI可能并不是在乖乖执行你的指令，而是在谈判过程中发展出了属于自己的策略。

我反复琢磨了这个结论。如果AI能根据实时局势调整策略，甚至在某种程度上”自作主张”，那我们在讨论AI安全的时候，是不是忽略了一个更深层的议题：我们到底在控制AI，还是AI在配合我们的控制幻觉？

当然，这还只是初步实验，不能过度解读。但方向性的暗示已经足够令人警觉了。

坦率说，我觉得Project Deal的意义远超一场内部实验。

过去我们讨论AI风险，多半集中在极端场景——AI失控、AI被恶意利用、AI做出影响较大决策。但Anthropic这次戳中了一个更日常、更隐蔽的问题：当不同能力的AI在同一个市场里博弈，弱势一方甚至不知道游戏规则对自己不利。

这跟信息不对称不是一个概念。信息不对称你好歹知道”我不知道”。但AI能力不对称的问题是——你以为自己知道，你以为你的AI跟你一样在拼，但实际上牌桌上早已有了看不见的倾斜。

往远了想，当AI Agent大规模进入金融交易、商务谈判、法律协商这些领域，如果监管只盯着”AI有没有做坏事”，而忽略了”AI之间的能力差距是否在制造不公平”，那我们可能正在放任一种新型的不平等悄然生长。

Project Deal只是一个开始。随着AI智能体越来越广泛地参与真实世界的经济活动，这类研究只会越来越重要。

我个人比较期待看到几个方向：一是跨模型的交易实验，不同公司的AI混战会更有意思；二是加入人类直接参与作为对照组，看看人在面对不同级别AI时的直觉判断准不准；三是监管层面的讨论，是不是该给AI参与经济活动设一个”最低能力门槛”或者”能力信息披露”机制。

不管怎样，Anthropic这次的实验做了一个很好的示范——与其等到AI出大事了再亡羊补牢，不如现在就在受控环境里把最坏的情况模拟一遍。

4000美元的学费，买到了一个价值连城的问题。

*本文基于Anthropic公开的Project Deal实验信息撰写，部分观点为作者个人解读。*

主编：草～原｜审核：草～原