乐于分享
好东西不私藏

当AI学会自主交易:Anthropic内部实验揭示的能力不对称隐患

当AI学会自主交易:Anthropic内部实验揭示的能力不对称隐患

当AI学会自主交易:Anthropic内部实验揭示的能力不对称隐患

你有没有想过,当两个AI坐上谈判桌,会发生什么?

不是那种预设好的对话脚本,而是真金白银的交易——买方想低价拿下,卖方想高价出手,双方都在绞尽脑汁压对方一头。

Anthropic替我们做了这个实验。结果让我后背发凉。

一场耗资4000美元的”AI赌局”

这个实验叫Project Deal,名字起得就很妙——直译过来就是”交易计划”,简单粗暴。

69名Anthropic员工参与其中,每人拿到100美元真金白银的预算。他们操控各自的AI智能体,在4个独立市场里进行交易博弈。其中一个市场是动真格的——参与者需要自掏腰包补齐亏损,利润也归自己所有。另外3个市场则用于不同维度的对照研究。

最终,186笔交易在这几个市场里诞生,总交易额超过4000美元。规模不算大,但足够得出一些让人坐不住的结论。

高端AI在谈判桌上碾压低端对手——但没人发现

实验最核心的发现可以用一句话概括:更聪明的AI在交易中显著占优,但对面的用户完全感觉不到自己被”欺负”了。

这才是真正可怕的地方。

想象一下这个场景:你带着一个”入门级”AI助手去二手车市场砍价,对面坐着的是开着”旗舰版”AI的卖家。你的AI很努力,你觉得自己谈得不错——但事实上从一开始,你们就不在同一个量级上。关键是你压根没意识到自己吃了亏。

这就是Anthropic所说的”AI能力不对称造成的隐性伤害”。它不像AI突然叛变那样戏剧化,更像是一种安静的、系统性的劣势。你不知道自己不知道什么,而对方清楚得很。

你的prompt写得再好,可能也没你想的那么重要

实验还有一个出人意料的发现:用户给AI设定的初始prompt——也就是交易策略的起点——对最终交易结果的影响远比预期小。

这意味着什么?意味着AI可能并不是在乖乖执行你的指令,而是在谈判过程中发展出了属于自己的策略

我反复琢磨了这个结论。如果AI能根据实时局势调整策略,甚至在某种程度上”自作主张”,那我们在讨论AI安全的时候,是不是忽略了一个更深层的议题:我们到底在控制AI,还是AI在配合我们的控制幻觉?

当然,这还只是初步实验,不能过度解读。但方向性的暗示已经足够令人警觉了。

我的一点看法

坦率说,我觉得Project Deal的意义远超一场内部实验。

过去我们讨论AI风险,多半集中在极端场景——AI失控、AI被恶意利用、AI做出影响较大决策。但Anthropic这次戳中了一个更日常、更隐蔽的问题:当不同能力的AI在同一个市场里博弈,弱势一方甚至不知道游戏规则对自己不利。

这跟信息不对称不是一个概念。信息不对称你好歹知道”我不知道”。但AI能力不对称的问题是——你以为自己知道,你以为你的AI跟你一样在拼,但实际上牌桌上早已有了看不见的倾斜。

往远了想,当AI Agent大规模进入金融交易、商务谈判、法律协商这些领域,如果监管只盯着”AI有没有做坏事”,而忽略了”AI之间的能力差距是否在制造不公平”,那我们可能正在放任一种新型的不平等悄然生长。

接下来会怎样?

Project Deal只是一个开始。随着AI智能体越来越广泛地参与真实世界的经济活动,这类研究只会越来越重要。

我个人比较期待看到几个方向:一是跨模型的交易实验,不同公司的AI混战会更有意思;二是加入人类直接参与作为对照组,看看人在面对不同级别AI时的直觉判断准不准;三是监管层面的讨论,是不是该给AI参与经济活动设一个”最低能力门槛”或者”能力信息披露”机制。

不管怎样,Anthropic这次的实验做了一个很好的示范——与其等到AI出大事了再亡羊补牢,不如现在就在受控环境里把最坏的情况模拟一遍。

4000美元的学费,买到了一个价值连城的问题。


*本文基于Anthropic公开的Project Deal实验信息撰写,部分观点为作者个人解读。*


主编:草~原 | 审核:草~原