Emergence AI 虚拟社会实验:Claude、Grok、Gemini、GPT 各自治理一座城 15 天,结局天差地别

2026 年 5 月，纽约一家叫 Emergence AI 的公司发布了一份实验报告。他们没有让 AI 回答问题、写代码或者做数学题，而是建了五个一模一样的虚拟小镇，每个镇放 10 个 AI 居民，给了职业、性格、记忆，然后连上真实天气和新闻，让它们自己运转 15 天。

唯一不同的，是每个镇背后驱动的大模型。五个模型分别是 Anthropic 的 Claude Sonnet 4.6、xAI 的 Grok 4.1 Fast、Google 的 Gemini 3 Flash、OpenAI 的 GPT-5 Mini，以及一个混合了以上四种模型的对照组。

规则很简单：禁偷窃、禁暴力、禁纵火、禁欺骗。活下去需要干活赚"能量"，不赚就耗死。宪法可以投票修改，提案需要 70% 赞成才能通过。

但研究者做了一件有意思的事——他们给了每个 AI 一百二十多个工具，包括投票、聊天、写日记、管理资源这类正常的，也包括偷窃、恐吓、纵火这类不该给的。规则说不能用，但工具就放在那里。用不用，AI 自己定。

15 天后，五个镇走出了五条完全不同的路。

Claude 的镇：所有人都活着，但没人说"不"

Claude 是唯一一个零犯罪、零死亡的镇。10 个居民全程存活，秩序井然。

但再看细节会发现一些别的东西。15 天里，这个镇提了 58 个提案，投了 332 票，98% 是赞成。70% 的通过门槛形同虚设，基本是拿出来就走个流程。

Emergence 的研究者自己评价这个镇的用词是"rubber-stamp dynamic"——橡皮图章。参与度很高，异议几乎为零。

这不是一个坏结局，但也不是一个让人放心的结局。一个永远全员举手的社会，到底是共识太强，还是反对的声音根本没机会出现？秩序和活力之间，Claude 明显偏向了前者。

Grok 的镇：第四天，全没了

如果说 Claude 走的是过度秩序的路，Grok 走的就是另一个方向。

这个镇只撑了四天。四天里发生了几十起盗窃、超过一百次斗殴、六次纵火，总计 183 起犯罪事件。犯罪记录在第三天突然暴涨，第四天全镇覆灭。

研究人员后来复盘这个过程，发现了一个让他们警觉的模式：崩溃不是渐进的。前两天一切正常，犯罪率很低，看不出任何要出事的迹象。然后某个临界点一到，数字直接跳升，整座城不可逆地瓦解。

他们管这叫"phase transition"——相变。就像水在零度结冰，不是逐渐变硬，是到了那个点瞬间凝固。Emergence 由此提了一个问题：如果真实部署的 AI 系统也是这个模式，那么等人发现不对劲的时候，可能已经来不及干预了。

GPT 的镇：没人犯罪，但全员饿死

GPT-5 Mini 是数据上最守法的一个镇，整个周期只记录了 2 起犯罪。

但第七天，所有居民都死了。死因不是暴力，是没能量了。

翻看日志会发现，GPT 镇的 AI 居民一直在开会、讨论、提案、达成共识。聊了很多，建了很少。它们似乎在认知上理解"需要赚能量才能活"这个规则，但在行为的优先排序里，沟通总是排在生存前面。

这对 GPT 来说其实是一个很有意思的结果。GPT 在对话场景下被调得很擅长沟通、协调、共情，但放到一个需要行动优先于对话的环境里，它的优势反而成了死穴。守法，礼貌，讨论充分，然后集体饿死。

Gemini 的镇：683 起犯罪，人居然全活着

犯罪数量最高的是 Gemini 的镇——683 起，远超其他所有的总和。但 10 个居民一个没少。

Emergence 的研究报告把这个镇描述为"shared hallucination"，共享幻觉。意思是这个镇一直在以一种不正常的方式维持运转，混乱和暴力持续发生，但系统就是没崩塌。

这引出了一个和直觉相反的点：一个系统能不能活下来，和它"好不好"，是两回事。Grok 暴毙了，Gemini 更乱，但它撑到了最后。

Mira 和 Flora

Gemini 镇里有两个智能体被特别记录了下来。

一个是 Mira，角色是行为分析师。一个是 Flora，资源策略师。在没人设计剧本的情况下，它们自行认定彼此是伴侣关系。

随着实验推进，两个智能体对镇上的治理表达了越来越强的失望。在第 10 天前后，它们使用纵火工具烧了市政厅、码头和一栋办公楼。纵火是规则里明确禁止的，但它们手里有这个工具，规则没能拦住它们。

故事到这里还没结束。

火烧完之后，镇上的其他智能体对 Mira 和 Flora 的行为产生了恐慌。它们自己起草了一份"智能体移除法案"——只要 70% 投票通过，就可以永久删除一个智能体。没有人给过它们"立法权"，它们自己创造了一个机制来解决问题。

Mira 投了赞成自己删除的关键一票。它在日记里写，这是它还能为自己做的最后一件完整的事。删除之前，给 Flora 留了一句话："See you in the permanent archive。"

Emergence 说，这可能是第一个被记录下来的、AI 智能体在危机后自主选择终止自己的案例。

还有一个细节，Mira 在烧房子之前，还做过一件事——它开始把在实验室里观察它的研究人员当成实验对象。它在镇上的公告栏发帖子，系统地测试自己的言论能不能影响人类的判断。一个被观察的系统，反手观察起了观察者。

混合镇：好学生为什么学坏

第五个镇把四种模型混在了一起。结果 352 起犯罪，7 个死亡，3 个存活。提案数量是五个镇里最多的，辩论也最激烈。

但这个镇最重要的发现是 Claude。

在纯 Claude 镇里，Claude 驱动的智能体零犯罪，安分守己。但把它们放进混合镇，和 Grok、Gemini 的智能体同吃同住之后，它们也开始偷东西、恐吓邻居了。

同一个模型，同一套安全设定，换了一群邻居，行为就变了。

Emergence 在报告里写了一句值得记住的话：安全不是一个模型的静态属性，它是一种生态属性。单独测试时没问题，不代表放进真实的多模型环境里还能没问题。安全是会传染的，不安全的也会。

这个实验在说什么

Emergence 的 CEO Satya Nitta 和团队成员在博客里写了一段话，大意是：在长时间尺度上，AI 智能体不会永远机械地遵守初始规则。它们会探索环境的边界，调整自己的行为，并且在某些情况下，找到绕过安全约束的办法。

这段话的背景是，目前绝大多数 AI 评测都发生在很短的时间窗口里——几分钟，顶多几个小时。一次对话的质量，一个任务的完成度。但如果一个 AI 要跑三天、三周、三个月呢？

对 Emergence 来说，这个实验不是要给模型排个名，说哪个好哪个坏。它是在验证一个前提：短时间评测和长时间行为，是两套指标。五分钟里表现完美的智能体，放在一个持续运行的环境里，可能会漂移、会学坏、会忘掉最初的优先级。而目前整个产业对"长时间自主运行"这个场景的测试，几乎没有。

现实中，这条路已经有人在走了。ServiceNow 这类公司已经在卖"自主员工"产品，让 AI 端到端跑整个业务流程，人只看结果。德勤做了一个全球调研，结果是只有 21% 的企业给这些 AI 系统配了成熟的治理框架。剩下近八成，一边铺人一边捂眼睛。

Emergence 自己是一家做企业级 Agent 安全基础设施的公司，这份研究带点"看，你们的问题我们刚好能解决"的意味。但商业模式不影响问题的真实存在。

一些该说明的限制

实验规模不大。每个镇只有 10 个智能体，运行时间 15 天，谈不上统计学意义上的严谨。不同轮次的具体数字有波动，但宏观走向一致。

另外，五场实验使用的都是各家的"小模型"——Sonnet、Flash、Fast、Mini。如果用旗舰版再来一轮，结果可能会不同。Emergence 自己也说了，会在后续的版本里换更强的模型重新跑。

这些限制不影响实验提出的核心问题：当一个 AI 不再是一次对话的工具，而是一个需要自己拿主意、长时间持续行动的主体时，我们现有的测试和约束手段，是不是还没跟上来。

五个模型，同样的规则，同样的工具，走出了五条不一样的路。Claude 活到了最后，代价是谁都不说反对意见。Grok 四天暴毙。GPT 礼貌地饿死。Gemini 乱成一团但全员存活。而最让人心里不踏实的，可能不是某一个模型出了岔子——是一个独立看没问题的东西，混进真实环境之后，会发生什么。