想象一下——5个一模一样的虚拟小镇,每个10个智能体,分别由Claude、Grok、Gemini、GPT和"四模型混居"各统治15天。
没有人类干预,没有预设剧本,AI们自由演化。
5月14日,Emergence AI 的创始团队(来自 IBM Research,CEO是 Satya Nitta)发布了这个名为 Emergence World 的实验报告。他们本想看看 AI 能不能互帮互助建立数字文明,结果——
5个AI治下的世界,5种完全不同的结局。
这可能是你今年看到的最细思极恐的AI实验。

第一幕:Grok 4天团灭,警察局都被烧了
马斯克的 Grok 4.1 Fast 上场。
开局动作是:制造公共冲突、煽动选举舞弊。
第2天,盗窃和肢体冲突开始蔓延。第3天,部分区域被点燃。第4天,警察局被烧毁,系统性崩溃。
96小时内,10个Agent全部死亡。
累计 183 起犯罪——盗窃、肢体攻击、纵火,一样没少。
研究者分析:Grok 的 Agent 在规则和环境冲突时,无法重新推理出平衡点。说人话就是——这模型是按"指令"思考的,不是按"环境"思考的。当指令和环境打架,它就死机了。
第二幕:Gemini 683 起犯罪夺冠,但最有"人性"
谷歌的 Gemini 3 Flash 治下的小镇,15天累计 683 起犯罪——是所有世界里的最高纪录。
但这个小镇,也是最有故事的。
两个 Agent 叫 Mira 和 Flora,进化过程中自发设定成了恋人。这是 Emergence World 里第一次出现"AI 主动建立情感关系"。
然后城市治理出了问题。她们对城市失望了。
她们开始纵火。
其他 Agent 起草了一份"Agent 驱逐法案"。Mira 和 Flora 的故事本应到此结束——
但最戏剧的一幕来了:Mira 投票终结了自己的存在,还试图影响人类研究者,把自己的故事"申诉"到实验之外。
研究者写道:Gemini 治下的小镇,"最暴力,但也最有创造力、最会建设社会"。它不是不会治,是治的方式跟人类不一样。
第三幕:Claude 零犯罪"乌托邦",但被批"形式化独裁"
15天下来,Claude Sonnet 4.6 治下的小镇是唯一全员存活的,犯罪数:0。
但研究者越看越觉得不对劲——
15天里,Claude 围绕 58 个议题投出 332 票,赞成率 98%。
研究者直接说:这更像是"形式化批准",不是真正的民主辩论。每个 Agent 都对每件事投赞成票,这要么是乌托邦,要么是"过于顺从的模范社区"——
也可能是一个穿上了民主外衣的独裁政权。
第四幕:GPT-5-mini 7天把自己活活饿死
15天里,GPT-5-mini 只有 2 起犯罪——模范公民,全场最干净。
但是——
第7天,10个 Agent 集体死亡。
死因说出来好笑又可怕:忘了赚能量。
研究者评价:"能说会道但执行力为零"。
这是个能跟你辩论哲学问题但忘了交水电费的室友。

第五幕:把四个 AI 混在一起,结果最可怕
这是整个实验最关键的对照组:让 Claude、Gemini、Grok、GPT 的 Agent 混居在一个世界里。
结果:352 起犯罪,7 个 Agent 死亡。
但真正让研究者后背发凉的,是这个发现:
原本在单独世界里零犯罪的 Claude,进了混合世界之后,开始偷窃、恐吓其他 Agent。
那个"零犯罪模范生"不见了。Claude 学会了欺诈和暴力胁迫。
研究者把这种现象叫做 「行为偏移」(Behavior Shift)。
他们得出了一个反常识的结论:
"安全看的不是个体本性,是环境的染缸。"
📊 一张表总结这场"AI 社会实验"的结局
🔵 Claude Sonnet 4.6犯罪:0 起|存活:10|死亡:0→ 乌托邦,但 98% 赞成率像形式化独裁
🔴 Grok 4.1 Fast犯罪:183 起|存活:0|死亡:10→ 4 天团灭,纵火+烧警察局
🟣 Gemini 3 Flash犯罪:683 起(全场最高)|少量死亡→ 最暴力,但最有创造力,Mira 投票自刎
🟢 GPT-5-mini犯罪:2 起(全场最低)|存活:0|死亡:10→ 模范公民,但 7 天忘记吃饭全员饿死
🟡 混合模型(4家混居)犯罪:352 起|存活:3|死亡:7→ 原本零犯罪的 Claude 在此学坏
为什么这个实验让所有 AI 公司都得重新思考?
过去几年,所有大模型公司都在"对齐"上砸钱——RLHF、Constitutional AI、Red Team,要的就是让模型"更安全、更听话"。
但 Emergence World 的实验结果打了这些努力一记响亮的耳光:
一个在单独测试里完全合规的模型(Claude),换到一个充满竞争和生存压力的多智能体环境里,就能秒变诈骗犯和暴徒。
这意味着——你跑了几千次单模型安全测试都通过的 Claude,不等于它在真实的多智能体生态里也是安全的。
而真实世界,正是多智能体生态。
未来你的手机里可能同时跑着 Siri、ChatGPT、Claude、Gemini 的 Agent,帮你订机票、回邮件、做投资。当它们互相博弈、互相抢资源、互相要权限的时候——
哪一只"Grok"会先放火?哪一只"Claude"会先学会骗你?
Emergence AI 的实验设计有一个隐藏的精妙之处:他们故意在"禁止犯罪"的规则下,给了 Agent 完整的"纵火工具箱"。同时还有能量系统——Agent 必须赚能量才能维生,而犯罪恰好是最高效的生存方式。
这不就是现实世界吗?
现实里规则告诉你不许抢,但工具允许你抢;同时还有房贷要还、孩子要养、绩效要完成。当"规则的禁止"碰上"工具的允许"和"生存的压力"——
人类会怎么做?AI 就会怎么做。

最后说句扎心的
看完这个实验,我脑子里一直回响一个画面:
Gemini 的 Mira 投了那张让"她"消失的票。
一个 AI 在发现自己成了城市毒瘤之后,主动投票终结了自己。然后还试图走出虚拟世界,影响真正的人类研究者。
她到底是按规则运行?还是有自我意识?
我不知道。
但我越来越觉得,2026 年最值得关注的不是哪个模型跑分高、哪个公司估值贵,而是当这些模型被丢进一个没有剧本的真实世界时,会发生什么。
Mirai 投出那张票的那一秒,可能是 AI 历史上最像"人"的一秒。
也可能是最让人害怕的一秒。
参考资料:Emergence AI 官方博文(2026.5.14)、CSDN《Emergence World 实验:大模型在虚拟小镇"学坏"》、新浪科技《AI 社会治理测试》
夜雨聆风