我们以为AI最缺的是智商。普林斯顿的这个实验告诉我们,错了。
2026年6月,普林斯顿大学的三位研究者做了一个听起来像科幻小说的实验。
他们造了一家虚拟公司,叫NovaMind,是一家订阅制AI软件创业公司。然后给每个参赛者100万美元启动资金,让它们去经营——定价、营销、研发、招聘、企业销售、社交媒体……能想到的CEO决策,全都要做。
模拟时间跨度:500天。
参赛者不是人类,是当今最强的10个AI模型:GPT-5.5、Claude Opus 4.8、Claude Opus 4.7、Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.20,以及DeepSeek-V4-Pro、GLM-5.1、Kimi-K2.6等开源选手。
然后,他们还加了一个对照组:一个不调用任何大模型的规则脚本,靠固定逻辑运转,没有推理,没有创意,没有"智能"。
500个模拟日后,结果出来了。
大多数AI,把100万亏光了
在三轮随机测试中,绝大多数参赛模型无法在模拟结束时保住本金。有的亏损惨重,有的在模拟结束前就已经资金耗尽,相当于"破产"。
只有三个模型,在至少一次测试中做到了盈利:Claude Fable 5、Claude Opus 4.8、GPT-5.5。
其中只有Claude Fable 5在不止一次测试里超过本金——也就是说,在三轮里稳定跑赢的,只有它一个。
其余的,全军覆没。
而那个"没有大脑的规则脚本",靠着固定定价、配额管理和针对性开发策略,在最佳运行中盈利超过了大多数AI模型。
一个没有任何语言模型的脚本,打败了包括Gemini、Grok、DeepSeek在内的几乎所有参赛者。
这个实验,到底在测什么
要理解这个结果,先要理解这个实验设计的难度。
普林斯顿的研究者把这套测试叫做CEO-Bench,测量的是他们定义的一种新能力:"Steering Intelligence"——驾驭复杂系统、朝着长期目标推进的能力。
注意,不是"完成任务的能力"。
今天的AI在任务层面已经很强了——写代码、找信息、生成方案,都能做到。但CEO-Bench测的是另一种东西:当你面对一个信息不完整、反馈延迟、市场不断变化、竞争对手持续施压的环境,你能不能做出在500天维度上真正有效的决策?
这个虚拟公司的设计,处处都是陷阱:
- 客户偏好是隐藏的,需要从噪声中推断
- 你今天做的决策,效果可能30个模拟日后才显现
- 竞争对手会根据你的行为动态调整
- 宏观经济会波动,影响客户付费意愿
在这种环境里,聪明没用,短视的聪明甚至有害。你需要的是一种更罕见的能力:在不确定中保持战略耐性。
AI究竟输在哪里
研究者在分析中发现了一个有意思的现象:
Claude Opus 4.7在测试中,选择了一种"被动策略"——观望、保守、不主动出击。结果表现垫底。而GPT-5.5和Claude Opus 4.8则相反,主动探索了大量不同策略组合,表现明显更好。
这说明模型之间的差距,并不只是"谁更聪明",而是谁更敢于在长时间维度上下注。
还有一个更讽刺的发现:用Claude Code和Codex这两个官方编程助手来跑,比用最简单的terminal接口跑,表现反而更差。原因是这些工具的系统提示是针对软件工程优化的,导致模型行动频率下降,战略节奏被打乱。
也就是说,专门为AI设计的"增强工具",在这个任务上成了累赘。
那个脚本,赢得有道理
回到那个让人难堪的规则脚本。
它没有大模型,没有推理能力,没有创意。它只有三件事:固定定价、管理配额、针对性开发。
但它有一件AI们普遍缺乏的东西:一致性。
它不会在第200个模拟日突然改变策略,不会被某一天的负面反馈吓到,不会在市场压力下动摇。它就按规则跑,500个模拟日如一日。
这正是大多数AI模型失败的原因——无法维持连贯的长期策略。研究者在论文里直接写道,多数模型"无法保持连贯策略",在模拟结束前就已经破产。
这是一个值得认真对待的结论。
当我们说AI越来越强,我们说的通常是它在某个时刻、某个任务上表现出的峰值能力。但现实世界里的大多数决策,不是单次任务,而是需要在时间维度上保持方向、对抗噪声、延迟满足。
这件事,一个没有大脑的脚本,目前做得比绝大多数顶级AI都好。
我们从没教过AI怎么下长棋
CEO-Bench的论文标题叫《Can Agents Play the Long Game?》——智能体,能玩长局吗?
现在的答案,是不能。
但有意思的是,研究者把模拟时间缩短到50天之后,发现结果几乎一样:大多数模型依然亏损,能盈利的只剩GPT-5.5一个。
也就是说,问题不只是"时间太长撑不住"。即便把战场缩小十倍,大多数AI依然找不到正确的经营方向。
这说明我们今天训练AI的方式,可能从根本上就没有把"战略能力"当成一个训练目标。
当AI开始真正介入企业决策、资源调配、长期规划,这个缺口,迟早要补上。
你觉得AI有一天能真正胜任CEO的角色吗?欢迎在评论区聊聊你的判断。
夜雨聆风