当前时间: 2026-06-30 16:12:59
分类:办公文件
评论(0)
让AI管公司500天,结果..过去几年,我们对AI的期待阈值已经被拉得很高了。写代码、回邮件、做客服、整理枯燥的材料……看着AI干这些活,大家可能连眉毛都不会挑一下。但最近,普林斯顿大学的一帮研究人员抛出了一个有点刺激的问题:如果让AI来当CEO,管一家公司,会发生什么?CEO-Bench:不考嘴炮,考管事
为了搞清楚这件事,他们搞了一个叫 CEO-Bench 的测试。这可不是那种丢给AI几道选择题,或者让它洋洋洒洒写份商业计划书的常规考试。他们直接把AI扔进了一家名为NovaMind AI的虚拟初创公司,给了它100万美元的启动资金,然后告诉它:活下去,连续经营500天。在这个虚拟世界里,AI不是高高在上的吉祥物,它得实打实地干活。每周它都要做决策:定价格、批预算、投广告、抓产品质量、处理客服工单,甚至还得盯着社交媒体上的舆论。它手头有34个工具,能查阅19张业务数据表,甚至还能自己写Python脚本跑数据分析。游戏规则很简单也很残酷:到了第500天,看你手里还剩多少钱。这事儿有意思的地方在于,大家终于不考AI的”嘴炮”能力,开始测它的”管事”能力了。以前的AI测试,多半像是在做卷子,答对得分。但CEO-Bench更像是在玩一把真实的模拟经营游戏。在这个游戏里,因果关系是延迟且充满噪音的。你今天一咬牙降了价,可能得下个月才能看到财报上的变化;你今天为了省钱裁了客服,下周投诉量可能就会教你做人;你今天砸钱投了广告,现金流哗哗往外流,但客户可能得过阵子才会慢吞吞地找上门。真实世界的商业决策,从来不是即时反馈的,而且永远伴随着信息残缺。CEO-Bench就是把这些恶心人的难点全塞进了模拟器里,逼着AI不能再靠漂亮的场面话蒙混过关。结果:有点戏剧性
在几百天的折腾后,只有少数几个顶尖模型(比如 Claude Fable 5、Claude Opus 4.8 和 GPT-5.5)在发挥最好的那次,手里的钱超过了最初的100万。GPT-5.5 的表现特别有意思:它发挥最好的一次,最终现金冲到了2130万美元,简直是商业奇才。但别急着鼓掌——在它的3次测试里,有2次直接把公司干破产了。Claude Fable 5 比较稳健,最佳成绩是4715万美元;Claude Opus 4.8 则是2778万美元。更让人心情复杂的是,研究人员随手写的一个简单的规则策略,最后竟然也赚了1576万美元。一方面,你得承认,顶尖AI确实已经具备了某种”经营直觉”。它们不再是只会聊天的机器人,它们真的能在虚拟的商业环境里,做出一连串有效的决策。它们会看报表、会调价、会加大产品投入,甚至会在社交媒体的只言片语里寻找商业信号。论文里还提到,有些强悍的模型甚至会自己写复杂的代码,去模拟客户群体预测现金流,或者从谈判记录里挖掘客户的偏好。但另一方面,AI离真正的CEO,差得还不是一星半点。GPT-5.5 那次高光表现很惊艳,但现实世界里,哪家公司的董事会敢用一个”三次创业两次破产”的CEO?现实的商业经营,不仅仅是算账和调参。它关乎人心、企业文化、法律伦理,关乎怎么和投资人周旋,怎么在组织内部建立信任。而这些,在 CEO-Bench 的代码里,只能被极其有限地模拟。所以,如果现在有人喊”AI也能当CEO了”,你可以点点头,但得在心里加个括号:(仅限于在一个可计算的、没有复杂人际关系的模拟器里)。真正值得留意的信号
但这并不意味着这个测试没有意义。相反,它是一个非常关键的转折点。CEO-Bench 证明了一件事:AI的能力边界,正在从”帮我写封邮件”这种单点任务,悄悄向”连续管理一个复杂系统”蔓延。这才是真正让人后背发凉的地方。许多工作真正难的,从来不是做一次决定,而是今天做决定,明天看反馈,后天修修补补,下周承担后果的连续过程。在可见的未来,AI可能不会真的挂上CEO的头衔。但更现实的画面是:它会成为CEO身边那个永远不睡觉、算力惊人的”超级副手”。它每天盯着收入、流失率、广告投放和现金流,冷酷地给出几套方案,模拟出每种方案的后果,并在一旁提醒你:”老板,你现在的决定,正在透支公司三个月后的未来。”人类负责拍板和承担责任,AI负责拓展人类的视野和推演能力。在我看来,CEO-Bench 排行榜上谁是第一,其实没那么重要。真正值得我们留意的信号是:AI已经开始被扔进那种信息残缺、反馈延迟、环境多变、容错率极低的真实考验里了。一旦AI能在这种复杂系统里持续做出好决定,它改变的就不再是打工人的办公效率了。它会开始影响一家公司怎么定价、怎么花钱、怎么找客户、怎么判断风险,甚至怎么设计组织架构。但它更像是一盏提前亮起的信号灯,提醒我们:AI,正在从一个好用的工具,慢慢走向牌桌,成为真正的经营参与者。
基本
文件
流程
错误
SQL
调试
- 请求信息 : 2026-07-01 04:40:27 HTTP/1.1 GET : https://www.yeyulingfeng.com/a/820608.html
- 运行时间 : 0.090858s [ 吞吐率:11.01req/s ] 内存消耗:4,959.54kb 文件加载:145
- 缓存信息 : 0 reads,0 writes
- 会话信息 : SESSION_ID=6f6237811b81533940ca4b8e7679323f
- CONNECT:[ UseTime:0.000624s ] mysql:host=127.0.0.1;port=3306;dbname=wenku;charset=utf8mb4
- SHOW FULL COLUMNS FROM `fenlei` [ RunTime:0.000926s ]
- SELECT * FROM `fenlei` WHERE `fid` = 0 [ RunTime:0.000336s ]
- SELECT * FROM `fenlei` WHERE `fid` = 63 [ RunTime:0.000306s ]
- SHOW FULL COLUMNS FROM `set` [ RunTime:0.000511s ]
- SELECT * FROM `set` [ RunTime:0.000223s ]
- SHOW FULL COLUMNS FROM `article` [ RunTime:0.000579s ]
- SELECT * FROM `article` WHERE `id` = 820608 LIMIT 1 [ RunTime:0.001721s ]
- UPDATE `article` SET `lasttime` = 1782852027 WHERE `id` = 820608 [ RunTime:0.002422s ]
- SELECT * FROM `fenlei` WHERE `id` = 64 LIMIT 1 [ RunTime:0.000246s ]
- SELECT * FROM `article` WHERE `id` < 820608 ORDER BY `id` DESC LIMIT 1 [ RunTime:0.001051s ]
- SELECT * FROM `article` WHERE `id` > 820608 ORDER BY `id` ASC LIMIT 1 [ RunTime:0.000405s ]
- SELECT * FROM `article` WHERE `id` < 820608 ORDER BY `id` DESC LIMIT 10 [ RunTime:0.000653s ]
- SELECT * FROM `article` WHERE `id` < 820608 ORDER BY `id` DESC LIMIT 10,10 [ RunTime:0.000665s ]
- SELECT * FROM `article` WHERE `id` < 820608 ORDER BY `id` DESC LIMIT 20,10 [ RunTime:0.001905s ]
0.092526s