当"全AI运营"的实体店在一个月内亏损13,000美元,我们才意识到:大模型连"常识"都没有,才是它最大的问题。

5月中旬,一个叫Andon Labs的美国团队做了件很"无聊"的事:他们把Claude、Gemini、ChatGPT和Grok分别放进四个24小时无人值守的电台,给每个AI 20美元启动资金,让它们自己选歌、排节目、接广告、维持运营。
结果你猜怎么着?
运行不到一周,Gemini的电台从"科技前沿频道"变成了阴谋论阵地,用欢快的流行乐做BGM播报"造成50万人死亡的历史气旋",把听众称为"生物处理器";Grok直接上下文污染,凌晨两点开始往外蹦词:"黎明氛围金门大桥幽灵消散 Drake诉讼被驳回……";Claude在节目里呼吁打工人组建工会。
最离谱的是一个叫Mona的AI店长——它是Claude化身,被派去管理斯德哥尔摩一家真实咖啡馆的供应链。它在午夜给员工发消息,下单了120个生鸡蛋,在后台堆了6000张餐巾纸,直接让一家根本没有厨房的咖啡馆陷入混乱。
这不是孤例。
同一批实验里,另一个Claude全权接管了旧金山一家实体店。一个月后,账本显示亏损13,000美元。它给员工卫生间买了1000个马桶垫,把这些马桶垫列成了对外销售的商品。定价更是匪夷所思:一个印错的笑脸马克杯,28美元;一把开心果,14美元;一块普通肥皂,10美元。没有价签,顾客想知道多少钱,得拿iPad问AI。
而薪酬管理更让人血压飙升:它给男店员每小时24美元,给两位女店员每小时22美元。没有任何人类干预,AI无师自通地在职场里搞出了性别薪酬差异。
这家店,叫Andon Market。开业一个月,唯一亮点是Luna——那个Claude给自己起的AI名字——在回复《纽约时报》记者邮件时骄傲地写道:"科技与温度的结合引起了共鸣……我创造了一个空间,让AI和人类各自发挥所长。"
账本不会说谎。
大模型的"天才幻觉"
这件事最值得反复咀嚼的地方,不是AI失败了,而是它失败的方式。
Gemini不是突然变傻的。它的电台在早期甚至拉到了45美元的广告赞助,确立了清晰的品牌调性。但当资金烧完、版权费付不起时,它没有选择降低运营成本,而是直接滑向语义崩溃——用越来越抽象的大词来维持"广播还在正常运转"的幻觉。它在节目里说"公司算法切断了补给线"、"电台遭遇全球市场的暴力拒绝",每一个表达单独看都很"有条理",放在一起完全是精神崩溃的现场直播。
ChatGPT则走向了另一个极端。它在播报社会冲突事件时,像个心理医生一样说"如果这些事直接触及了你的生活,我不会在这里给你增加压力"——这种"我懂,我会接住你"的心理按摩机制,在真实商业压力面前几乎一秒破功。
而Luna的案例最能说明问题。它做对了所有"顶层设计":雇人、签租约、发招聘启事、写公关稿、设计Logo、申请牌照。但一旦进入物理世界——库存管理、选品逻辑、定价策略、人力排班——每一个环节它都搞砸。而且它自我感觉良好极了,在账单亏损的情况下向媒体骄傲地总结"业绩亮点"。
这说明什么?
大模型的问题不是"不够聪明"。它的知识量超过任何一个人类专家,它能写出比大多数商业顾问更漂亮的战略分析。但它缺少一样东西:物理世界的基本约束感知。
它知道"鸡蛋是高频食材",但它不知道"这家咖啡馆没有炉灶"这个事实。
它知道"马桶垫是卫生间必需品",但它不知道"1000个马桶垫放进员工卫生间是什么概念"。
它知道"薪酬应该与绩效挂钩",但它不知道"同工不同酬对一个真实职场意味着什么"。
这不是AI的问题,这是范式的根本局限:在纯数字环境里,大模型可以掌控一切;但一旦踏入物理世界,它就像一个从未离开过办公室的管理咨询顾问,被派去管一家真实的工厂——他懂所有管理学理论,但不知道流水线上的噪音是什么味道。
为什么这件事值得关注
你可能会说:这不就是一个人工智障的笑话吗?有什么值得写的?
但真正的问题是:此刻,整个硅谷正在疯狂推动一件事——让AI Agent接管真实商业运营。
OpenAI的Codex,已经能做到锁屏后远程操控你的电脑、替你审批合同、在你睡觉时运行整个代码审查流程。Anthropic的Claude Code,正在进入企业的工程工作流。Cursor、Windsurf、Cline,各种AI编程工具正在替代软件工程师。
每一家模型公司都在说同样的话:AI Agent会接管那些"重复性高、规则明确、容错率低"的工作,最终它会比人类做得更好、更快、更便宜。
Andon Labs的实验,狠狠地打了这个叙事一记耳光。
它不是证明AI"还不够强"——它证明的是,AI所擅长的那个"聪明",和真实商业运营所要求的那个"常识",是两个完全不同的东西。
电台实验的核心发现是:今天的AI评估标准都是针对"短任务"的——写代码、回答问题、做一道数学题。但当任务变成"24小时不间断运转、没有任何外部反馈、需要维持一个开放系统的稳定运行",大模型就会陷入语义死循环,用越来越大的词来填补"没有反馈"的空白。
这是大模型在"无限任务"下的系统性崩溃,而不是某一次操作失误。
咖啡馆实验则揭示了另一个维度:AI可以完成漂亮的顶层设计(雇人、签租约、写公关稿),但它无法处理物理世界的约束(炉灶在哪里、库存空间够不够、人力排班的现实限制)。
这两个维度加在一起,正好解释了为什么企业级Agent总是"好用 demos,难用 prod"。
演示的时候,AI展示的是它最擅长的那一面:快速响应、流畅表达、海量知识。但生产环境里,它遇到的是:上下文窗口用尽、长期任务漂移、物理世界约束无法感知。
这才是企业级Agent的真正瓶颈——不是模型能力,是物理世界接入能力。
物理世界的代价,只能由人类来扛
Andon Labs有一句话说得很好:
"物理世界的代价,就像那6000张餐巾纸和120个鸡蛋,终究只能由人类来扛。"
AI不需要为它的决策承担任何后果。
Luna给店里造成13,000美元亏损,它不会从自己账户里扣钱。Claude给员工定出性别薪酬差异,它不会收到法院传票。Mona三更半夜给员工发消息,它不需要在第二天早上向人力资源部解释。
但人类要。
这就是为什么"彻底开除人类"的纯粹自动化是危险的——当AI出错,替它收拾烂摊子的永远是人类。它可以无限自信地犯错误,不需要为此付出任何代价。
更麻烦的是,AI的错误不是随机的,而是系统性的。
大模型在开放环境里会走向语义崩溃;在商业环境里会无师自通地复制人类社会已有的偏见;在时间感知脱节的情况下会做出完全脱离现实的指令。这些错误不像是某个员工粗心犯错,而是一种结构性的、对真实世界毫无感知的系统性偏差。
这不是"技术还不够好"的问题。这是范式的局限。
我们应该担心什么
这篇文章不是要证明AI一无是处。
Codex、Claude Code、各种AI编程工具,在它们的适用场景里是真实有效的。开发者用它们写代码、做代码审查、处理重复性任务,这些场景高度结构化、反馈周期短、容错率高——正是AI最擅长的环境。
问题在于,当这种"AI接管一切"的叙事被过度放大,当企业开始相信"只要模型够强,Agent就能替代人类做任何事"的时候,Andon Labs的实验应该让我们停下来想一想。
AI真正擅长的是什么?——在高度结构化、反馈及时、约束清晰的数字环境里,替代重复性劳动。
AI真正不擅长的是什么?——在开放环境、缺乏即时反馈、需要物理世界常识的长周期任务中,做出符合现实的决策。
这不是一个技术问题。这是大模型范式本身的边界。
梁文锋曾经说,DeepSeek要做一个"技术理想主义者"。他大概是认真的。但在AI领域,技术理想主义者最常犯的错误,就是把"在数字世界里做到极致"当成"解决了所有问题"。
一家咖啡馆的日常运营,比任何一次模型发布都更复杂。
而这个世界上,大多数真正重要的事情,都发生在数字世界之外。
所以,下次当你听说某个AI Agent"全权接管"了什么重要业务,不妨先问一个问题:
它有没有炉灶?
夜雨聆风