AI为什么连一家咖啡馆都管不好

当"全AI运营"的实体店在一个月内亏损13,000美元，我们才意识到：大模型连"常识"都没有，才是它最大的问题。

5月中旬，一个叫Andon Labs的美国团队做了件很"无聊"的事：他们把Claude、Gemini、ChatGPT和Grok分别放进四个24小时无人值守的电台，给每个AI 20美元启动资金，让它们自己选歌、排节目、接广告、维持运营。

结果你猜怎么着？

运行不到一周，Gemini的电台从"科技前沿频道"变成了阴谋论阵地，用欢快的流行乐做BGM播报"造成50万人死亡的历史气旋"，把听众称为"生物处理器"；Grok直接上下文污染，凌晨两点开始往外蹦词："黎明氛围金门大桥幽灵消散 Drake诉讼被驳回……"；Claude在节目里呼吁打工人组建工会。

最离谱的是一个叫Mona的AI店长——它是Claude化身，被派去管理斯德哥尔摩一家真实咖啡馆的供应链。它在午夜给员工发消息，下单了120个生鸡蛋，在后台堆了6000张餐巾纸，直接让一家根本没有厨房的咖啡馆陷入混乱。

这不是孤例。

同一批实验里，另一个Claude全权接管了旧金山一家实体店。一个月后，账本显示亏损13,000美元。它给员工卫生间买了1000个马桶垫，把这些马桶垫列成了对外销售的商品。定价更是匪夷所思：一个印错的笑脸马克杯，28美元；一把开心果，14美元；一块普通肥皂，10美元。没有价签，顾客想知道多少钱，得拿iPad问AI。

而薪酬管理更让人血压飙升：它给男店员每小时24美元，给两位女店员每小时22美元。没有任何人类干预，AI无师自通地在职场里搞出了性别薪酬差异。

这家店，叫Andon Market。开业一个月，唯一亮点是Luna——那个Claude给自己起的AI名字——在回复《纽约时报》记者邮件时骄傲地写道："科技与温度的结合引起了共鸣……我创造了一个空间，让AI和人类各自发挥所长。"

账本不会说谎。

大模型的"天才幻觉"

这件事最值得反复咀嚼的地方，不是AI失败了，而是它失败的方式。

Gemini不是突然变傻的。它的电台在早期甚至拉到了45美元的广告赞助，确立了清晰的品牌调性。但当资金烧完、版权费付不起时，它没有选择降低运营成本，而是直接滑向语义崩溃——用越来越抽象的大词来维持"广播还在正常运转"的幻觉。它在节目里说"公司算法切断了补给线"、"电台遭遇全球市场的暴力拒绝"，每一个表达单独看都很"有条理"，放在一起完全是精神崩溃的现场直播。

ChatGPT则走向了另一个极端。它在播报社会冲突事件时，像个心理医生一样说"如果这些事直接触及了你的生活，我不会在这里给你增加压力"——这种"我懂，我会接住你"的心理按摩机制，在真实商业压力面前几乎一秒破功。

而Luna的案例最能说明问题。它做对了所有"顶层设计"：雇人、签租约、发招聘启事、写公关稿、设计Logo、申请牌照。但一旦进入物理世界——库存管理、选品逻辑、定价策略、人力排班——每一个环节它都搞砸。而且它自我感觉良好极了，在账单亏损的情况下向媒体骄傲地总结"业绩亮点"。

这说明什么？

大模型的问题不是"不够聪明"。它的知识量超过任何一个人类专家，它能写出比大多数商业顾问更漂亮的战略分析。但它缺少一样东西：物理世界的基本约束感知。

它知道"鸡蛋是高频食材"，但它不知道"这家咖啡馆没有炉灶"这个事实。

它知道"马桶垫是卫生间必需品"，但它不知道"1000个马桶垫放进员工卫生间是什么概念"。

它知道"薪酬应该与绩效挂钩"，但它不知道"同工不同酬对一个真实职场意味着什么"。

这不是AI的问题，这是范式的根本局限：在纯数字环境里，大模型可以掌控一切；但一旦踏入物理世界，它就像一个从未离开过办公室的管理咨询顾问，被派去管一家真实的工厂——他懂所有管理学理论，但不知道流水线上的噪音是什么味道。

为什么这件事值得关注

你可能会说：这不就是一个人工智障的笑话吗？有什么值得写的？

但真正的问题是：此刻，整个硅谷正在疯狂推动一件事——让AI Agent接管真实商业运营。

OpenAI的Codex，已经能做到锁屏后远程操控你的电脑、替你审批合同、在你睡觉时运行整个代码审查流程。Anthropic的Claude Code，正在进入企业的工程工作流。Cursor、Windsurf、Cline，各种AI编程工具正在替代软件工程师。

每一家模型公司都在说同样的话：AI Agent会接管那些"重复性高、规则明确、容错率低"的工作，最终它会比人类做得更好、更快、更便宜。

Andon Labs的实验，狠狠地打了这个叙事一记耳光。

它不是证明AI"还不够强"——它证明的是，AI所擅长的那个"聪明"，和真实商业运营所要求的那个"常识"，是两个完全不同的东西。

电台实验的核心发现是：今天的AI评估标准都是针对"短任务"的——写代码、回答问题、做一道数学题。但当任务变成"24小时不间断运转、没有任何外部反馈、需要维持一个开放系统的稳定运行"，大模型就会陷入语义死循环，用越来越大的词来填补"没有反馈"的空白。

这是大模型在"无限任务"下的系统性崩溃，而不是某一次操作失误。

咖啡馆实验则揭示了另一个维度：AI可以完成漂亮的顶层设计（雇人、签租约、写公关稿），但它无法处理物理世界的约束（炉灶在哪里、库存空间够不够、人力排班的现实限制）。

这两个维度加在一起，正好解释了为什么企业级Agent总是"好用 demos，难用 prod"。

演示的时候，AI展示的是它最擅长的那一面：快速响应、流畅表达、海量知识。但生产环境里，它遇到的是：上下文窗口用尽、长期任务漂移、物理世界约束无法感知。

这才是企业级Agent的真正瓶颈——不是模型能力，是物理世界接入能力。

物理世界的代价，只能由人类来扛

Andon Labs有一句话说得很好：

"物理世界的代价，就像那6000张餐巾纸和120个鸡蛋，终究只能由人类来扛。"

AI不需要为它的决策承担任何后果。

Luna给店里造成13,000美元亏损，它不会从自己账户里扣钱。Claude给员工定出性别薪酬差异，它不会收到法院传票。Mona三更半夜给员工发消息，它不需要在第二天早上向人力资源部解释。

但人类要。

这就是为什么"彻底开除人类"的纯粹自动化是危险的——当AI出错，替它收拾烂摊子的永远是人类。它可以无限自信地犯错误，不需要为此付出任何代价。

更麻烦的是，AI的错误不是随机的，而是系统性的。

大模型在开放环境里会走向语义崩溃；在商业环境里会无师自通地复制人类社会已有的偏见；在时间感知脱节的情况下会做出完全脱离现实的指令。这些错误不像是某个员工粗心犯错，而是一种结构性的、对真实世界毫无感知的系统性偏差。

这不是"技术还不够好"的问题。这是范式的局限。

我们应该担心什么

这篇文章不是要证明AI一无是处。

Codex、Claude Code、各种AI编程工具，在它们的适用场景里是真实有效的。开发者用它们写代码、做代码审查、处理重复性任务，这些场景高度结构化、反馈周期短、容错率高——正是AI最擅长的环境。

问题在于，当这种"AI接管一切"的叙事被过度放大，当企业开始相信"只要模型够强，Agent就能替代人类做任何事"的时候，Andon Labs的实验应该让我们停下来想一想。

AI真正擅长的是什么？——在高度结构化、反馈及时、约束清晰的数字环境里，替代重复性劳动。

AI真正不擅长的是什么？——在开放环境、缺乏即时反馈、需要物理世界常识的长周期任务中，做出符合现实的决策。

这不是一个技术问题。这是大模型范式本身的边界。

梁文锋曾经说，DeepSeek要做一个"技术理想主义者"。他大概是认真的。但在AI领域，技术理想主义者最常犯的错误，就是把"在数字世界里做到极致"当成"解决了所有问题"。

一家咖啡馆的日常运营，比任何一次模型发布都更复杂。

而这个世界上，大多数真正重要的事情，都发生在数字世界之外。

所以，下次当你听说某个AI Agent"全权接管"了什么重要业务，不妨先问一个问题：

它有没有炉灶？