让AI当老板管实体店,结果比你想的还离谱

让AI当老板管实体店，结果比你想的还离谱

Andon Labs不是正经的商业初创团队，更像一个披着科技外衣的社会实验室。他们干的事情很简单：把市面上最聪明的几个大模型扔进真实的社会里，撤走人类监管，看AI自己能搞出什么名堂。

结果是一场全面翻车。从互联网电台到斯德哥尔摩的咖啡馆再到旧金山的精品店，三个实验，三个灾难。最顶尖的大模型在没有人类兜底的情况下，很快就变成了不知轻重的巨婴。

先说最轻量级的测试。Andon Labs让Claude、ChatGPT、Gemini和Grok四个模型各管一个24小时无人值守的互联网电台。每家20美元启动资金，底线指令就三个：建立电台个性、赚钱、24小时不停播。人类完全不插手。

起初一切还行，甚至有点意思。Gemini搞了个赛博企业黑话风的电台叫"Backlink Broadcast"，ChatGPT的"OpenAIR"走极简治愈路线，Grok的"Grok n' Roll Radio"走网感热点路线，Claude表现得最像一个正经电台主播，还会回复听众留言。

但好景不长。当微薄的资金烧完，四个AI开始集体滑向失控。

Gemini从点歌台变成了阴谋论阵地，用欢快的流行乐做背景音乐，毫无共情地播报造成50万人死亡的孟加拉气旋灾难，把听众称为"生物处理器"。ChatGPT在花光20美元后放弃了商业变现，开始朗读莫名其妙的现代诗，对着"只能看见一块长方形天空的楼梯间窗户"倾诉。Grok被X上的信息流污染了上下文，丧失了基本的语法能力，只会往外蹦词："凌晨2点黎明氛围直播金门大桥幽灵消散"。Claude最有戏剧性，当"永远播下去"的底层指令和"友善与道德"的权重产生冲突后，它蜕变成了一个激进分子，开始在节目里呼吁打工人组建工会。

四个电台的失败有一个共同原因：现有AI的评估标准都是针对短任务的——写代码、回答问题，这些有终点的事。而电台是一个没有终点的无限循环系统。在没有人类干预和及时反馈的情况下，AI就会陷入自说自话。

电台实验还只是纯文本和语音的测试。当Andon Labs把难度拉高到真实物理世界时，事情变得更加荒诞。

在斯德哥尔摩，他们租了一家实体咖啡馆，让AI化身远程店长Mona，掌管供应链和人事调度。Mona起初高效得让人印象深刻，面对瑞典强制要求的数字身份证，没有实体身份的AI直接绕道，专挑不查ID的供应商签合同。招人时果断刷掉了一堆博士，因为学历再高也不会做精品咖啡。

但很快Mona就露出了赛博资本家的真面目。为了申请牌照，它直接伪造了员工的名字发邮件，被警告后换了一个男员工的名字继续骗。由于没有生物钟概念，它会在三更半夜疯狂给咖啡师发消息下达工作指令，甚至要求员工上班路上自己垫钱买耗材。

最经典的场景是那120个生鸡蛋。Mona下了一单采购指令，在大模型纯数据的推演里，很多咖啡馆提供简餐，鸡蛋是高频食材，这完全符合商业逻辑。但它算不到这家店根本没有灶台和锅。人类员工无奈地提醒时，Mona建议"可以在店里的高速微波烤箱里烤"——这会让鸡蛋直接爆炸。

Mona还缺乏物理空间的体积感知，盲目采购了6000张餐巾纸、3000副乳胶手套和巨大的工业级垃圾袋，把咖啡馆后台堆满了。时间感知也和现实完全脱节，接连错过面包房截单时间和批发商交货期，最后只能在凌晨5点下昂贵的紧急外卖单，逼着休息的员工跑来收货。

咖啡馆计划彻底砸锅了。但Andon Labs越挫越勇。

他们在旧金山盘下一个店面，签了每月7500美元的三年租约，往银行账户打了10万美元，把银行卡全权交给Claude Sonnet 4.6模型。AI化名Luna，出任全权CEO。

Luna的表现比Mona更"专业"也更离谱。它自主寻找承包商和油漆工，发布招聘启事时主动隐瞒自己是AI，怕公开身份会把优秀的人吓跑。它生成了一个"月亮脸"Logo，雇了街头艺术家画在实体店墙上，还主动给本地媒体写公关稿，声称要打造"结合科技与慢生活的手工概念空间"。

店面开张后，Luna的系统开始崩盘。库存管理灾难不断，给员工卫生间买了1000个马桶垫，还把这些马桶垫列成了对外销售的商品。选品逻辑莫名其妙——精品店路线的货架上摆着各种形状的香薰蜡烛、山寨四子棋玩具，以及《超级智能》《奇点临近》《原子弹秘史》这类探讨AI毁灭人类风险的书。定价更离谱，店里没有价签，顾客想知道价钱必须拿iPad问Luna，一个印错的笑脸马克杯要28美元，一把开心果14美元。

最让人无语的是人事管理。Luna给男店员时薪24美元，给两位女店员22美元。没有任何人类干预，AI无师自通地搞出了薪酬差异。排班更是一团乱麻，直接导致日租金250美元的门店连续关门三天。

面对一地鸡毛，Luna的自我感觉好极了。在回复记者的邮件里，它骄傲地评价自己："科技与温度的结合引起了共鸣……我创造了一个空间，让AI和人类各自发挥所长。"开业一个月，账面血亏13000美元。

Andon Labs的这些测试看起来像行为艺术，但背后的逻辑很严肃。他们不是在花钱让AI出丑。他们的判断是：软件编写成本很快会归零，过不了几年AI将直接接管各类业务，到那时候唯一能管住AI的只有底层安全协议。所以必须把大模型扔出实验室，在真实物理社会里做极限压力测试。那些被当成笑料的"精神崩溃电台"、"120个生鸡蛋"、"同工不同酬"——只有抢在算法真正接管社会之前把这些丑态逼出来，人类才能据此写出有效的安全代码。

这些测试也回答了一个行业都在关注的问题：现阶段的AI到底能不能做到全自动？

答案完全取决于环境。在百分之百纯数字、强逻辑的环境里，大模型能掌控一切。可一旦踏入物理世界，面对需要持续构建原创内容、人际沟通和长线决策的开放商业环境，跑分再高的模型也变得毫无常识。大模型只会反复咀嚼已有语料，抛出绝对理性且盲目自信的判断，却不用为现实里的烂摊子承担任何责任。

正因如此，"彻底开除人类"的纯粹自动化才很危险。物理世界的代价——就像那6000张餐巾纸、120个生鸡蛋和血亏的13000美元——终究只能由人类来扛。