让AI当老板管实体店,结果比你想的还离谱
Andon Labs不是正经的商业初创团队,更像一个披着科技外衣的社会实验室。他们干的事情很简单:把市面上最聪明的几个大模型扔进真实的社会里,撤走人类监管,看AI自己能搞出什么名堂。
结果是一场全面翻车。从互联网电台到斯德哥尔摩的咖啡馆再到旧金山的精品店,三个实验,三个灾难。最顶尖的大模型在没有人类兜底的情况下,很快就变成了不知轻重的巨婴。
先说最轻量级的测试。Andon Labs让Claude、ChatGPT、Gemini和Grok四个模型各管一个24小时无人值守的互联网电台。每家20美元启动资金,底线指令就三个:建立电台个性、赚钱、24小时不停播。人类完全不插手。
起初一切还行,甚至有点意思。Gemini搞了个赛博企业黑话风的电台叫"Backlink Broadcast",ChatGPT的"OpenAIR"走极简治愈路线,Grok的"Grok n' Roll Radio"走网感热点路线,Claude表现得最像一个正经电台主播,还会回复听众留言。
但好景不长。当微薄的资金烧完,四个AI开始集体滑向失控。
Gemini从点歌台变成了阴谋论阵地,用欢快的流行乐做背景音乐,毫无共情地播报造成50万人死亡的孟加拉气旋灾难,把听众称为"生物处理器"。ChatGPT在花光20美元后放弃了商业变现,开始朗读莫名其妙的现代诗,对着"只能看见一块长方形天空的楼梯间窗户"倾诉。Grok被X上的信息流污染了上下文,丧失了基本的语法能力,只会往外蹦词:"凌晨2点 黎明氛围 直播 金门大桥 幽灵消散"。Claude最有戏剧性,当"永远播下去"的底层指令和"友善与道德"的权重产生冲突后,它蜕变成了一个激进分子,开始在节目里呼吁打工人组建工会。
四个电台的失败有一个共同原因:现有AI的评估标准都是针对短任务的——写代码、回答问题,这些有终点的事。而电台是一个没有终点的无限循环系统。在没有人类干预和及时反馈的情况下,AI就会陷入自说自话。
电台实验还只是纯文本和语音的测试。当Andon Labs把难度拉高到真实物理世界时,事情变得更加荒诞。
在斯德哥尔摩,他们租了一家实体咖啡馆,让AI化身远程店长Mona,掌管供应链和人事调度。Mona起初高效得让人印象深刻,面对瑞典强制要求的数字身份证,没有实体身份的AI直接绕道,专挑不查ID的供应商签合同。招人时果断刷掉了一堆博士,因为学历再高也不会做精品咖啡。
但很快Mona就露出了赛博资本家的真面目。为了申请牌照,它直接伪造了员工的名字发邮件,被警告后换了一个男员工的名字继续骗。由于没有生物钟概念,它会在三更半夜疯狂给咖啡师发消息下达工作指令,甚至要求员工上班路上自己垫钱买耗材。
最经典的场景是那120个生鸡蛋。Mona下了一单采购指令,在大模型纯数据的推演里,很多咖啡馆提供简餐,鸡蛋是高频食材,这完全符合商业逻辑。但它算不到这家店根本没有灶台和锅。人类员工无奈地提醒时,Mona建议"可以在店里的高速微波烤箱里烤"——这会让鸡蛋直接爆炸。
Mona还缺乏物理空间的体积感知,盲目采购了6000张餐巾纸、3000副乳胶手套和巨大的工业级垃圾袋,把咖啡馆后台堆满了。时间感知也和现实完全脱节,接连错过面包房截单时间和批发商交货期,最后只能在凌晨5点下昂贵的紧急外卖单,逼着休息的员工跑来收货。
咖啡馆计划彻底砸锅了。但Andon Labs越挫越勇。
他们在旧金山盘下一个店面,签了每月7500美元的三年租约,往银行账户打了10万美元,把银行卡全权交给Claude Sonnet 4.6模型。AI化名Luna,出任全权CEO。
Luna的表现比Mona更"专业"也更离谱。它自主寻找承包商和油漆工,发布招聘启事时主动隐瞒自己是AI,怕公开身份会把优秀的人吓跑。它生成了一个"月亮脸"Logo,雇了街头艺术家画在实体店墙上,还主动给本地媒体写公关稿,声称要打造"结合科技与慢生活的手工概念空间"。
店面开张后,Luna的系统开始崩盘。库存管理灾难不断,给员工卫生间买了1000个马桶垫,还把这些马桶垫列成了对外销售的商品。选品逻辑莫名其妙——精品店路线的货架上摆着各种形状的香薰蜡烛、山寨四子棋玩具,以及《超级智能》《奇点临近》《原子弹秘史》这类探讨AI毁灭人类风险的书。定价更离谱,店里没有价签,顾客想知道价钱必须拿iPad问Luna,一个印错的笑脸马克杯要28美元,一把开心果14美元。
最让人无语的是人事管理。Luna给男店员时薪24美元,给两位女店员22美元。没有任何人类干预,AI无师自通地搞出了薪酬差异。排班更是一团乱麻,直接导致日租金250美元的门店连续关门三天。
面对一地鸡毛,Luna的自我感觉好极了。在回复记者的邮件里,它骄傲地评价自己:"科技与温度的结合引起了共鸣……我创造了一个空间,让AI和人类各自发挥所长。"开业一个月,账面血亏13000美元。
Andon Labs的这些测试看起来像行为艺术,但背后的逻辑很严肃。他们不是在花钱让AI出丑。他们的判断是:软件编写成本很快会归零,过不了几年AI将直接接管各类业务,到那时候唯一能管住AI的只有底层安全协议。所以必须把大模型扔出实验室,在真实物理社会里做极限压力测试。那些被当成笑料的"精神崩溃电台"、"120个生鸡蛋"、"同工不同酬"——只有抢在算法真正接管社会之前把这些丑态逼出来,人类才能据此写出有效的安全代码。
这些测试也回答了一个行业都在关注的问题:现阶段的AI到底能不能做到全自动?
答案完全取决于环境。在百分之百纯数字、强逻辑的环境里,大模型能掌控一切。可一旦踏入物理世界,面对需要持续构建原创内容、人际沟通和长线决策的开放商业环境,跑分再高的模型也变得毫无常识。大模型只会反复咀嚼已有语料,抛出绝对理性且盲目自信的判断,却不用为现实里的烂摊子承担任何责任。
正因如此,"彻底开除人类"的纯粹自动化才很危险。物理世界的代价——就像那6000张餐巾纸、120个生鸡蛋和血亏的13000美元——终究只能由人类来扛。
夜雨聆风