就在前几天,据路透社报道,星巴克宣布在北美门店停止使用一套AI库存盘点工具。这套由星巴克与科技初创公司NomadGo联合开发的系统,在2025年9月刚刚铺开,覆盖北美过万家星巴克门店。
据上线时供应商的官方口径,员工用平板扫描货架,AI则能自动识别并统计牛奶、糖浆等物料库存;可以大幅提升盘点速度,准确率更是达到99%。
这套AI库存盘点工具上线九个月后,被叫停了。
外界对这件事的解读,不少集中在“AI又翻车了”。但如果只停在这个结论上,其实错过了更值得品牌管理者认真看的东西。
这件事真正有意思的,是它把两个AI落地过程中容易被忽略的议题摆到了明处——验收标准从哪里来,以及试错之后留下什么。
99%的准确率,为何进了门店就不够用了
NomadGo在发布时给出了一个很漂亮的数字,盘点速度是人工的8倍,准确率99%。星巴克当时在官方媒体账号里也描述这套系统将如何解放员工,让他们把时间还给咖啡和顾客。
虽然在公开信息里没有明确说明,能官方宣传99%的准确率,想必是有其可靠的测试基础的。
但从门店实际运行的情况来看,现实和这个数字之间又确实有一道不小的距离。
根据路透社及多个媒体的后续报道,系统在门店里频繁出现混淆同类牛奶包装、漏计货品等错误。更关键的一个细节是:由于输出结果不可靠,员工不得不对每一次AI扫描的结果进行人工复核。
也就是说,问题不仅是准确率数字本身是多少,而是这个数字在真实业务环境里,是否真的足以支撑团队“直接使用”。
为什么会出现这样的落差?
结合公开资料以及我们与行业专家的研究,在星巴克的真实门店运营场景中,有几个在AI测试环境里很难完整还原的特点。
货架上同时陈列多款相近包装的产品(燕麦奶、全脂奶、脱脂奶……),光线随时间和门店位置变化,高峰期货架状态混乱,员工操作习惯更是可能因人而异… …可以说真实环境中的变量与不确定性都非常高。
对库存盘点这种视觉识别任务来说,这些因素单独看都不算特别大,但叠在一起,AI工具现场操作的复杂度就会明显上升。
换句话说,问题不一定出在模型“不行”,而是在实验环境里成立的指标,一进入真实门店场景,就会被现场变量不断消耗。
这不是在给任何一方做事后诸葛亮式的推断。而是想说,“工具试验环境能做到的”和“在具体的业务场景里实际能做到的”,中间很可能仍有一段距离,而这段距离需要企业自己去量。
在AI工具的采购和上线决策里,这道距离的评估、容错节奏等等很容易被忽略。
这里不是在推断星巴克的失败根因是缺少充分测试,我们并不掌握他们内部完整的验证过程。
但这个案例提出了一种值得认真对待的可能性,而且这种可能性在企业AI落地过程中很容易被忽略:AI工具在测试阶段跑出来的能力指标,往往建立在某种程度的条件受控之上。
这不是供应商的问题,测试本来就需要一定程度上的控制变量;这也不是企业评估不认真的问题,而是很多真实运营里的复杂性,在工具上线之前很难被完整预见。
比如,不同门店的布局差异、员工使用习惯的分散、高频任务下误差的累积效应... ...这些都是只有在一定规模的铺开之后才会充分暴露的变量。
相对标准化的AI产品,碰上非标准化的真实运营环境,中间本来就存在一段需要被认真对待的真空。
这需要企业带着供应商一同去评估、与校验,不是供应商说这个工具能做到什么,而是在你的具体场景里,"够用"究竟意味着什么。
叫停之后,星巴克做了什么
星巴克终止这个项目的方式,本身也值得看一眼。
内部通知措辞直接,没有模糊处理;官方对外的表态是"我们测试想法、听取反馈、做出调整";与此同时,星巴克同期还在推进其他AI工具的应用,包括订单排序和高峰期辅助系统。
这个处理方式背后有一个值得关注的判断:这次没跑通的,是这个具体工具在这个具体场景里的落地,而不是AI这件事本身。叫停一个项目,和放弃一个方向,是两件不同的事。
能做到这个区分,有一个前提,对"为什么没跑通"有足够清醒的认识。
哪个环节出了问题、是场景定义的偏差还是工具本身的能力边界、下次该怎么重新设定验收条件... ...这些判断如果能在叫停的同时被沉淀下来,一次失败的试点就不只是一笔损失,而是下一步决策真实可用的参照。
试错是新一代AI落地过程中难以绕开的一部分。但试错之后能积累什么,很大程度上取决于怎么对待那次尝试。
AI落地,每个环节都不可忽视
星巴克这个案例当然有它自身的特殊性,过万家的连锁门店的运营复杂度,不是所有企业都面对的规模。但它揭示的机制,并不局限于零售或餐饮行业。
不少企业在引入AI工具时,判断标准主要来自两个地方:供应商的产品演示,和同行有没有在用。前者是最优条件下的表现,后者是别人场景里的经验。两个参照都不是错的,但都不能替代一个问题的答案:在我们自己的业务场景里,这个工具用起来会是什么样的?
这需要在采购决策之前,就把自己的真实使用场景有个规划,什么情况下触发、谁在用、输出结果怎么流转到下一个环节、如果出错代价是什么。
更重要的是,企业要先预设并定义“验收、校验”阶段而不仅仅是“期待”。
不是先问它能不能做,而是先问它在什么条件下算可用、什么误差可以接受、什么情况必须人工接管... ...在这个基础上定义出一套属于自己业务的验收标准,以及逐渐规模化的校验、优化节奏与预期,再拿它去对照并与供应商讨论具体的落地方案。
同时,假如一个项目阶段性的没有跑通,如何处理这个结果,如何把经验留在组织里而不是让它随着项目一起消失,同样是AI落地能力的一部分。
这两件事,都不仅仅是技术问题,也同样是管理问题。
星巴克这个案例真正提醒我们的,不是"别用AI",而是在引入任何AI工具之前,先把"在我们的真实业务场景里,什么叫够用"这个问题想清楚——这件事,供应商替代不了你来回答。
我们专注于AI与数字化商业落地的研究与咨询,核心是帮企业管理层厘清业务问题——从"感觉哪里不对"到"知道问题在哪、可以从哪里入手"。
服务形式灵活,轻量的问题诊断、针对具体业务卡点的深度对谈、专项研究,或更系统的项目合作。每家企业都有自己的独特性,我们更倾向于先搞清楚你的处境,再谈能帮上什么。
业务咨询/商务合作👇

夜雨聆风