你的公司在用买电脑的逻辑选AI工具
一个男生陪女朋友去买衬衣。
他站在货架前,翻开领子看了看标签,问导购,这件是多少支数的面料。导购说60支。他点点头,掏出手机,开始搜”60支和80支有什么区别”。
他女朋友已经拿着旁边一件蓝色的走过来了,说,这件好看,买这个。
最后买了蓝色那件。他看都没看支数。
这件事发生在每一个家庭里,但很少有人意识到,同样的事情也发生在每一家正在推进AI项目的公司里。
男生买电脑的逻辑是很固定的。上大学之前,很多理科男生会拿一个记事本去电脑城,上面密密麻麻记着参数。CPU型号、核心数、显存大小、屏幕分辨率、色域覆盖率。
这套逻辑没有消失过。它只是换了场景。
同一批人长大之后,开始负责公司的AI选型。他们换了一个记事本,上面写着另一套参数,模型参数量、上下文窗口、SWE-bench得分、价格每百万token多少钱。
他们去参加AI产品的演示会,就像当年在电脑城测试画面帧率。他们在企业微信群里转发benchmark对比图,就像当年在贴吧讨论显卡天梯榜。
这套逻辑在买电脑的时候是对的。
在选AI工具的时候,它是一个巨大的陷阱。
来说最扎心的数据。
麦肯锡2025年底的调研里有一个数字,企业AI工具的平均实际使用率是多少。购买了AI助手类工具的企业里,三个月后还在日常使用的员工比例,中位数是22%。
也就是说,买了100个许可证,三个月后还在用的,大概20个人。
这不是一两家公司的问题。这几乎是行业常态。
为什么?
因为选型的人用的是支数逻辑,用工具的人用的是好看逻辑。
具体长什么样——一家公司的IT团队做了三个月的AI选型,横向对比了五款产品,做了详细的benchmark测试,最终选了综合得分第一的那款。得分是基于响应速度、准确率、API稳定性、价格的加权平均。
这款产品的得分确实最高。
然后他们把它推给了销售团队。销售团队用了两周,觉得这玩意儿没什么用,很快就不打开了。
IT团队很委屈,明明所有参数都是最好的。
销售团队也委屈,就是用起来不顺手,没法说清楚哪里不好。
这个矛盾的根本原因,不是谁的问题。而是这两件事从头就不是同一件事。
支数这个参数,是真实的。60支确实比30支要细腻,摸起来更舒服。
但一件衣服最终要不要买,决定性的判断,从来都是穿上去好不好看。
同样,SWE-bench得分是真实的。上下文窗口长短是真实的。推理速度是真实的。
但一个AI工具最终要不要被一线员工持续使用,决定性的判断,永远是用起来顺不顺、有没有实际帮到我把手头的事做完。
这两套评估,衡量的不是同一件事。
偏偏大多数企业的AI采购流程,只做了第一套。
有一家做供应链的公司,去年花了不少钱引进了一套AI写报告的工具,benchmark表现非常好,合同分析准确率超过90%。
结果用了半年,真正在用的只有两个人,都是IT部门的。
他们最后问了一线的采购专员,为什么不用。对方说,这个工具出来的报告格式和我们内部模板不一样,每次还要花时间调整,感觉还不如自己写快。
没有人在选型阶段问过这个问题。因为”输出格式是否符合内部模板”这件事,不在benchmark里。
它就是那个支数之外的好不好看。
说这些,不是说spec不重要。
支数确实影响穿着体验,只是它不是最终的决策依据。benchmark确实反映了模型能力,只是它不等于你的员工愿意用这个工具。
真正在AI采购上花对了钱的公司,通常做了两件事,很多公司只做了一件。
第一件事,spec评估,就是那套benchmark,横向对比,确保你选的工具在技术上没有明显硬伤。
第二件事,experience评估,找真实的一线用户,在真实的工作场景里用两周,问他们一个问题,如果公司停掉这个工具,你会不会觉得少了什么。
第二个问题的答案,比任何benchmark都更能预测这个工具三个月后的真实使用率。
回到那件蓝色衬衣。
它是多少支数,没人知道,也没人在乎。
它就是好看,就是买了,就是穿了很多年。
你们公司上个季度引进的那个AI工具,一线员工用起来觉得好看吗?
夜雨聆风