你的公司在用买电脑的逻辑选AI工具-夜雨聆风

你的公司在用买电脑的逻辑选AI工具

一个男生陪女朋友去买衬衣。

他站在货架前，翻开领子看了看标签，问导购，这件是多少支数的面料。导购说60支。他点点头，掏出手机，开始搜”60支和80支有什么区别”。

他女朋友已经拿着旁边一件蓝色的走过来了，说，这件好看，买这个。

最后买了蓝色那件。他看都没看支数。

这件事发生在每一个家庭里，但很少有人意识到，同样的事情也发生在每一家正在推进AI项目的公司里。

男生买电脑的逻辑是很固定的。上大学之前，很多理科男生会拿一个记事本去电脑城，上面密密麻麻记着参数。CPU型号、核心数、显存大小、屏幕分辨率、色域覆盖率。

这套逻辑没有消失过。它只是换了场景。

同一批人长大之后，开始负责公司的AI选型。他们换了一个记事本，上面写着另一套参数，模型参数量、上下文窗口、SWE-bench得分、价格每百万token多少钱。

他们去参加AI产品的演示会，就像当年在电脑城测试画面帧率。他们在企业微信群里转发benchmark对比图，就像当年在贴吧讨论显卡天梯榜。

这套逻辑在买电脑的时候是对的。

在选AI工具的时候，它是一个巨大的陷阱。

来说最扎心的数据。

麦肯锡2025年底的调研里有一个数字，企业AI工具的平均实际使用率是多少。购买了AI助手类工具的企业里，三个月后还在日常使用的员工比例，中位数是22%。

也就是说，买了100个许可证，三个月后还在用的，大概20个人。

这不是一两家公司的问题。这几乎是行业常态。

为什么？

因为选型的人用的是支数逻辑，用工具的人用的是好看逻辑。

具体长什么样——一家公司的IT团队做了三个月的AI选型，横向对比了五款产品，做了详细的benchmark测试，最终选了综合得分第一的那款。得分是基于响应速度、准确率、API稳定性、价格的加权平均。

这款产品的得分确实最高。

然后他们把它推给了销售团队。销售团队用了两周，觉得这玩意儿没什么用，很快就不打开了。

IT团队很委屈，明明所有参数都是最好的。

销售团队也委屈，就是用起来不顺手，没法说清楚哪里不好。

这个矛盾的根本原因，不是谁的问题。而是这两件事从头就不是同一件事。

支数这个参数，是真实的。60支确实比30支要细腻，摸起来更舒服。

但一件衣服最终要不要买，决定性的判断，从来都是穿上去好不好看。

同样，SWE-bench得分是真实的。上下文窗口长短是真实的。推理速度是真实的。

但一个AI工具最终要不要被一线员工持续使用，决定性的判断，永远是用起来顺不顺、有没有实际帮到我把手头的事做完。

这两套评估，衡量的不是同一件事。

偏偏大多数企业的AI采购流程，只做了第一套。

有一家做供应链的公司，去年花了不少钱引进了一套AI写报告的工具，benchmark表现非常好，合同分析准确率超过90%。

结果用了半年，真正在用的只有两个人，都是IT部门的。

他们最后问了一线的采购专员，为什么不用。对方说，这个工具出来的报告格式和我们内部模板不一样，每次还要花时间调整，感觉还不如自己写快。

没有人在选型阶段问过这个问题。因为”输出格式是否符合内部模板”这件事，不在benchmark里。

它就是那个支数之外的好不好看。

说这些，不是说spec不重要。

支数确实影响穿着体验，只是它不是最终的决策依据。benchmark确实反映了模型能力，只是它不等于你的员工愿意用这个工具。

真正在AI采购上花对了钱的公司，通常做了两件事，很多公司只做了一件。

第一件事，spec评估，就是那套benchmark，横向对比，确保你选的工具在技术上没有明显硬伤。

第二件事，experience评估，找真实的一线用户，在真实的工作场景里用两周，问他们一个问题，如果公司停掉这个工具，你会不会觉得少了什么。

第二个问题的答案，比任何benchmark都更能预测这个工具三个月后的真实使用率。

回到那件蓝色衬衣。

它是多少支数，没人知道，也没人在乎。

它就是好看，就是买了，就是穿了很多年。

你们公司上个季度引进的那个AI工具，一线员工用起来觉得好看吗？