公司买AI工具,省的时间怎么量化,看Glean评估的效果

很多公司现在算 AI 工具 ROI，都喜欢先问一个问题：它帮员工省了多少时间？

这个问题没错，但只问一半。

Glean Work AI Institute 最近把另一半摆了出来。Business Insider 6 月 11 日报道，这份覆盖美国、英国、澳大利亚 6000 名数字工作者的研究发现，白领平均每周要花 6.4 小时做一件新工作：botsitting。

所谓 botsitting，不是使用 AI 本身，而是给 AI 补上下文、检查输出、重跑提示词、修正错误、把看起来像样但其实不稳的内容重新收拾到能交付。

这才是很多 AI 提效故事里最容易漏掉的账。

你看到的是“AI 帮我省了时间”。公司账上看到的是“AI 席位使用率提高了”。但中间那 6.4 小时清理、校对和返工，常常没人记录。

我的判断很简单：公司买 AI 工具，下一步不能只看用了多少次，而要开始看“每一次可交付结果背后，需要多少人工照看”。

省时间这件事，正在变得没那么好算

过去我们理解效率工具，很直观。

表格公式替你算数，搜索引擎替你找资料，自动化脚本替你搬文件。结果基本可验，错了也容易定位。

AI 不一样。

它最擅长的不是把一个固定动作做快，而是把一段模糊工作先跑出一个看似完整的结果。

写周报，它能给结构；整理会议纪要，它能提要点；做销售邮件，它能先出三版；分析客户反馈，它能帮你分类。

但这些结果往往不能直接交出去。

你要补公司背景，检查它有没有理解错客户语气，删掉听起来正确但实际不存在的说法，再把格式改回团队能用的样子。

Glean 把这段工作单独拎出来以后，问题就清楚了：AI 没有消灭所有劳动，它把一部分劳动改成了监督、解释和清理。

这不是反 AI。

这是把账算完整。

为什么个人觉得提效，公司却没感觉到

Glean 报告里最有意思的反差，不只是 6.4 小时。

不少员工承认 AI 让自己更高产，但认为组织整体表现显著提升的人却少得多。TechRadar 对英国数字工作者的报道也出现类似结构：个人层面觉得省时间，组织层面感受没有那么强。

这很符合很多公司的日常。

一个员工用 AI 写邮件，确实快了。但如果他为了让 AI 写对，先要把客户背景、上次会议、报价限制、老板偏好重新喂一遍，再把输出改成公司口径，这个效率就被吃掉一半。

另一个员工用 AI 做方案，初稿很快。但部门评审时发现数据口径错了、案例不适合、承诺说得太满，后面又要三个人一起返工。个人觉得“我很快有了初稿”，团队看到的是“这个初稿让审稿成本变高了”。

这就是 AI Productivity Paradox 的真实样子。

个人速度提升，不等于组织成本下降。

如果上下文、标准、权限和复核流程没跟上，AI 会把工作从“写不出来”变成“看起来写出来了，但还要有人把它变成真的”。

最该记录的，不是提示词数量

很多公司推 AI，第一反应是看使用率。

多少人开通了账号，平均每天问多少次，哪个部门最活跃，哪个工具调用最多。

这些数字有用，但很容易变成虚荣指标。用得多，不代表交付质量更高。

一个员工一天问 AI 80 次，可能是熟练，也可能是前 79 次都没拿到能用的结果。一个团队买了三款 AI 工具，可能是效率升级，也可能是同一个问题在不同工具里来回试，最后人工再拼一遍。

真正该记录的是四个更朴素的数字。

AI 初稿到可交付版本之间，人工改了多久。

AI 输出里最常见的错误是什么，是事实错、口径错、格式错，还是缺上下文。

哪些任务交给 AI 后，总返工时间反而变长。

哪些任务只要补一次模板、知识库或标准，就能稳定减少 botsitting。

这四个数字看的是结果，不是热闹，比“员工用了多少次 AI”更接近真实 ROI。

botsitting 最容易藏在三种工作里

第一种，是对外表达。

客服回复、销售邮件、公众号初稿、招聘 JD、客户说明文档，都属于这种。AI 写得快，但对外文字最怕口径不准。语气轻一点重一点、承诺多一句少一句，都可能变成后面的投诉、误解或返工。

第二种，是资料整理。

会议纪要、竞品分析、行业资料、用户访谈摘要，AI 很擅长先归类。但它也最容易把“听起来像重点”的东西当重点，把真正关键的上下文漏掉。

第三种，是跨系统工作。

销售数据在 CRM，合同在网盘，聊天记录在企业微信，财务口径在表格里。AI 如果拿不到完整上下文，就只能靠员工手动搬材料。

这时候 botsitting 不是员工不会用，而是系统没接好。

你以为买的是 AI 工具，员工实际做的是搬运工。

一张更实用的 AI 成本表

如果你正在决定某个 AI 工具要不要续费、扩 seat，或者推给整个部门，我建议先做一张很小的表。

每个任务只记六列。

任务名称：比如写客户邮件、整理会议纪要、生成周报、检查合同条款。

原人工耗时：不用 AI 时平均多久。

AI 生成耗时：从发出指令到拿到初稿多久。

人工清理耗时：补上下文、查错、改格式、复核事实花多久。

返工风险：输出错了会不会影响客户、钱、合规或团队信任。

结论：适合自动化、适合辅助、不适合交给 AI。

这张表做两周，就能看出很多真相。

有些任务，AI 会非常值。比如固定格式的内部摘要、低风险的资料初筛、重复模板里的语言润色。

有些任务，看起来很适合 AI，实际不划算。比如高风险客户回复、需要大量隐性背景的策略判断、跨多个系统的复杂数据解释。AI 初稿快，但清理和复核太重，最后只是把压力后移。

还有些任务，不是工具不行，而是流程没准备好。只要补上模板、背景库、禁用话术和审批规则，botsitting 就会明显下降。

公司真正该买的，不只是工具

Glean 这份报告最值得借鉴的地方，不是让大家少用 AI，而是提醒公司别把 AI 采购当成结束。

后面还要补三件事。

补上下文。让 AI 拿到正确、最新、可用的公司资料。

补标准。告诉员工什么叫好输出，哪些任务可以交给 AI，哪些必须人工判断。

补计量。记录人工清理时间、返工次数和错误类型。

只有这三件事跟上，AI 才可能从“个人觉得快”变成“组织真的省”。

否则，工具越多，botsitting 也可能越多。

最后公司会得到一个很尴尬的结果：员工更忙了，仪表盘更热闹了，但真正能交付的成果没有明显变多。

AI 工具当然还要继续用。

但从今天起，判断它值不值钱，不能只问它省了多少时间。

还要问一句：为了让它的结果能交出去，我们又花了多少时间把它照看成人类能负责的样子。