企业 AI 项目评估清单:从想法到试点前,至少要问清这几件事

前言

周一上午的内部会，经常会出现一个很像的场景。

老板说，最近 AI 这么热，我们是不是也该做一个。业务负责人马上能举出几个痛点：销售线索太多跟不过来、客服升级单整理太慢、新员工培训问答重复度很高。技术团队接着问，要接哪些系统、谁给权限、怎么审计、出了错谁兜底。会开到最后，大家都觉得这事重要，但还是没有人能回答一个最基本的问题：这个项目现在到底该不该立，先从哪一步试，什么情况下应该直接打回。

所以今天这篇不讨论哪个模型更强，也不讨论哪个平台连接器更多。我更想把立项前最容易被跳过的一步补上：在试点之前，先用一张评估清单，把“值得不值得做、能不能做、怎么验收”问清楚。

为什么这张清单应该先于 Demo

很多企业的 AI 项目，不是死在技术实现，而是死在立项顺序。

顺序一旦反过来，事情就会很快失控。先看 Demo，团队会被效果带着走；先谈平台，范围会越收越大；先谈 ROI，大家又容易在没有基线的情况下承诺结果。等到真正进入业务现场，才发现流程边界没说清、数据权属没说清、使用责任没说清，最后只能一边做一边补洞。

这不是少数企业的个别问题。麦肯锡 2025 年全球 AI 调查显示，88% 的受访企业已经在至少一个业务功能里常态化使用 AI，但大多数仍停留在实验或试点阶段，真正开始规模化推进的大约只有三分之一。微软 2025 Work Trend Index 也给出了一组很有代表性的信号：82% 的领导者认为 2025 年是重构战略和运营的关键年份，但同时 80% 的全球员工表示自己缺少完成工作的时间或精力。换句话说，企业现在缺的往往不是“要不要做 AI”的共识，而是“什么项目值得往前推、什么项目应该先打回”的判断能力。

所以，试点前评估清单的作用，不是帮企业把所有问题一次想完，而是先淘汰伪需求，收住范围，把第一轮验证压到一个能看见证据的尺度。

第一组：先确认这是不是一个值得做的业务问题

第一组问题，只看业务价值，不看技术想象。

企业内部说“想做一个销售 AI”时，往往是在说很多不同的事情。有人想缩短新线索初筛时间，有人想让客户拜访纪要更快进入 CRM，有人只是觉得同行都在做，自己不能落后。三种出发点，后面的项目路径完全不同。

所以立项前至少要问四个问题：

•这个问题是不是高频出现，而不是偶发性抱怨。

•如果今天不做 AI，业务团队会用什么办法继续处理。

•当前最痛的不是“人觉得累”，而是哪个明确动作慢、乱、容易漏。

•这件事一旦做好，最先改善的是时间、质量、转化、响应，还是培训复制效率。

这里最容易踩的坑，是把“方向正确”误当成“现在就该做”。方向正确不代表项目成熟。比如很多企业都想做内部知识问答，但如果真正痛的是新人一周内找不到最新 SOP，那立项对象就不是“做一个知识助手”，而是“缩短新人找到有效答案的时间”。

第二组：流程边界到底收在哪一步

第二组问题，问的是流程，不是部门。

第一次看一个 AI 项目，我最警惕的说法通常不是“这个项目太难”，而是“这个项目可以覆盖整个销售流程”或者“把客服、销售、交付全串起来”。一旦这样定义，第一轮就很容易变成平台工程，而不是可验证试点。

更稳的问法应该是：它准备进入哪个具体动作？

拿三个常见场景来说：

•销售线索初筛：不是“做销售 AI”，而是“对新进线索做首轮分级，并给出跟进建议”。

•客服升级单：不是“做智能客服”，而是“把升级单摘要、问题归类和历史相似案例先整理给人工处理人”。

•新员工培训：不是“做 AI 培训平台”，而是“让岗位新人先问到最新制度、产品规则和常见错题解释”。

流程边界说清以后，要继续补三件事：

•这一动作的输入从哪里来。

•输出交给谁，最后写回哪里。

•超出边界时，转人工的节点在哪里。

真实案例里，跑得比较顺的项目通常都不是从“大而全”开始。比如微软今年 1 月披露的 Hertz 案例，它没有先做一个覆盖全部客服的通用智能体，而是在单一场景里先试一个路边救援客服 Agent，限定知识来源，只在一个站点试点，结果是早期试点就把客户问题处理时间压低了 15% 以上。这个案例最有价值的地方，不是“15%”这个数字本身，而是它说明：先收窄流程，再验证效果，比一开始就做全链路更现实。

第三组：有没有最低可用的数据、系统和权限条件

第三组问题，不追求数据完美，只追求最低可用。

很多项目在这一关不是卡死，而是卡悬空。大家都知道需要 CRM、工单、知识库、审批流，甚至提到要接企业微信、ERP、会议纪要，但没人能说清：第一次验证到底非接不可的是哪几项，哪些可以先不碰，哪些数据只能读不能写。

这里更建议企业做一个“最低可用上下文清单”，分成四列：

•必须读取：没有它，任务根本无法完成。

•建议补充：有它会更准，没有也能先跑。

•暂不接入：权限太重、质量太差、第一轮没必要。

•必须回写：否则结果没法沉淀，也无法验收。

比如销售拜访纪要辅助，第一轮也许只要客户基本信息、最近三次互动、产品规则和 CRM 回写入口；价格政策、合同条款、返利例外就不一定适合首轮接入。

第四组：责任、风险和兜底是谁来扛

第四组问题，核心不是合规口号，而是谁真的负责。

AI 项目最容易出现的一种假象，是大家都参与了，但没有人对结果负责。业务说这是技术工具，技术说这是业务规则，最后一线用户成了默认兜底人。这样的项目即使上线，也很难持续用起来。

所以评估时要把三类责任拆开：

•业务 owner：定义为什么做、什么结果算有效、哪些例外必须人工判断。

•系统 owner：负责接口稳定、日志、权限、回写和异常处理。

•使用 owner：负责真实使用反馈，告诉团队哪些建议被采纳、哪些反而增加负担。

然后再问四个风险问题：

•这个动作出错后，后果能不能恢复。

•哪些输出只能建议，不能自动执行。

•需要人工确认的节点是不是写清楚了。

•出现异常时，升级给谁，多久处理。

这一点也和外部调研结论一致。麦肯锡在 2025 年调查里提到，真正拿到更高价值的企业，更可能去重构流程，也更可能提前定义哪些地方必须做人类校验。落到企业项目里，可以翻成一句很朴素的话：先让 AI 做建议、摘要、初筛、整理这些可回退动作，把直接影响价格、合同、审批、客户承诺的步骤放在人工确认之后。这样既能看到真实价值，也不至于把第一轮验证做成高风险实验。

第五组：验收标准和扩展条件有没有先写出来

第五组问题，决定这是不是一个能停、能过、能继续的项目。

IBM 在 2024 年底的一项企业调研里给过一个很有参考价值的信号：58% 的受访公司表示，自己通常能在一年内把 AI 试点推进到正式生产；但同一份调研也显示，企业衡量 AI 的方式并不只是硬 ROI，排在前面的还有更快的软件开发、更快的创新和生产率节省。这个信号很重要，因为它说明企业不是不能往前走，而是要先定义“我们到底拿什么判断这个试点值不值得继续”。

更务实的做法，是在开始前就写三张小表：

•基线表：现在人工怎么做，平均耗时多久，错误主要出现在哪。

•试点表：连续 2 到 4 周，谁来用，样本量多大，记录哪些证据。

•决策表：达到什么条件进入下一轮，什么情况应该暂停或重做。

第一次试点不需要追求“省了多少人”这种大结果，更适合看三类小证据：

•时间证据：处理同类任务是否更快。

•采纳证据：AI 产出有多少能被直接使用或少量修改后使用。

•流程证据：结果有没有顺利写回原流程，团队有没有连续使用。

第一轮不是为了证明 AI 改造了公司，而是为了证明这个场景值得进入下一轮。

这张清单怎么用：给项目一个红黄绿结果

如果要让这张清单真正能拿去用，我建议不要写成讨论材料，而是直接做成一个立项门槛表。

最简单的用法，就是五组问题各给一个结果：

•绿色：问题明确，边界清楚，可以进试点设计。

•黄色：方向对，但缺关键条件，要先补材料再立项。

•红色：暂时不适合做，继续推进只会扩大范围。

一个项目什么时候该先按下暂停键？我会重点看这五种情况：

•业务问题说不成一个具体动作。

•流程边界收不住，总想一步覆盖多个部门。

•关键数据拿不到，或没人能确认口径。

•风险节点没人兜底，默认靠一线用户补锅。

•没有基线，也没有 2 到 4 周的验证计划。

如果你希望这套东西更容易直接用，我建议再往下压一层，做成一张 10 分评估卡。每一组问题只打 0、1、2 三档：

•业务问题：2 分是已经对应到一个高频动作和一个明确指标；1 分是知道痛点，但还没有清楚动作；0 分是只有“我们也想做 AI”。

•流程边界：2 分是已经能说清输入、输出、转人工节点；1 分是知道流程大概在哪，但边界还混；0 分是按部门或大场景在说。

•数据系统：2 分是必须读取、暂不接入、必须回写都能列出来；1 分是知道要接哪些系统，但口径和权限还没确认；0 分是连关键数据在哪都不确定。

•责任兜底：2 分是业务 owner、系统 owner、人工兜底都明确；1 分是有人负责，但异常处理没写清；0 分是默认谁都能管，也等于谁都不管。

•验收扩展：2 分是已有基线、试点周期和继续/暂停条件；1 分是有想看的指标，但没有阈值；0 分是先做出来再说。

这张卡怎么用也很简单：

•8 到 10 分：可以进试点设计，但范围仍要收窄。

•5 到 7 分：先补条件，不急着立项。

•0 到 4 分：先回到业务定义阶段，不建议直接启动。

这样做的好处是，企业内部不需要每次从头争论“这事值不值得做”，而是能先用一张简化工具把分歧压到台面上。

最后，企业真正要积累的是项目评估能力

在真正投入预算、选平台、找供应商之前，企业先问自己五件事：

•这是一个值得做的业务问题吗。

•它到底进入哪个动作，而不是哪个宏大部门。

•第一次验证的最低可用数据和系统条件是什么。

•谁负责规则，谁负责系统，谁负责使用反馈。

•什么证据出现了，项目才算值得继续。

如果这五组问题大部分都答不上来，最好的动作不是马上做 Demo，而是先把项目打回到业务定义阶段。如果这五组问题已经答得比较清楚，那企业做的就不只是一个试点，而是在建立一套以后还能复用的 AI 项目评估能力。

这套能力，比第一次选中了哪个模型，往往更值钱。