90%的企业AI项目没有产生效果——落地到底难在哪?-夜雨聆风

90%的企业AI项目没有产生效果——落地到底难在哪?

McKinsey有一组数据，这两年在AI圈子里被反复引用：全球近90%的公司已经投资了AI技术，但只有不到40%的公司报告了可衡量的收益。

换句话说，大部分公司花了钱、上了项目、开了发布会，但最后AI系统要么躺在服务器上吃灰，要么变成了一个高级搜索框，距离真正改变工作方式还差得很远。

这个比例在中国可能更高。有调研显示，31%的企业连明确的AI推进路线图都没有，项目方向摇摆、资源分散，最终沦为给领导看的“演示工具”。

我最近跟不少企业聊过AI落地的事，发现一个有意思的现象：大家对AI的热情都很高，但踩过的坑惊人地相似。仔细拆解下来，问题往往不出在技术上，模型能力今天已经不是瓶颈了，而是出在几个认知层面的误区上。

大部分企业搞反了一件事的顺序

最常见的情况是这样的：某个企业的管理层在年初开会时说“今年我们要拥抱AI”，然后IT部门领了任务，开始选模型、搭平台、做PoC。三个月后平台搭好了，演示效果也不错，但真正让业务部门用起来的时候，发现对接不上。

为什么对接不上？因为顺序反了。

正确的顺序应该是：先花足够的时间把业务痛点吃透，搞清楚到底是哪些工作在消耗人的时间和精力，这些工作的流程是什么、规则是什么、判断依据是什么，然后再去想AI在里面怎么切入。但大部分企业是反过来的——先有了AI这把锤子，再满世界找钉子。

我举一个具体的例子。

集团企业每个季度要出一份财务分析报告，这是很多大中型企业都有的刚需。这份报告要把几十甚至几百家子公司的数据汇总起来，做同比分析、预算完成率分析、异动指标识别和归因，最后形成一份可以拿上会的报告。一个有经验的财务分析团队通常要干两到三周。

如果你让一个纯技术团队来做这个项目，他很可能的思路是：用大模型读Excel、生成分析文本、输出Word报告。技术上没问题，但做出来的东西业务部门大概率不会满意。为什么？因为他没有拆解过这份报告到底是怎么“长”出来的。

拆开来看，这份报告的生成至少涉及这么几个不同性质的环节：

数据提取和指标计算——这是纯代码的事，跟大模型没什么关系，用pandas就能做到100%准确。格式排版——这是模板引擎的事，python-docx就够了。异动识别——同比变动超过一定阈值的指标自动标出来，也是代码逻辑。真正需要大模型能力的环节是归因分析和报告撰写——“营收下降了15%，到底是哪个子公司贡献的？是行业因素还是企业自身的问题？”这些分析需要结合数据趋势、历史背景、行业对比来做判断。

但即便是归因分析，也有不同的“确定性等级”。“哪个子公司贡献了最大变动量”——这一层是纯计算，可以做到100%准确。“哪个业务板块导致的”——如果底稿数据有分业务的明细，也能做到准确。但到了“为什么变了”这一层，情况就复杂了：如果有足够的信息来源（历史数据、研报、公告），AI可以给出合理的推断；如果信息不足，那就应该老老实实标注“信息不足，建议线下确认”。

把这些环节拆清楚、把每个环节里“AI做什么、代码做什么、人做什么”想明白，才是AI落地的第一步。但大部分项目跳过了这一步，直接奔着“让AI生成报告”去了，结果可想而知。

最难的不是让AI说对，是让它

知道自己什么时候可能说错

这是我观察到的第二个普遍问题，也是我认为很多企业对AI理解最不到位的一个地方。

大部分企业在评估一个AI系统的时候，关注的是“它能不能给我正确的答案”。这当然重要，但还有一个同样重要甚至更重要的问题被忽略了——“当它可能给错答案的时候，它自己知不知道？”

这两个问题的区别很大。前者是“能力”问题，后者是“可信度”问题。一个有时候会犯错但每次犯错都会提醒你的系统，远比一个大部分时候正确但偶尔悄悄出错的系统可靠得多。

拿财务分析来说。AI生成了一段话：“A子公司2025年营收同比下降32%，主要原因是下游需求萎缩叠加原材料价格上涨。”这段话看起来很专业，但问题是——“下游需求萎缩”这个判断是从哪来的？是根据行业研报推断的？还是AI自己“编”的？如果是后者，这段话出现在正式的上会报告里，后果不堪设想。

所以，一个真正可用的企业级AI系统，不能只有“做分析的AI”，还需要有“检查分析的AI”——就像审计和会计不能是同一个人一样。做分析的AI负责生成内容，检查分析的AI负责验证：数字对不对？逻辑通不通？结论有没有信息来源支撑？如果某条结论没有可靠的信息来源，就必须标注出来，告诉使用者“这是AI的推测，不是有据可查的事实”。

我一直有一个观点：敢说“我不知道”的AI，才是值得信任的AI。

但要让AI做到这一点，技术上并不简单。它需要一套完整的质量验证机制——数字层面的勾稽校验、逻辑层面的一致性检查、事实层面的信息溯源。这些机制的设计，又回到了对业务场景的深度理解：你得先知道“这份报告里哪些地方最容易出错、出错的后果是什么”，才能设计出有针对性的验证规则。

纯技术团队做不到这一点，因为他们不知道“什么样的错误在这个业务场景里是致命的”。纯业务团队也做不到，因为他们不知道技术上怎么实现这种验证。这又是一个需要“翻译”的地方。

AI落地是一个业务问题

不是一个技术问题

上一篇文章里我用了一个比喻——大模型像发动机，光有发动机造不出好车。这篇想把这个比喻再展开一点。

今天市场上做大模型的公司很多，DeepSeek、通义千问、智谱、百度文心，国产模型的能力提升速度有目共睹。做AI应用开发的技术团队也不少，能写代码、能调API、能搭Demo的人并不稀缺。

但你仔细看那些落地效果好的案例——不管是上一篇聊的摩根大通，还是国内一些先行者——会发现一个共同特点：项目成功的关键环节，往往不在“模型选了哪个”或者“代码写得好不好”上，而在于前期的业务拆解做得有多深。

摩根大通之所以能把450多个AI用例推到生产环境，不是因为它用了最贵的模型，而是因为它有一个非常清晰的方法论：先识别高价值场景，想清楚AI在这个场景里具体做什么、不做什么，快速验证效果，然后再逐步推广。这个方法论的核心不是技术架构，而是对业务流程的深度理解。

反过来看那些失败的案例，模式也很统一：技术先行、场景模糊、缺少业务侧的深度参与、做出来的东西“技术上没问题但业务上用不起来”。

有时候我会这样跟人解释这件事：你想想看，如果你要给一家医院做AI辅助诊断系统，你会不会找一个完全不懂医学的技术团队来做？大概率不会。你会希望这个团队里至少有人深刻理解医疗场景——知道医生的工作流程是什么、哪些诊断环节耗时最多、哪些错误后果最严重、AI给出的建议医生会怎么看待和使用。

财务分析、投资研判、风险评估、运营管理……这些领域的AI落地逻辑完全一样。模型是通用的，但场景是专属的。谁能把通用的模型能力“翻译”成特定业务场景下的可靠解决方案，谁就掌握了AI落地的真正钥匙。

写在最后

回到开头那组数据——90%的公司投了钱，不到40%看到了回报。

这个gap中间差的不是更好的模型、更多的算力、更大的预算。差的是一种能力：把AI技术和具体业务场景之间的鸿沟填上的能力。

这种能力，需要既懂技术又懂业务的人，需要耐心地拆解每一个工作流程，需要诚实地面对AI能做什么和不能做什么。这些事情不性感，但很关键。

或者换一种说法：AI时代最稀缺的，不是能造发动机的人，而是知道这台车该往哪开的人。

下一篇我们会聊一个更具体的话题：当企业真正决定启动一个AI项目的时候，第一步应该做什么？从“想做AI”到“做对AI”之间，有哪些关键的选择需要提前想清楚。

撰写：Dr.Leader

编辑：Sheldon

审核：刘宇

声明

原创内容的最终解释权以及版权归众航所有。如需转载文章，请在信息栏输入“转载”，获取转载须知。

联系我们：

如需了解更多关于众航达瑞的服务和研究成果，请关注我们的公众号，或直接联系我们获取更多信息。