乐于分享
好东西不私藏

AI进企业,先问三个问题

AI进企业,先问三个问题

有一种错误,犯的时候谁都开心,账算完之后没人认账。
企业上了AI系统,财报分析出来了,年报解读出来了,诊断建议出来了。业务部门说这是AI干的,IT部门说这只是辅助,最终决策还是人做的。等报告交上去,发现数字填错了,科目归错了,结论说反了——没有人说”这是我的错”。
这不是技术问题。这是架构问题。
AI在企业里犯的错,本质上都不是技术错误,而是架构错误:把AI放到了一个它不应该站的位置,然后期望它能担起它担不起的责任。
这个问题,不是某一家企业的问题。在AI大规模进入企业应用的这个节点,它正在变成一个普遍性的架构困境。

先从一个具体的问题出发。
业务单据转财务凭证——这是业财自动化的一个经典场景。一张采购单进来,经过解析、分类、映射,生成一张会计凭证。听起来很自然,很合理,很”智能化”。
但这个过程里,藏着三种完全不同性质的挑战。
第一种:这张采购单的抬头是什么?供应商名称怎么写?日期是哪天?金额是多少?——这类问题,AI可以回答,而且通常回答得不错。给定一个格式相对规范的采购单,LLM能抽取出结构化字段,误差率在可接受范围内。
第二种:这张单据应该归哪个会计科目?采购原材料进”原材料”还是”在途物资”?要不要先走”在途物资”再转”原材料”?——这类问题,没有绝对标准答案,取决于企业的具体核算要求、业务场景、历史惯例。它有规则,但规则不完全;它有逻辑,但逻辑不严密;它有边界,但边界不清晰。
第三种:凭证生成之后,借贷必相等。借方合计必须等于贷方合计。金额不能错,方向不能反,科目不能串。——这类问题,要么全对,要么全错。没有”大概对”,没有”基本正确”。99%对了,1%错了,整张凭证就是废的。
三种挑战,性质截然不同。
第一种交给AI,是合理的。
第二种交给AI,是冒险的——需要人工兜底。
第三种交给AI,是危险的——必须用确定性系统处理。
但现实中,大量企业把三种挑战打包交给AI,然后期待一个”智能系统”解决所有问题。这是把架构问题当成技术问题来处理,而架构问题,永远不能靠技术本身来解决。

判断AI该不该用,其实只有三个问题。
第一个问题:能不能错?
有些事情,错了没关系。推荐一部电影写错了观后感,分析报告里多了一个不准确的形容词,客户画像偏差了10%——这些错误不会造成不可逆的损失,不会引发合规风险,不会让企业赔钱。
但有些事情,错了要命。凭证金额错了,科目归错了,审计追溯的时候找不到来源——这些错误不只是”不准确”,是”不能发生”。
能用AI处理那些”可以出错”的环节。不能用AI处理那些”不能出错”的环节。
这不是对AI的歧视。这是业务性质的必然要求。
第二个问题:错了谁负责?
AI出错,谁来担责?
如果没有人愿意为AI的输出负责,那就不能用AI替代人的判断。如果业务负责人说”AI分析的,我不太确定对不对”,这意味着责任链条在这里断了——AI成了决策的中间环节,但不是决策的主体。
能追溯到责任人、有人愿意签字负责的环节,可以用AI提升效率。不能追溯到责任人的环节,AI进入越深,风险暴露越大。
第三个问题:能不能解释?
AI生成的内容,能不能向审计、合规、监管解释清楚?
有些场景需要解释。年报数据要披露,审计要查账,监管要问询——每一个数字背后必须有来源、有依据、有逻辑。
有些场景不需要解释。一份内部参考报告,一次非正式的行情分析,一个快速的问题诊断——这些场景,解释的成本可能比AI本身还高。
需要解释的地方,AI必须能被审计、能被追溯、能被复现。不能解释的地方,AI可以探索、可以生成、可以提供候选方案。

三个问题放在一起,出现了一个清晰的分类。
Agent适合的地方:允许犯错、没人需要负最终责任、不需要向审计解释的领域。读年报、抽信息、做归因、生成诊断建议——这些都是Agent的主场。它们的共同特点是:概率最优解就够用了,不需要100%精确。
工程化系统必须接管的地方:不允许犯错、必须有人负责、必须可以解释的领域。凭证生成、借贷平衡、金额校验、科目映射——这些都是确定性系统的领地。它们不允许”大概对”,不允许”这次例外”,不允许”历史上也是这样做的”。
灰色地带——人机协同:有一定标准但无法完全形式化,错了会有麻烦但不至于致命。这类场景需要人机协同:AI生成候选方案,人来做最终判断;或者反过来,人来制定规则,AI来执行和校验。
三层能力,各归其位。
这是企业级AI架构的基本逻辑:感知与理解层交给Agent,判断与决策层交给人机协同,执行与落地层交给工程化系统。
但现实中,大量企业的实际架构是反的:Agent被用在了执行层(用AI直接生成凭证),工程化系统被用在了感知层(用规则去解析非结构化文本)。结果两个都没做好——Agent在需要确定性的地方出错,工程化系统在需要灵活性的地方僵死。

还有一个更隐蔽的问题:谁来处理那10%的不确定性?
再好的AI系统,也不可能做到100%准确。哪怕准确率是99%,在企业级的大规模应用里,那1%的残差仍然会变成绝对数量可观的错误案例。
这些错误怎么处理?
常见的选择有两种:
第一种是假装它们不存在。提高模型能力,期待准确率提升,直到”可以接受”。但企业级应用的”可以接受”没有上限,今天接受99%,明天就期待99.5%,永远在追逐一个追不到的数字。
第二种是把那10%显式化、工程化、规则化。
科目映射表是规则。金额校验逻辑是规则。异常条件的黑白名单是规则。这些规则不是在”提高AI准确率”,而是在承认AI的边界,然后在边界处建立围栏。
置信度低于95%转人工审核——这是分流机制。金额超过阈值必须复核——这是保护机制。非标准场景走Fallback流程——这是兜底机制。
每一步可追溯,每个判断有依据,每个结果可复现——这是审计机制。
这不是对AI的否定。这是在AI能做的事情和不能做的事情之间,画一条清晰的线。

最近在做一个企业洞察工作台的产品,正好落在这个架构的应用层。
年报读取、指标抽取——这是感知层,Agent的强项。读一份500页的年报,抽取关键指标,识别数据口径,生成初步的财务画像——这些工作LLM做得很高效,而且比人工更快、更全、更一致。
四问诊断生成——这是判断层,Agent+规则引擎的协同。AI生成诊断框架,规则引擎校验指标间的逻辑关系(增速与毛利率是否匹配?应收账款与营收增速是否背离?),两者结合给出有深度、有依据的诊断结论。
指标校验、报告导出——这是执行层,规则引擎与确定性系统的领地。校验位次变化是否合理,口径定义是否清晰,报告格式是否符合规范——这些环节必须万无一失。
最终输出给用户的,是一份可以被信任、被引用、被审计的诊断报告。
它的每一个结论,都知道从哪里来。每一个数据,都知道谁负责。每一个不确定性,都已经被显式处理过了。
这不是把AI包装成”智能系统”。这是诚实地承认AI的能力边界,然后在这个边界内,让AI做它真正擅长的事。

回到最开始的问题:AI进企业,难在哪里?
技术不是难点。模型每年都在变强,工具链每年都在完善。
架构才是难点。
把AI放在它不该放的位置,用它做它不该做的事,承担它承担不了的责任——这是AI在企业里失效的最主要原因。它不是因为技术不够强,而是因为架构设计从一开始就错了。
三个问题,是一个最简单的检验框架:
能不能错?错了谁负责?能不能解释?
回答不了这三个问题,就不知道该不该用AI,也不知道该把AI放在哪里。
而企业真正需要的,不是更多的AI能力,而是一张关于AI的边界地图。
知道AI能做什么,是常识。知道AI不能做什么,是智慧。
而在企业级应用里,后者才是真正的门槛。

附:自检清单——AI进入业务流程前的三个判断

读完这篇文章,如果你正准备在某个业务环节引入AI,用下面这个清单过一遍。不需要技术背景,只需要你作为决策者的判断力。
第一类:感知与理解环节(可以放手让AI做的)
□ 这个环节的输出是”参考”还是”结论”?如果是参考,AI可以做。
□ 错了会不会造成资金损失、合规问题或客户投诉?如果不会,AI可以做。
□ 有没有人需要为这个环节的输出签字负责?如果没人签字,AI做辅助没问题。
典型场景:读年报、抽取数据、生成初步分析、整理非结构化信息、草拟初稿。
第二类:判断与决策环节(需要人机协同的)
□ 这个环节有没有明确的规则?规则覆盖了多少种情况?如果规则覆盖不了所有情况,需要人来兜底。
□ AI给出的结论,业务负责人愿不愿意直接采纳?如果不愿意,说明需要人做最终判断。
□ 这个环节错了,后果是什么?如果是”有麻烦但不至于致命”,走人机协同。
典型场景:科目选择、业务分类、异常判断、需要结合上下文的决策。
第三类:执行与落地环节(必须用确定性系统的)
□ 这个环节有没有”要么全对、要么全错”的性质?如果有,不能用AI。
□ 金额、数量、方向——这些硬约束能不能被规则引擎100%校验?如果能,用规则引擎。
□ 审计、合规、监管会不会查这个环节?如果会,必须保证可追溯、可复现。
典型场景:凭证生成、金额计算、借贷平衡、报表格式化、数据落库。
一句话总结:让AI做它擅长的——快速处理大量信息、发现模式、生成候选方案。把不能错的事交给确定性系统,把需要判断的事留给人。架构对了,AI才有价值。


━━━━━━━━━━━━━━🏢 关于笔者
王文栋,20年企业信息化老兵。
用管理看AI,不是用AI看管理。「战略×组织×流程×系统」四维框架。
📌 我做什么
▸ 咨询服务:流程优化 · 数字化转型 · IT战略规划
▸ AI服务:企业AI培训 · AI场景落地 · AI工具选型
▸ 研究服务:财务分析 · 经营分析 · 战略分析
私信留言,我会回复。
━━━━━━━━━━━━━━━━━━━━