乐于分享
好东西不私藏

传统软件企业的AI转型,卡在了最"土"的环节——数据

传统软件企业的AI转型,卡在了最"土"的环节——数据

2026年5月,一家做了15年建筑行业的软件公司召开内部AI项目复盘会。

CEO在会上说了一句话:”我们请了最贵的AI团队,买了最好的算力,跑了三个月,结果大模型连我们自己的工程量清单都读不懂。”

这家公司的数据状况在传统软件行业具有惊人的代表性:15年间积累了超过800GB的”数据资产”,包括建筑成本定额表、招投标文档、施工组织方案、竣工验收报告等。但格式分布在PDF扫描件(36%)、Word模板(28%)、Excel手工表(22%)、还有纸质流转单的翻拍照片(14%)。数据干净程度——按AI可用性标准衡量——不足30%。

传统软件企业的数据结构有一个共同的”基因缺陷”。过去二十年,企业软件的核心价值是”流程管理”——CRM管客户、OA管审批、HRM管人事。

这些系统在设计之初的底层假设是:数据是”记录”,数据的用途是追溯和审计,不是让机器去”理解”和”推理”。字段命名、数据格式、存储逻辑全都是围绕”报表能跑出来”设计的。

当大模型需要”理解”这些数据时,问题就大规模暴露了。一份建筑行业的工程量清单,在Excel表里是一行一行的手工录入数据。项目名称是缩写(”XX花园三期2标”),单位不一致(有的写”平方米”,有的写”m²”,有的直接不写),时间格式有三种(”2023/05″”2023年5月””2305″),标注习惯因人而异。

人类工程师靠十五年经验能”脑补”缺失的上下文,大模型做不了这种”脑补”——它只会把三种时间格式当成三个不同的维度去推理,然后产生”精准的胡言乱语”。

这种”脏数据”问题在传统软件行业有多普遍?据爱分析ifenxi 2026年6月发布的《AI DataOps市场厂商评估报告》,截至2026年Q1,中国软件企业中已完成数据资产盘点并建立AI数据治理体系的仅占11.7%。

考虑到中国大约有4.3万家年营收在500万元以上的软件和信息服务企业(据工信部2025年统计数据),这意味着超过3.8万家软件企业的数据基础根本不支持AI落地。

这个案例戳破了一个行业共同幻想:以为”大模型很聪明,什么数据都能消化”。现实是,大模型对数据的”挑剔”程度远比传统BI系统高出一个数量级。

传统BI可以在脏数据上跑出”大致正确”的结果——因为BI的逻辑是聚合和过滤,一个字段里有5%的错误不影响月度汇总。

但大模型的逻辑是语义理解和因果推理——如果输入数据本身语义混乱,模型不会说”我不知道”,而是会产生一篇逻辑自洽但事实完全错误的输出。在AI行业内部,这种现象被从业者称为”有信心的幻觉”。

AI落地失败原因排行:据中国信通院2025年数据治理产业报告,企业AI落地失败案例中,”数据质量问题”排在首位,占比37%,远高于”模型能力不足”(24%)和”团队能力欠缺”(19%)。换言之,每三个AI项目失败,就有一个根本原因不是AI不行,而是”喂给AI的东西太差”。

数据治理这件事在传统软件行业还有一个根深蒂固的认知偏差。大多数软件企业老板把”数据治理”理解为”买个数据中台、上个BI系统、建个数据仓库”。

但AI时代的数据治理是性质完全不同的问题——它的核心目标不再是”让报表跑得更快”,而是”让数据能被大模型理解、关联、推理”。

这个差异可以用一个具体的业务场景讲清楚。一份传统的销售合同,在BI系统里被处理成几个结构化字段:合同金额、签约日期、客户名称、产品线。这些字段跑月度销售额汇总报表够了。

但大模型需要的远远不止这些——它需要理解这份合同里的”交付范围变更条款”和三个月前的”客户投诉记录”之间的因果关系,需要知道这笔交易的”账期调整”和该客户的”行业周期”之间的关联,需要从合同附件的邮件往来中识别客户取消续约的早期信号。

这些语义层面的信息,在传统软件企业的数据库中几乎全部以”备注””附件””邮件截图”的形式存在——大模型根本”吃”不到。

值得注意的是,”数据治理”和”AI落地”之间的时间差正在被几乎所有企业低估。一个传统软件企业从决定做AI转型,到数据治理基本达标,平均耗时是多少?

结合一线实操来看,传统软件企业的AI转型路径上有一个绕不开的”三步走”。

第一步:数据资产盘点——搞清楚你有什么数据、在哪里、什么格式、质量如何。这一步的痛苦在于,大部分企业盘点完后发现”数据资产”的质量远低于CEO的主观感知。

第二步:数据标准化与知识建模——不是建BI报表,而是为大模型建立”可理解”的数据结构,包括实体识别、关系抽取、时间序列对齐、术语标准化。

第三步:模型选型与场景验证——有了干净的数据,才能判断到底该用大模型微调、RAG(检索增强生成)、还是直接prompt engineering就能解决。跳步的企业,大模型给他们的不是”智能”,而是”高情商的胡编乱造”。

一个值得深入展开的现象是:技术团队和业务团队在数据治理这件事上的”温差”巨大。

在一线调研中发现,工程师普遍认为”数据不够干净,还需要半年”;而CEO和业务VP则普遍认为”大模型很厉害,应该现在就能用”。

这个认知落差的直接后果是——AI项目要么在技术团队手里无限期”准备数据”,要么在业务团队催促下强行上线然后翻车。

关于”数据资产入账变现”这个政策红利:2026年政府工作报告把数据资产纳入企业资产负债表,这意味着数据治理开始有明确的财务回报。

据中国信通院测算,完成AI数据治理的企业,数据资产的估值平均可提升3-5倍。反过来说,那些一直没有做数据治理的软件企业,账面上被记为”无形资产”的数据,在AI时代可能面临的不是升值,而是减值。