数据治不好,AI也救不了

当银行还在比谁家大模型参数多时，真正的胜负手早已转移——数据治理，才是AI时代的“军火库”。

一、一场“伪平权”正在上演

2025年，DeepSeek开源，训练成本降至闭源模型的1/20。超过30家银行火速接入，其中三分之二是中小银行。舆论欢呼“科技平权”——小银行终于不用烧钱也能玩AI了。

别高兴太早。

招商银行科技投入129亿元，占营收4.31%；工商银行数据湖接入9.4万张表，AI数字员工等效5.5万人年。而中小银行呢？科技投入普遍低于营收1%，71%的机构技术人员占比不足5%。

开源模型降价了，但数据的“门票”没降。中小银行EAST数据漏报错报率18%，大行只有5%。你拿着DeepSeek，数据是脏的——就像给F1赛车灌地沟油。

竞争的焦点已经从“谁能买得起模型”变成了“谁能治理好数据”。开源没有平权，它只是揭开了真正的差距。

93号文要求从“制度合规”转向“能力合规”——不再看你有无制度文件，而是看你能否真正运转起来。金规〔2024〕24号提出AI“三可原则”：可验证、可审核、可追溯。

很多银行觉得这是紧箍咒。

但工商银行被“逼”出了69项安全检测，交通银行首创“全匿踪联邦建模”拿下金融密码杯一等奖。监管要求“停止AI时的替代方案”，本质是在倒逼保留人机协同接口——这不是限制，是安全网。

中国银行业的AI创新，有一条独特路径：监管驱动。合规不是成本，是创新的起跑线。

数据差，AI更差；数据好，AI更好。这是飞轮，但分正反。

上海AI实验室的结论很直接：8B参数的高质量数据模型，效果可以媲美32B的通用模型。规模不是王道，质量才是。

中小银行常陷入“负向飞轮”：脏数据→AI输出错误→进一步污染数据→模型越跑越偏。某城商行80多套系统，客户风险指标不一致率高达40%，AI怎么学？

正确的启动路径是三段式：人工奠基→AI辅助→AI自主。先拿人工把核心数据洗干净，再让AI接盘重复劳动，最后才能放手让AI自治。跳过第一步，直接上AI，等于拿火药往火堆里扔。

恒丰银行就做对了：聚焦80%高频数据质检场景，用AI助手覆盖，人力节约超40%。它不是全面铺开，是精准切入。

数据治理投入与AI效果不是线性关系，是S型曲线。

低于营收2%——低效区，投了白投。跨越2%——高效回报区，边际收益陡增。超过4.5%——边际递减区，再砸钱效果有限。

招商银行4.31%投入，预警提前42天。恒丰银行集中资源突破阈值，用有限投入撬动了40%人力节约。而那些低于1%的中小银行，还在“边污染边治理”的泥潭里打转。

不是所有银行都需要铺千卡集群。关键是：你的投入，跨过“最小有效剂量”了吗？

大模型在金融领域有个根本性矛盾：生成式AI的概率本质 vs 金融业务的“零容忍”要求。

未经优化，幻觉率35%以上；用了RAG，也只能降到4-8%。某城商行因为大模型编错理财产品说明书，被罚2300万元。

这不是技术能彻底解决的。央行令〔2025〕第3号要求AI系统必须有“退出替代方案”——实质是在说：金融核心决策，不能完全交给AI。

大模型的正确角色是“辅助工具”，不是“自主决策系统”。它可以帮你提效、帮你分析，但最终签字的那支笔，还得在人手里。

未来三到五年，三个趋势确定无疑：

对大型银行：你的任务是“从强到标准”，输出能力、牵头行业，当裁判而不是只当运动员。

对中小银行：别做大而全的梦。聚焦2-3个核心场景，先建立高质量种子数据集，借力开源和云平台，加入联盟——在细分赛道做出不可替代性。

AI不是魔法。它是一面放大镜——放大的是你数据治理的真功夫，还是数据脏乱的致命伤，全看你自己的底子。

数据治不好，AI救不了。