
当银行还在比谁家大模型参数多时,真正的胜负手早已转移——数据治理,才是AI时代的“军火库”。
一、一场“伪平权”正在上演
2025年,DeepSeek开源,训练成本降至闭源模型的1/20。超过30家银行火速接入,其中三分之二是中小银行。舆论欢呼“科技平权”——小银行终于不用烧钱也能玩AI了。
别高兴太早。
招商银行科技投入129亿元,占营收4.31%;工商银行数据湖接入9.4万张表,AI数字员工等效5.5万人年。而中小银行呢?科技投入普遍低于营收1%,71%的机构技术人员占比不足5%。
开源模型降价了,但数据的“门票”没降。中小银行EAST数据漏报错报率18%,大行只有5%。你拿着DeepSeek,数据是脏的——就像给F1赛车灌地沟油。
竞争的焦点已经从“谁能买得起模型”变成了“谁能治理好数据”。开源没有平权,它只是揭开了真正的差距。
二、监管“抽鞭子”,反倒抽出了创新
93号文要求从“制度合规”转向“能力合规”——不再看你有无制度文件,而是看你能否真正运转起来。金规〔2024〕24号提出AI“三可原则”:可验证、可审核、可追溯。
很多银行觉得这是紧箍咒。
但工商银行被“逼”出了69项安全检测,交通银行首创“全匿踪联邦建模”拿下金融密码杯一等奖。监管要求“停止AI时的替代方案”,本质是在倒逼保留人机协同接口——这不是限制,是安全网。
中国银行业的AI创新,有一条独特路径:监管驱动。合规不是成本,是创新的起跑线。
三、数据质量与AI的“双向飞轮”
数据差,AI更差;数据好,AI更好。这是飞轮,但分正反。
上海AI实验室的结论很直接:8B参数的高质量数据模型,效果可以媲美32B的通用模型。规模不是王道,质量才是。
中小银行常陷入“负向飞轮”:脏数据→AI输出错误→进一步污染数据→模型越跑越偏。某城商行80多套系统,客户风险指标不一致率高达40%,AI怎么学?
正确的启动路径是三段式:人工奠基→AI辅助→AI自主。先拿人工把核心数据洗干净,再让AI接盘重复劳动,最后才能放手让AI自治。跳过第一步,直接上AI,等于拿火药往火堆里扔。
恒丰银行就做对了:聚焦80%高频数据质检场景,用AI助手覆盖,人力节约超40%。它不是全面铺开,是精准切入。
四、“阈值效应”:2%营收是生死线
数据治理投入与AI效果不是线性关系,是S型曲线。
低于营收2%——低效区,投了白投。跨越2%——高效回报区,边际收益陡增。超过4.5%——边际递减区,再砸钱效果有限。
招商银行4.31%投入,预警提前42天。恒丰银行集中资源突破阈值,用有限投入撬动了40%人力节约。而那些低于1%的中小银行,还在“边污染边治理”的泥潭里打转。
不是所有银行都需要铺千卡集群。关键是:你的投入,跨过“最小有效剂量”了吗?
五、幻觉不可消除,大模型只能是“副驾驶”
大模型在金融领域有个根本性矛盾:生成式AI的概率本质 vs 金融业务的“零容忍”要求。
未经优化,幻觉率35%以上;用了RAG,也只能降到4-8%。某城商行因为大模型编错理财产品说明书,被罚2300万元。
这不是技术能彻底解决的。央行令〔2025〕第3号要求AI系统必须有“退出替代方案”——实质是在说:金融核心决策,不能完全交给AI。
大模型的正确角色是“辅助工具”,不是“自主决策系统”。它可以帮你提效、帮你分析,但最终签字的那支笔,还得在人手里。
写在最后
未来三到五年,三个趋势确定无疑:
数据从成本变资产——数据资产质押融资已经落地,数据要素市场化不再是概念。 AI治理从“事后合规”变“内嵌设计”——三道防线(业务、风控、审计)将融入模型全生命周期。 竞争从“单点”变“生态”——行业联盟、数据共享、联邦学习,单打独斗的时代结束了。
对大型银行:你的任务是“从强到标准”,输出能力、牵头行业,当裁判而不是只当运动员。
对中小银行:别做大而全的梦。聚焦2-3个核心场景,先建立高质量种子数据集,借力开源和云平台,加入联盟——在细分赛道做出不可替代性。
AI不是魔法。它是一面放大镜——放大的是你数据治理的真功夫,还是数据脏乱的致命伤,全看你自己的底子。
数据治不好,AI救不了。

夜雨聆风