跑得快吃肉,跑不动的连汤都喝不上
一份文件,四个字:建供应链
6月8日,国家数据局印发《关于推进行业高质量数据集建设行动的实施方案》(国数科基〔2026〕25号)。8个部分、20条措施、6大专项行动、2028年阶段性目标——这是"十五五"期间第一份系统性规划AI数据基建的纲领性文件。
文件提了一个核心概念叫"数据飞轮":场景牵引数据→数据驱动模型→模型赋能应用→应用创造价值。目标很明确——构建"数据要素与人工智能协同演进的共生生态"。
同时列了20个重点行业领域:科学研究、工业制造、城市治理、金融服务、医疗卫生……几乎把所有国家级战略赛道都圈进去了。还提了两件新事:探索以词元(Token)为基础的数据定价体系,以及探索数据集质押融资、作价入股、资产证券化。
AI的场景建得差不多了,现在该建燃料加油站了。
🎯 猫哥判断
这份文件不是在发"方向",是在发"施工图"。
从"数据要素×"到"数据飞轮",政策的逻辑线非常清晰:2024年搭制度框架,2025年做试点验证,2026年正式进入基建施工期。信号不能再明确了——高质量数据集,就是AI时代的"原油+炼油厂"。
但对产业里的玩家来说,这既是机会,也是清洗令。跑得快的人吃肉,心浮气躁什么都想掺一脚的,连汤都喝不上。
为什么是现在?两个数字说明一切
92%的企业在核心业务里用了AI,但只有23%真正跑通了规模化应用。中间69%的差值,卡的不是模型能力,是没有高质量数据喂进去。模型再强,拿一堆脏数据训练出来的也是个"一本正经胡说八道"的玩意。
这份政策的出台时机,刚好卡在两个关键节点之间:一边是"人工智能+"在政务、制造、医疗等领域全面铺开,场景需求已经跑起来了;另一边是国内高质量数据集严重短缺——公开可用的中文高质量训练数据,跟英文相比差了不止一个数量级。
发动机造好了,油箱是空的。这份文件等于是要在全国范围内建"加油站体系"——数据采集到标注加工,质量测评到流通交易,Token计价到资产证券化,二十条措施把整条燃料供应链从头画到了尾。
| 行动 | 核心任务 |
|---|---|
Token计价——数据终于有了自己的"度量衡"
这份文件里最值得关注的,不是20条措施本身,而是提出了以词元(Token)为基础的数据价值体系。
过去讲数据资产,最大的障碍就是"怎么定价"。一条数据库记录值多少钱?一个图像数据集值多少钱?没有公认的度量单位,数据交易就永远是"一事一议"的原始集市——买卖双方漫天要价、坐地还钱,交易成本和摩擦成本极高。
Token计价体系的意义在于:它把数据从"估值讲故事"拖到了"按量计价"。就像石油按桶、电力按度、带宽按Mbps——有了统一的计量单位,流通、交易、金融化才有了基础。文件还提了"词元交易"这种新型交易模式,等于在说:未来你的数据值多少钱,不是看你存了多少TB,而是看它训练模型时消耗了多少Token、产生了多少价值。
这不是小修小补。这是数据要素市场的基础设施级变革。
但是——建得热闹,用不起来才是真问题
这份文件最让人不安的地方,不是它写了什么,而是它没写什么。
过去十年,中国数字化领域有一个让人头皮发麻的规律:每一轮技术热潮都在重复同一个失败公式。2018年PPP热潮,项目停摆一堆;2020年数字中台,建完成摆设;2022年政务云,用起来的不到三成;2024-2026年AI大模型,正在重演。
为什么?因为建设导向没变、考核机制没变、人员能力没跟上。换了技术名词,内核还是那个内核——验收通过=项目结束=绩效到手,至于建完之后有没有人用、有没有数据持续流入、有没有模型真正跑起来,不在考核范围内。
⚠️ 数据集建设最容易踩的三个坑:
① 为了"建"而建——上级要求建数据集,那就把系统里已有的数据打个包交上去,格式对、量够、考核过。至于这些数据能不能训练模型、标注是否准确、有没有更新机制——不关我事。
② 建完即闲置——花大力气做了标注、过了质检、挂了牌,结果发现没人买、没人用、没人维护。半年后数据过时,投入打了水漂。
③ 什么行业都往里跳——城市治理也要做、工业制造也要做、医疗也要做、金融也要做。摊子铺得越大,每个领域做得越浅。最终哪个行业都没做深,哪个数据集都没人用。
这个政策野心极大,覆盖20个重点行业,目标2028年"数据从供给到价值释放的良性循环基本形成"。但别忘了——数字中台当年的文件写得比这个还漂亮。
心浮气躁什么都想参与,最终什么也做不好
文件里有一个容易被忽略但非常重要的表述:"各地要落实属地管理责任,避免一哄而上,防止同质化、低水平重复建设。"这句话写在保障措施里,说明起草者自己也知道,以地方政府和企业的惯性,大概率会一哄而上。
我的判断:数据集建设这件事,越是高举高打,越要注重下沉和沉淀。
什么"数据飞轮"、"Token经济"、"数据资产证券化"——这些概念很性感,但对大多数身处这个行业的厂商来说,真正该做的事很朴素:找一个你真正懂的行业,扎进去,把那个垂直领域的数据集做到行业最好。不是20个行业各做一点,是一个行业做深做透。
数据集建设的核心不是"采集",而是标注质量、行业知识注入、持续迭代。这三点,没有一项是"快钱生意"。标注需要懂行的专家深度参与,不是雇300个外包标注员就能搞定的。行业知识注入需要长期蹲在一线理解业务逻辑。持续迭代需要建立整套的数据质量管理体系和更新机制。
这些事,哪一件是三个月能做完的?哪一件是铺大摊子能做好的?
老读者都知道我常说一句话:政策是油门,问题是刹车。油门踩得再狠,刹车上锁了,车还是不动。
这份文件里画了一张"数据飞轮"的图,看起来很顺畅——数据进来,模型训练,应用落地,价值产出,再反哺数据。但轮子能转起来的前提是:每个节点都有人在认真干活。如果采集端用存量数据充数,标注端找外包凑合,质检端走形式过场,应用端做两个Demo交差——那这个飞轮就不是飞轮,是生锈的齿轮,转两圈就卡死了。
数据集不是"建"出来的,是"养"出来的
写到这里,我想起一个类比。过去十年,中国修了全世界最多的数据中心、最多的云计算节点、最多的5G基站——硬基建能力全球第一。但软基建呢?高质量数据集的积累、数据标注的人才体系、行业知识的结构化沉淀——这些才是AI时代真正的"铁轨和电网"。
这份文件的本质,是在补硬基建和软基建之间的那条裂缝。但补裂缝这种事,最怕的就是用"建工程"的思维去做"养生态"的事。数据集是需要长期养护的——标注团队要稳定、质检标准要迭代、行业知识库要持续更新。没有运营的数据集,跟没有运营的智慧城市系统一样——建完即闲置。
文件第19条提了"数据集资产盘点、登记、评估"和"质押融资、作价入股、资产证券化",看起来很美。但资产化的前提是这个资产真的有价值。一个三个月赶工出来、标注正确率不到90%、半年没更新过的数据集,银行凭什么给你放贷款?资本市场凭什么给你定价?
我的判断很直接:高质量数据集这件事,能做出壁垒的不是"谁最先建",而是"谁一直在养"。
对三类玩家的影响完全不同
| 玩家类型 | 机会 | 风险 |
|---|---|---|
| 行业深耕型 | ||
| 大厂通用型 | ||
| 跟风投机型 |
最后一种玩家,是这份政策最可能"清洗"掉的。在之前的智慧城市、政务云、数据中台浪潮里,这类玩家靠关系拿项目、靠外包做交付、靠验收吃完就走。但数据集建设不一样——它是持续的,交付完才是开始。没有长期运营能力和行业深耕能力的团队,连招标门槛都摸不到。
数据局的这份文件,既是一张"基建施工图",也是一张"入场资格证"。能养数据的人,拿到的是通行证;只想吃快餐的人,拿到的是驱逐令。
你怎么看?你所在的行业或城市,高质量数据集建设是真正起步了,还是又在"建一个文件里的数据集"?欢迎留言聊聊。
夜雨聆风