国家数据局发了张＂AI数据基建图＂

跑得快吃肉，跑不动的连汤都喝不上

📅 2026年6月9日🏷 观察手记

一份文件，四个字：建供应链

6月8日，国家数据局印发《关于推进行业高质量数据集建设行动的实施方案》（国数科基〔2026〕25号）。8个部分、20条措施、6大专项行动、2028年阶段性目标——这是"十五五"期间第一份系统性规划AI数据基建的纲领性文件。

文件提了一个核心概念叫"数据飞轮"：场景牵引数据→数据驱动模型→模型赋能应用→应用创造价值。目标很明确——构建"数据要素与人工智能协同演进的共生生态"。

同时列了20个重点行业领域：科学研究、工业制造、城市治理、金融服务、医疗卫生……几乎把所有国家级战略赛道都圈进去了。还提了两件新事：探索以词元（Token）为基础的数据定价体系，以及探索数据集质押融资、作价入股、资产证券化。

AI的场景建得差不多了，现在该建燃料加油站了。

🎯 猫哥判断

这份文件不是在发"方向"，是在发"施工图"。

从"数据要素×"到"数据飞轮"，政策的逻辑线非常清晰：2024年搭制度框架，2025年做试点验证，2026年正式进入基建施工期。信号不能再明确了——高质量数据集，就是AI时代的"原油+炼油厂"。

但对产业里的玩家来说，这既是机会，也是清洗令。跑得快的人吃肉，心浮气躁什么都想掺一脚的，连汤都喝不上。

为什么是现在？两个数字说明一切

92%的企业在核心业务里用了AI，但只有23%真正跑通了规模化应用。中间69%的差值，卡的不是模型能力，是没有高质量数据喂进去。模型再强，拿一堆脏数据训练出来的也是个"一本正经胡说八道"的玩意。

这份政策的出台时机，刚好卡在两个关键节点之间：一边是"人工智能+"在政务、制造、医疗等领域全面铺开，场景需求已经跑起来了；另一边是国内高质量数据集严重短缺——公开可用的中文高质量训练数据，跟英文相比差了不止一个数量级。

发动机造好了，油箱是空的。这份文件等于是要在全国范围内建"加油站体系"——数据采集到标注加工，质量测评到流通交易，Token计价到资产证券化，二十条措施把整条燃料供应链从头画到了尾。

📊 方案核心框架：六大专项行动

行动	核心任务
强基扩容	20个重点行业领域铺开数据集建设，公共数据与行业数据融合
标注攻坚	从"人海标注"升级到"人机协同+专家深度参与"，梯次布局创新试验区
提质增效	建立AI-Ready质量标准，一次测评全国互认
应用赋能	打造"数据赋能工场"，以模引数、用数赋模
管理服务	全生命周期管理体系，落实三权分置
价值释放	Token定价、挂牌交易、资产证券化、培育付费共识

Token计价——数据终于有了自己的"度量衡"

这份文件里最值得关注的，不是20条措施本身，而是提出了以词元（Token）为基础的数据价值体系。

过去讲数据资产，最大的障碍就是"怎么定价"。一条数据库记录值多少钱？一个图像数据集值多少钱？没有公认的度量单位，数据交易就永远是"一事一议"的原始集市——买卖双方漫天要价、坐地还钱，交易成本和摩擦成本极高。

Token计价体系的意义在于：它把数据从"估值讲故事"拖到了"按量计价"。就像石油按桶、电力按度、带宽按Mbps——有了统一的计量单位，流通、交易、金融化才有了基础。文件还提了"词元交易"这种新型交易模式，等于在说：未来你的数据值多少钱，不是看你存了多少TB，而是看它训练模型时消耗了多少Token、产生了多少价值。

这不是小修小补。这是数据要素市场的基础设施级变革。

但是——建得热闹，用不起来才是真问题

这份文件最让人不安的地方，不是它写了什么，而是它没写什么。

过去十年，中国数字化领域有一个让人头皮发麻的规律：每一轮技术热潮都在重复同一个失败公式。2018年PPP热潮，项目停摆一堆；2020年数字中台，建完成摆设；2022年政务云，用起来的不到三成；2024-2026年AI大模型，正在重演。

为什么？因为建设导向没变、考核机制没变、人员能力没跟上。换了技术名词，内核还是那个内核——验收通过=项目结束=绩效到手，至于建完之后有没有人用、有没有数据持续流入、有没有模型真正跑起来，不在考核范围内。

⚠️ 数据集建设最容易踩的三个坑：

① 为了"建"而建——上级要求建数据集，那就把系统里已有的数据打个包交上去，格式对、量够、考核过。至于这些数据能不能训练模型、标注是否准确、有没有更新机制——不关我事。

② 建完即闲置——花大力气做了标注、过了质检、挂了牌，结果发现没人买、没人用、没人维护。半年后数据过时，投入打了水漂。

③ 什么行业都往里跳——城市治理也要做、工业制造也要做、医疗也要做、金融也要做。摊子铺得越大，每个领域做得越浅。最终哪个行业都没做深，哪个数据集都没人用。

这个政策野心极大，覆盖20个重点行业，目标2028年"数据从供给到价值释放的良性循环基本形成"。但别忘了——数字中台当年的文件写得比这个还漂亮。

心浮气躁什么都想参与，最终什么也做不好

文件里有一个容易被忽略但非常重要的表述："各地要落实属地管理责任，避免一哄而上，防止同质化、低水平重复建设。"这句话写在保障措施里，说明起草者自己也知道，以地方政府和企业的惯性，大概率会一哄而上。

我的判断：数据集建设这件事，越是高举高打，越要注重下沉和沉淀。

什么"数据飞轮"、"Token经济"、"数据资产证券化"——这些概念很性感，但对大多数身处这个行业的厂商来说，真正该做的事很朴素：找一个你真正懂的行业，扎进去，把那个垂直领域的数据集做到行业最好。不是20个行业各做一点，是一个行业做深做透。

数据集建设的核心不是"采集"，而是标注质量、行业知识注入、持续迭代。这三点，没有一项是"快钱生意"。标注需要懂行的专家深度参与，不是雇300个外包标注员就能搞定的。行业知识注入需要长期蹲在一线理解业务逻辑。持续迭代需要建立整套的数据质量管理体系和更新机制。

这些事，哪一件是三个月能做完的？哪一件是铺大摊子能做好的？

老读者都知道我常说一句话：政策是油门，问题是刹车。油门踩得再狠，刹车上锁了，车还是不动。

这份文件里画了一张"数据飞轮"的图，看起来很顺畅——数据进来，模型训练，应用落地，价值产出，再反哺数据。但轮子能转起来的前提是：每个节点都有人在认真干活。如果采集端用存量数据充数，标注端找外包凑合，质检端走形式过场，应用端做两个Demo交差——那这个飞轮就不是飞轮，是生锈的齿轮，转两圈就卡死了。

数据集不是"建"出来的，是"养"出来的

写到这里，我想起一个类比。过去十年，中国修了全世界最多的数据中心、最多的云计算节点、最多的5G基站——硬基建能力全球第一。但软基建呢？高质量数据集的积累、数据标注的人才体系、行业知识的结构化沉淀——这些才是AI时代真正的"铁轨和电网"。

这份文件的本质，是在补硬基建和软基建之间的那条裂缝。但补裂缝这种事，最怕的就是用"建工程"的思维去做"养生态"的事。数据集是需要长期养护的——标注团队要稳定、质检标准要迭代、行业知识库要持续更新。没有运营的数据集，跟没有运营的智慧城市系统一样——建完即闲置。

文件第19条提了"数据集资产盘点、登记、评估"和"质押融资、作价入股、资产证券化"，看起来很美。但资产化的前提是这个资产真的有价值。一个三个月赶工出来、标注正确率不到90%、半年没更新过的数据集，银行凭什么给你放贷款？资本市场凭什么给你定价？

我的判断很直接：高质量数据集这件事，能做出壁垒的不是"谁最先建"，而是"谁一直在养"。

对三类玩家的影响完全不同

📊 数据集政策落地的三类玩家格局

玩家类型	机会	风险
行业深耕型（在某个垂直领域有多年数据积累和业务理解的团队）	最大赢家。政策的"链主"导向直接利好这类玩家。数据授权、挂牌交易、Token计价——全是利好。	被大厂收购后失去独立性；行业过于细分导致市场规模天花板低。
大厂通用型（有算力有模型但行业数据积累不足的平台企业）	通过采购、合作、投资等方式补数据短板。文件鼓励的"以数换数""数模互换"模式适合这类玩家。	通用模型能力强但行业穿透力弱——买得到数据，买不到行业认知。
跟风投机型（什么热做什么、没有行业深耕的中间商）	几乎没有。数据集建设是重运营的慢生意，不是"中标—外包—验收"的老三样能做的。	最大风险群体。心浮气躁什么都想参与，最终什么都做不好。

最后一种玩家，是这份政策最可能"清洗"掉的。在之前的智慧城市、政务云、数据中台浪潮里，这类玩家靠关系拿项目、靠外包做交付、靠验收吃完就走。但数据集建设不一样——它是持续的，交付完才是开始。没有长期运营能力和行业深耕能力的团队，连招标门槛都摸不到。

数据局的这份文件，既是一张"基建施工图"，也是一张"入场资格证"。能养数据的人，拿到的是通行证；只想吃快餐的人，拿到的是驱逐令。

你怎么看？你所在的行业或城市，高质量数据集建设是真正起步了，还是又在"建一个文件里的数据集"？欢迎留言聊聊。

猫哥说方案 · 诊断工具

你的项目问题出在哪里？填完12道题，一目了然

文章里说的这些坑，你中了几个？「数字化项目健康度自查表」——12题诊断你的项目卡在哪个维度，附针对性建议。

📲 获取方式

关注公众号 「猫哥说方案」后台回复关键词 项目自查

填完有问题想聊？后台说一声，我们来看看你的情况