
2026年6月3日,国家数据局印发了一份文件——《关于推进行业高质量数据集建设行动的实施方案》(国数科基〔2026〕25号)。我结合工作中的观察,说说这份文件到底意味着什么。
一、什么是“高质量数据集”?为什么突然这么重要?
过去AI训练用的数据,很多是从网上爬的——质量参差不齐,有时还会“学坏”。文件要解决的核心问题就是:怎么做出分行业的、经过专业加工的、可以直接用来训练AI的高质量数据。
什么叫高质量?三个标准:结构完整(不能缺胳膊少腿)、标注准确(不能瞎标)、模型适配(训练完真能提升性能)。
该方案聚焦科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、电子商务、人力资源、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理、住房建设、自然资源、社会信用等重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,加快推进行业高质量数据集建设。我们陕西在这件事上是有基础的。能源化工、工业制造、文化旅游——这些领域的数据禀赋,全国没有几个省能跟陕西比。陕北的煤矿地质数据、陕西历史博物馆的文物数据、华山景区的客流数据,都是独一份的“数据富矿”。但要把“富矿”变成“精矿”,需要从采集到标注到应用的全流程体系——这正是国家这份文件要推动建立的。
二、六个专项行动,陕西最该关注三个
文件部署了强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六个专项行动。其中和陕西当前工作最密切相关的有三个:
(一)标注攻坚——数据标注是“劳动密集型+知识密集型”产业
文件提出“梯次布局一批数据标注创新试验区”,在首批七个试点城市基础上向更多地区开放。
对陕西意味着什么?数据标注是一个能吸纳大量就业的产业——不需要会写代码,需要的是对特定行业有理解的标注员。比如给医疗影像做标注,需要懂解剖学;给煤矿地质数据做标注,需要懂地质构造。陕西的高校资源(交大、西电、西工大)和产业禀赋(能源、制造、文旅)恰好匹配。如果能拿下国家第二批数据标注试验区的牌子,对本地就业和产业转型都有直接拉动。
目前我们正在组织开展人工智能高质量数据集建设的相关课题研究,就是在做前期铺垫。
(二)应用赋能——“数据飞轮”到底是什么意思?
文件提出了“数据飞轮”概念——场景牵引数据、数据驱动模型、模型赋能应用、应用再产生新数据。这不是套话,是一个很形象的比喻。

飞轮是什么?你见过老式的手扶拖拉机吗?侧面有一个很重的大铁轮子。启动的时候要一个人咬着牙拼命摇,摇好几圈才“突突突”发动起来。一旦转起来了,自己就能靠惯性一直转,你不用再使劲了。

数据飞轮就是同一个逻辑。把它套在一个“政务服务智能问答”系统上,四步就看懂了:
第一圈(最累):把过去十年的政务办事指南、常见问题、政策文件整理成一个高质量数据集,训练出一个初始模型。这一步最花钱、最费时间。
第二圈:模型上线。老百姓开始用它问问题——“我户口在宝鸡,能在西安办身份证吗?”模型回答了,老百姓点了“有用”或“没用”。
第三圈:每天几千次问答产生的数据——哪些问题被问得最多、哪些回答被打差评、哪些新政策还没被收录——自动反馈回去,模型自己就在改进。
第四圈:模型越来越好用→用的人越来越多→产生的反馈数据越来越多→模型又更好用……你不再需要从头训练它了,它自己转起来了。
文件用“飞轮”而不用“循环”,因为循环只是“转圈”,飞轮是越转越快、越转越省力。前期投入大、启动难,但一旦转起来,数据自己就会源源不断地产生价值。
陕西正在推进的智能问数、热线智能填单等AI示范场景,就是这个飞轮在政务领域的落地——先用政务场景的需求倒逼数据集建设,再用建好的数据集训练模型,模型上线后产生的动态交互数据又反过来优化数据集。这个循环一旦转起来,效能提升是持续的,不再需要每次升级都从头再来。
文件还提出要打造“数据赋能工场”——集数据集生产加工和流通利用、支撑模型训练应用于一体的标杆项目。陕西的能源、文旅数据富集,有条件争取。
(三)价值释放——数据能“抵押贷款”了
文件列出了数据资产的六种转化路径:质押融资、作价入股、资产证券化、数据信托、数据保险、挂牌交易。这是国家层面第一次把数据资产化的路径写得这么具体。
更关键的是第二十条——“推动数据采买纳入预算编制,率先开展数据采购实践。”以前政府部门买软件有预算科目,买服务器有采购目录,但“买数据”走什么科目?说不清楚。现在国家明确说:数据是一种可以采购的资产。这对我们做政务信息化项目管理的人来说,是个制度层面的重大突破——以后建设AI应用系统时,“数据集采购”可以堂堂正正地列入项目预算。
三、跟普通人有什么关系?三个“第一次”

第一次有了“数据定价”的通用单位。文件提出构建以“词元(Token)”为基础的数据价值体系。Token是AI模型处理信息的基本单位——你问AI一个问题,AI要消耗一定数量的Token来回答。以后数据集也按Token计价,就像自来水按“吨”、电按“度”一样。数据交易有了统一度量衡。
第一次把“数据标注师”变成一个正经职业。文件提出“鼓励高校毕业生等群体参与标注工作”“开展数据标注职业技能等级认定”“畅通人才发展通道”。以后可能会出现一个新的职业群体——不需要写代码,但需要懂行业,靠专业知识给数据“打标签”赚钱。陕西有大量高校毕业生,这个方向有就业想象力。

第一次企业手里的数据可以拿去银行质押融资。以前一个企业说“我有一堆数据”,银行没法评估。以后有高质量数据集、有登记、有标准——数据就能像厂房一样成为抵押物。对陕西的数字经济企业来说,这是全新的融资渠道。
四、窗口期有多长?三年
文件设定了2028年底的目标——建成一批覆盖重点领域的行业高质量数据集,打造一批典型应用场景,培育一批创新型数据企业。三年时间,说长不长。
陕西有先发优势,但关键是把先发优势转化为制度优势——谁先把标准建起来、谁先把国家试点牌子拿下来、谁先把“数据飞轮”转起来,谁就能在新一轮数据竞争中占住位置。
陕西省已经陆续发布40个公共数据“跑起来”典型应用场景、打造多家标杆数据企业、建设高质量数据集及可信数据空间试点。国家这份文件为所有这些工作提供了权威的政策依据和方法指引。
一句话总结:国家给AI时代铺路,陕西已经在路上跑了。现在需要的是把现有的数据富矿变成高质量数据集,并且让它们真的能训练模型、真的能变成资产、真的能让资产变成收益。
参考文献
[1] 国家数据局,《关于推进行业高质量数据集建设行动的实施方案》(国数科基〔2026〕25号),2026年6月3日
[2] 国家发展改革委、国家数据局、财政部、人力资源社会保障部,《关于促进数据标注产业高质量发展的实施意见》(发改数据〔2024〕1822号),2024年12月26日
[3] 中共陕西省委办公厅、陕西省人民政府办公厅,《关于加快公共数据资源开发利用的实施意见》(陕办发〔2026〕2号),2026年1月31日
[4] 国务院,《关于深入实施“人工智能+”行动的意见》(国发〔2025〕11号),2025年8月21日
[5] 国家数据局等17部门,《“数据要素×”三年行动计划(2024—2026年)》(国数政策〔2023〕11号),2023年12月31日
夜雨聆风