乐于分享
好东西不私藏

AI数据量首超物联网数据,第九届数字中国建设峰会释放的产业信号

AI数据量首超物联网数据,第九届数字中国建设峰会释放的产业信号

北大人工智能产业应用研修班

临界点这种东西,往往只有你往回看的时候才会知道。天亮了,那就是真的亮了。

在4月29日,福州,第九届数字中国建设峰会上。

国家数据局局长刘烈宏站上了讲台,念出了这样一个数字——26.92泽字节。这其实是2025年中国系统软件以及人工智能所产生的数据量。它可是头一回超过了传统的物联感知数据量。

台下当时并没有人鼓掌。但是在座的人心里都很清楚,这个数字到底意味着什么。

这绝对不仅仅只是数据的胜利,它其实是一场产业逻辑的根本性切换。


一、”奇点”不是科幻概念,它已经在你的服务器里

这个数字其实得拆开来看。

26.92泽字节。1泽字节就等于10亿TB。要是这么算的话,2025年全中国AI系统所产生的数据,要是全部都倒进手机里,全球每个人都能分到300多部iPhone。

但是总量的猛增是一回事,结构方面的变化才是重点所在。

在过去的十几年里,物联感知数据——比如摄像头拍的、传感器采的、以及GPS定位的——它一直都是绝对的主力。而现在,AI系统自己产出的数据,训练数据、推理数据、以及合成数据,已经反超了。

这完全可以说是结构性的翻转。

刘烈宏还放出了另外一个数字:2025年全国用于AI训练以及推理的数据总量达到了199.48EB,同比增长了42.86%。这其中推理数据有101.34EB,首次压过了训练数据。

要是把它翻译成大白话就是:AI已经不再关起门来练功夫了,它早就已经上了真正的战场。

当推理数据超过了训练数据,这就说明AI已经从”学习期”正式迈入了”工作期”。模型已经部署下去了,API已经被调用起来了,业务已经跑通了。

那个传说中的”AI大规模落地奇点”,已经随着2025年的那张财报悄然而过了。


二、国家队下场做”保洁”:高质量数据集的攻坚战

数据虽然很多,但是能够被拿来用的却很少。

现在的AI大模型,其实就像是超级学霸一样,但是手里的教材却全是错别字。这也是很多企业在部署AI的时候所遇到过的尴尬:用了几个月,模型却越跑越傻。

刘烈宏所提到的大量”非结构化和半结构化数据”,就是这些错别字。

怎么去解决这个问题?国家队已经亲自下场了。

国家数据局在峰会上明确宣布,目前正在联合多个部委,共同编制《国家数据基础设施建设指引》并且组织起草了《关于推进行业高质量数据集建设行动的实施方案》

这可不是在写作文,这其实就是在做“数字保洁”。国家要牵头,把那些脏的、乱的、差的行业数据,清洗成干净的、标注好的、并且能直接喂给大模型吃的”硬菜”。

这就意味着,接下来的三年时间里,谁能够去提供高质量的行业数据集,谁就等于是握住了AI时代的”石油矿权”。

数据处理服务商、标注公司、以及掌握核心行业数据的龙头企业,目前已经迎来了十年一遇的黄金窗口期了。


三、重磅文件的信号:11月30日的”大考”

在这其中,那份《关于推进行业高质量数据集建设行动的实施方案》,是必须得拿放大镜去看的一份文件。

它覆盖了20个重点行业——包含了钢铁、石化、汽车、医疗装备、电子元器件、航空航天……这基本上是把中国制造业的全套家底都给装进去了。

七项重点任务,我来帮你捋成一条线:

第一步,构建行业通识数据集,从而打造行业模型。每个省至少去选3个行业,每个行业至少要有5个高质量数据集去搭1个行业模型。这其实就是在打地基。

第二步,梳理高价值场景,构建行业专识数据集,从而打造特色智能体。每个行业至少要有30个高价值场景,每个场景至少去配1个智能体。这其实就是在盖房子。

第三步,创建”模数共振”空间——打通多主体之间的数据壁垒,并且逐步升级为”智能体工厂“。这其实就是在通水电。

第四到第七步,包括评测体系、创新联合体、生态配套、以及重点城市——装修、招商、物业,一条龙全配齐。

这整套路径的底层逻辑其实就一条:数据集→行业模型→场景智能体→应用实践→产生新数据→优化模型。

这绝对不是一份普通的政府文件。它其实是中国工业AI化的工程蓝图

同时还有一个日子你也得圈上:2026年11月30日。所有参与了行动的城市以及企业,必须要在此之前去提交总结报告,接受验收以及评估。

掐指算一算,还剩下不到7个月的时间了。


四、做”数据集”还是做”智能体”——这是个战略问题

好了,现在说到正题了。

前面所说的这些大框架,只要落到每个企业的头上,就是一个非常扎手的选择题:

对于中小企业的资源有限,到底该往哪个方向去使劲?

方案里其实已经给出了十分明确的路径:要么去做高质量的”粮草”(数据集),要么去做能干活的”劳动力”(智能体)。

  1. 如果你手握行业know-how(比如医疗影像、或者是工业质检标准),那就不要去死磕模型了,把你的那些经验变成行业专识数据集。以后所有的通用大模型要想进这个行业,都得来买你的数据去进行微调。
  2. 如果你是软件服务商(SaaS公司),那就必须得向智能体(AI Agent)全面转型。把你的那些SaaS功能,拆解成一个个能够被AI去调用执行的API。不要去卖软件了,要去卖”完成任务的能力”。

这场”模数共振”的空间革命,其实正在去重塑整个IT供应链。以前是”人+软件”,以后是”智能体+API”。

北京大学未来产业投资与并购总裁培训班


最后:别只盯着那2.7%的差距

在斯坦福最新的AI报告里面,有一个数据被大家反复地咀嚼:美国顶级大模型仅仅领先中国2.7%。

但是刘烈宏所抛出的”26.92泽字节”,其实才是中国AI真正的底牌。

我们的大模型能力目前正在逼近天花板,这只是技术指标。但是我们在制造业、医疗、以及交通等千行百业里所沉淀下来的海量感知数据、以及正在爆发的AI生成数据,这才是产业指标

用海量的高质量数据集,去喂养出成千上万个懂行的特色智能体,从而形成一张庞大的”智能体网络”。

这,其实也就是数字中国在下半场所要走的破局之路。

风已经起来了,留给企业去犹豫的时间,真的不多了。

扫描二维码/添加微信咨询
微信号:gsl215 手机:15313732921