以出版为基,筑中文AI语料底座
3月28日至29日,2026中国网络媒体论坛在河南郑州举办。这场由中央网信办、人民日报社、河南省委网信委联合主办的行业盛会,以“发挥主流媒体引领力激发多元主体创造力——共创繁荣网络内容生态”为主题,成为传媒与数字产业融合发展的思想盛宴。深耕出版与人工智能融合领域的资深专家施其明受邀参加“善用善治:AI内容规范发展”主题论坛并在案例分享环节发表演讲,立足十余年出版行业深耕实践,为中文AI语料体系建设锚定出版赛道核心价值。


01深耕出版:从数字化到AI语料
作为国家新闻出版署出版融合发展重点实验室总工程师,施其明曾作为技术骨干参与多项国家科技支撑计划及国家重点研发计划项目,在人工智能与出版融合领域积淀深厚。同时,他在人工智能底层技术研发领域功底扎实,带领团队荣获国家专精特新“小巨人”、福布斯中国人工智能科技企业50强、世界独角兽企业、国家可信数据空间创新发展试点等多项资质荣誉。
深耕出版领域十余年,施其明见证并参与了行业从传统纸媒向数智化转型的全历程。当前,AI产业已迈入发展下半场,行业共识从“拼算力、拼参数”转向“拼数据、拼语料”。这一趋势背后,是数据需求的爆发式增长——国家数据局最新数据显示,截至2026年3月,我国日均token调用量已超过140万亿,相比2025年底增长超40%。全球最大AI模型聚合平台数据也显示,中国AI大模型周调用量达到4.69万亿token,连续第二周超越美国。数万亿token级别调用量的背后,是一批高频规模化可持续付费的商业应用的高速布局,也意味着高质量语料的供给成为AI产业发展的关键命脉。
“中国大模型技术已跻身全球第一梯队,但Scaling Law 1.0发展模式遭遇瓶颈。顶级模型训练成本高、互联网公开数据近乎耗尽,通用模型红利见顶,垂直领域高质量数据成为AI技术落地各行业的关键抓手。”施其明判断,“未来国际AI竞争的核心,在于谁掌握了高质量、高价值密度的语料供给体系——这将定义下一代智能的发展高度。”
直面中文语料供给的行业短板,施其明坦言:当前中文高价值语料家底薄弱,开源数据集存在高重复率、低信噪比问题,语料加工技术与国际领先水平仍有差距,市场缺乏健康流转机制,造成“有数据难流通、有需求难满足”的困局。而出版业,正是破解这一难题的优质切口。

02三大优势:出版语料的不可替代价值
“出版语料的核心优势与生俱来。”施其明认为:
其一,审核严格、可信度高。一本书从选题到出版历经数十道专业程序,从源头上规避语料“污染”。
其二,文本完整、逻辑不断层。区别于碎片化网络文本,图书的系统化知识体系是训练大模型长文本理解、复杂推理能力的核心原料。
其三,体系完善、价值密度极高。出版业横跨360行、覆盖全知识层次,是垂类大模型急需的纵深数据富矿。
“出版业8万余名专业编辑队伍,是尚未被充分激活的‘高质量语料加工国家队’。”施其明指出,这支队伍的内容鉴别力、规范执行力、领域理解力与语料加工需求高度契合,其日常编校工作本质上就是最高标准的语料加工。
“这意味着,出版业的数据加工具有独特的‘零成本’优势——编辑工作本身就在进行语料加工,无需额外投入即可产出高质量数据。”据科技媒体《The Information》报道,OpenAI每年向出版商支付的许可费用预计在100万至500万美元区间。考虑到Google、Meta等AI巨头都在积极寻求数据许可协议,整个AI行业为出版业数据支付的总金额预计在2026年将达到数十亿甚至百亿美元级别。
“对出版业而言,这意味着盘活存量智力资源、实现价值变现的全新通道——让编辑的专业劳动实现‘一次投入、多次产出’,为行业智能化转型找到新增长极。”施其明说。
03先行实践:从试点到生态的探索之路
“过去一年,我们验证了出版赛道构建语料供给体系的可行性与可复制性。”作为出版AI领域的先行者,施其明带领团队取得关键突破。
依托国家新闻出版署重点实验室平台,他主导打造了出版融合数据流通完整生态;同时联合化学工业出版社、长江少年儿童出版社、崇文书局等多家出版机构,成功跑通编辑语料加工全路径,让“由最懂内容的出版人,做最专业的语料加工”成为现实。
“如果全国580多家出版社的编辑都能参与进来,产出的海量高质量中文语料,将彻底改变中文语料供给格局。”施其明表示。在他看来,出版业解决的是人类“存量知识”语料化问题。他正在打造的“1+N”高质量语料共建生态,是以出版为基座,向高校、科研院所、教育领域等知识生产阵地复制加工模式,构建“人机协同的语料精加工体系”,推动出版业从内容生产向数据价值开发延伸。
AI时代为出版业转型带来全新机遇,施其明的探索与实践,让行业看到出版业在数字经济时代的全新价值——不仅是文化传播载体,更是中文AI语料建设的核心阵地。以出版为基构建高质量供给体系,既为出版业开辟智能化转型新赛道,也为网络内容生态繁荣注入了强劲的出版力量。
夜雨聆风