↑ 点击上方“北京立言金融与发展研究院”关注我们
■刘云波 国家金融与发展实验室特聘研究员
随着人工智能技术的快速发展,传统的以原始数据资源为对象的数据价值评估范式面临根本性挑战。本文系统分析了传统数据价值评估方法在AI应用场景下的局限性,深入探讨以Token(词元)作为价值量化新维度的理论逻辑与实现路径,并提出以"高质量数据集"为核心对象的创新价值评估体系。研究认为,Token作为大语言模型处理信息的基本单位和价值交换的媒介,能够有效连接数据投入与智能产出;通过建立多因素的价值贡献度衡量指标体系和利益分配机制,可以实现数据价值在数据来源、采集、持有、加工、流通、使用等不同环节的合理分配。本文为AI时代如何更好地建设数据要素市场提供了理论探索和实践指引。
在数字经济蓬勃发展的时代背景下,数据已成为与土地、劳动力、资本、技术并列的第五大生产要素。2020年,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,明确提出加快培育数据要素市场。2022年,国务院印发《"十四五"数字经济发展规划》,进一步强调数据要素的战略地位。数据要素市场的建设已成为国家战略布局的重要组成部分。
从信息化发展的历史脉络来看,数据的价值实现经历了从辅助性工具到核心生产要素的演进过程。在早期阶段,数据的价值主要体现在业务记录、统计分析、信息查询和流程管理等基础功能上,其价值评估遵循相对清晰的逻辑:数据作为生产要素直接投入生产和服务过程,与其他生产要素协同作用,共同创造价值。这种基于特定商业模式和应用场景的数据价值评估范式,在传统业务环境中具有较强的适用性。
然而,随着人工智能技术的快速迭代演进,特别是大语言模型(LLM)和智能体(Agent)技术的广泛应用,这一传统评估范式正面临前所未有的挑战。智能体在执行复杂任务时,会自主拆解目标、调用工具、编写并调试代码、验证结果,这一闭环过程可能产生数万甚至数十万词元(Token)的消耗。这种前所未有的计算密集型特征,使得数据的价值贡献度变得极为复杂且难以量化。
基于上述背景,本文提出以下核心研究问题:在人工智能时代,如何构建一套科学合理的数据价值评估体系,以适应数据要素流通和价值实现的现实需求?具体而言,本文旨在系统梳理传统数据价值评估方法的局限性,深入分析Token作为价值量化维度的理论逻辑,探索以"高质量数据集"为核心对象的新型价值评估框架,以期为AI时代的数据要素市场建设提供理论参考和实践指引。
传统数据资产的价值评估已形成若干成熟方法。中国资产评估协会(2023)发布的《数据资产资产评估指导意见》为数据资产的评估提供了行业规范。传统数据资产的价值评估方法主要包括成本法,即以数据采集、存储、处理、维护等环节的实际成本为基础进行价值估算。这种方法假设数据资产的价值等于重新创建相同数据集所需的全部投入。成本法的优点在于其客观性和可操作性,但局限性也十分明显:它无法反映数据资产的实际效用和市场供需关系,可能导致高估或低估数据价值。收益法则通过分析数据要素对企业营收或利润的贡献份额,采用分成、增量或超额收益模型进行价值折算。这种方法的核心在于合理确定数据贡献率,但在大模型和智能体应用场景下,由于数据价值贡献路径的复杂化,贡献率的确定变得极为困难。市场法参考同类数据集的市场交易价格进行类比评估。这种方法的前提是存在活跃的数据市场和可比交易案例,但当前数据要素市场尚处于建设初期,市场流动性不足,可比案例的获取存在较大难度。
生产要素理论是经济学的基础理论之一。从古典经济学的土地、劳动、资本三要素,到新古典经济学加入的技术要素,再到数字经济时代的数据要素,生产要素的内涵不断扩展。梅宏(2023)在《数据要素化概论》中系统阐述了数据作为新型生产要素的理论基础,指出数据的要素化过程是数字经济发展到一定阶段的必然产物,标志着数据从信息活动的附属品转变为独立的生产要素。生产要素理论的演进为理解数据价值提供了重要的理论视角。在传统生产函数框架中,各要素的贡献可以被相对清晰地剥离和度量。然而,数据要素具有独特的特征:非竞争性、可共享性、非排他性等,这些特征使得数据价值评估不能简单套用传统生产要素的分析范式。
传统数据价值评估的核心假设是各生产要素能够独立对收益产生贡献,且其贡献可以被有效度量。这一假设在传统业务场景中具有一定的合理性,因为数据的应用场景相对明确,价值链条较短且可控。然而,当我们将目光投向人工智能技术的实际应用场景时,这一经典范式的局限性便暴露无遗。
在传统业务场景中,数据通常直接作用于业务决策、产品优化或客户服务,其价值链条相对简短。而在大模型场景中,数据需要经过标注、训练、推理等多个环节,才能最终转化为智能服务的能力。这种端到端的转化过程涉及大量非线性、涌现性的交互效应,使得贡献度拆分变得极为困难。例如,GPT-4等大模型的能力提升被认为部分归因于人类反馈强化学习(RLHF),但如何量化数据标注对最终能力的贡献,目前尚无成熟方法。因此,数据价值贡献路径的复杂化是面临的挑战之一。
传统数据使用是一次性的或重复性的投入,而大模型的数据使用呈现出截然不同的特征。首先是数据的复用性——同一数据集可能被用于训练多个模型,或在同一模型的不同版本中发挥作用。其次是价值的情境依赖性——相同的数据在不同的模型架构、不同的训练阶段、不同的提示词条件下,可能产生截然不同的价值产出。这种"投入-产出"关系的不确定性,使得传统的标准化评估方法难以为继。数据使用方式的根本性变革是面临的第二个挑战。
智能体执行任务时产生的海量Token消耗,为观察数据价值释放进程提供了全新的量化维度。然而,被评估的数据与实际产生Token消耗的数据之间,关系变得模糊不清。一方面,并非所有用于训练的数据都会直接产生Token输出;另一方面,Token消耗受到模型架构、推理策略、输入输出比例等多重因素的影响。如何建立从数据投入到Token消耗再到商业价值的映射关系,成为亟待解决的难题。因此,Token消耗带来的量化困境是面临的第三个挑战。
最后,我们已深刻体体会到,随着数据要素市场建设的深入推进,数据来源、采集、持有、加工、流通、使用等不同环节的相关主体,普遍期待建立合理的利益分配机制。虽然2022年出台的"数据二十条"明确提出要建立合规高效的数据要素流通和交易制度,但传统评估方法难以精确刻画各环节的贡献度,导致利益分配缺乏科学依据,制约了数据要素的充分流通和价值实现。利益分配的公平性诉求是我们面临的第四个挑战。
(一)Token的本质与价值载体功能
Token是大语言模型处理信息的基本单位,也是人工智能服务被调用、被计量和被商业化的核心载体。从技术层面看,Token是将文本、图像、音频等原始数据转换为模型可处理的离散单元的中间形态。无论是用户输入的提示词、模型生成的回复,还是训练过程中使用的数据集,最终都需要转化为Token形式才能被模型识别和处理。Token在AI系统中的中介地位,使其具备了成为数据价值量化维度的基础条件。每一次数据调用都伴随着Token的生成和消耗,Token流动的每一个环节都承载着数据参与价值创造的信息。因此,Token不仅是数据的表现形式,更是数据价值交换的媒介。
(二)Token计量标准的构建
构建统一的Token计量标准,是实现数据价值可量化目标的基础性工程。这一标准应至少需要考虑以下关键性维度:
1.模态折算规则。不同模态的数据,其Token化过程存在显著差异。文本数据的Token化相对成熟,中文通常以字符或词为单位进行切分,英文则以子词(subword)为单位。图像、音频、视频等非结构化数据的Token化则更为复杂。以图像为例,需要通过专门的视觉编码器将图像转换为离散的视觉Token序列。建立透明的跨模态Token折算规则,是实现不同类型数据价值可比的前提。
2.质量权重体系。同样数量的Token,由于数据质量的不同,对模型能力的贡献可能相差悬殊。高质量、稀缺性强、多样性丰富的数据集,其Token价值应高于低质量的数据。质量权重体系应综合考量数据的准确性、完整性、一致性、时效性等因素,对不同来源、不同加工深度、不同时效性的数据进行差异化折算。
3.场景调节系数。数据在不同的应用场景中,其Token价值也存在显著差异。一份专业领域的数据集,在该领域的垂直应用中价值很高,但在通用场景中可能用处有限。场景调节系数应根据数据的应用领域,专业程度、稀缺性等因素进行动态调整。
(三)Token成本核算机制的建立
将Token作为数据价值评估的核心度量单位,需要在企业内部建立一套完整的Token成本核算机制。这一机制应涵盖的关键环节应首先考虑内部定价体系的建立。企业需要根据自身的算力成本、电力成本、人力成本等因素,建立内部的Token定价体系。这一定价应能够反映出Token生成的边际成本,同时考虑到不同模态、不同质量数据的成本差异。还要考虑建立动态调价机制。Token的价值不是一成不变的。随着算力成本的下降、模型效率的提升、市场供需关系的变化,Token的成本也会发生波动。
(四)多因素价值贡献度衡量指标体系的构建
在Token计量标准的基础上,还需要构建多因素的数据集价值贡献度衡量指标体系。这一体系应综合考量以下维度:
1.数据规模维度:包括数据集的样本数量、特征维度、时间跨度等客观指标
2.数据质量维度:涵盖准确性、完整性、一致性、时效性等质量特征
3.数据稀缺性维度:考察数据集的独占性、获取难度、替代可能性等
4.数据适配性维度:评估数据集与特定模型架构、特定任务类型的匹配程度
5.使用效率维度:分析数据集在实际使用中被调用的频率、产生的Token消耗等
通过建立这样一套多因素指标体系,可以实现数据价值的量化评估与动态监测,为数据要素市场的定价和交易提供科学依据。
(一)从原始数据到高质量数据集的范式转变
传统数据价值评估以数据资源或数据资产为对象,但这一思路在AI时代面临根本性困境。原始数据在使用前,往往需要经过大量的预处理工作——包括数据清洗、格式转换、标注增强、知识抽取等,才能被模型有效利用。这些预处理环节本身消耗了大量算力和人力,其价值贡献如何剥离,成为评估的核心难题。
更重要的是,原始数据的价值具有高度的不确定性。同样一份原始数据集,在不同的标注方案、不同的模型架构、不同的训练策略下,可能转化为完全不同价值的模型能力。这种"黑箱"特性,使得直接评估原始数据的价值变得几乎不可能。
因此,我们需要将价值评估的对象,从原始数据转变为"高质量数据集"。根据国家数据局发布的《高质量数据集建设指引》,高质量数据集是指经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型表现的数据的集合。高质量数据集主要服务于人工智能的实际应用场景,其质量体现在"规模大、安全牢、观点正、效果 好、应用广"等方面,可以采用静态和动态的质量评价方法来度量。静态质量主要关注数据本身的关键属性,在准确性、完整性、一致性、时效性等基础指标上增加多样性、真实性、合规性等维度;动态质量则强调数据集在模型训练和应用中的实际效果。
这一范式转变将使得价值评估的对象更加明确。高质量数据集是一个相对清晰和完整的评估单元,它包含了数据本身以及必要的加工处理成果,可以作为一个整体进行价值判断。这避免了原始数据评估中"数据"与"加工"贡献混淆的问题。其次,价值贡献的可追溯性增强。高质量数据集的价值贡献,可以通过其在模型训练和推理中的实际表现来验证。例如,可以通过对照实验比较有无该数据集时模型在基准测试上的表现差异,从而量化其贡献度。这为价值评估提供了可观测、可量化的依据。再次,利益分配的可行性提高。以高质量数据集为评估对象,可以更清晰地界定数据提供方、数据加工方、数据持有方等不同主体的贡献份额。原始数据采集、数据标注、知识工程、数据集成等各环节的价值贡献可以在"高质量数据集"这一整体价值框架下进行合理分配。
(二)高质量数据集的价值形成机制
高质量数据集的价值形成,是一个涉及多环节、多主体的复杂过程,需要遵循系统化的建设方法论。根据《高质量数据集建设指引》,高质量数据集建设应按照生命周期有序展开,包括数据需求、数据规划、数据采集、数据预处理、数据标注、模型验证等环节。首先是数据集主体的界定。高质量数据集的来源包括多种主体,原始数据的采集方提供了数据的"原材料",数据标注方通过人工或半自动的方式为数据赋予结构化的语义信息,知识工程方通过知识抽取、融合、推理等手段将分散的数据转化为系统化的知识体系,数据集成方将不同来源、不同格式的数据进行整合和优化。其次是数据集价值贡献的总体判断。在明确了各环节参与者的角色后,需要建立一种机制对高质量数据集的总体价值进行判断。这一判断可以基于多种证据:模型在基准测试上的表现提升、模型在实际任务中的效果改善、用户对智能服务的满意度评价等。通过建立从数据集价值到模型能力提升再到商业价值产出的映射链条,可以实现对数据集价值的整体性评估。最后是相关方利益的链式分配。在获得高质量数据集的总体价值后,需要在数据来源、采集、持有、加工、流通、使用等不同环节的相关主体之间进行利益分配。这一分配应遵循贡献度原则,即根据各主体在数据集价值形成过程中的实际贡献份额进行价值分配。
(一)对数据要素市场建设的推动作用
Token化数据价值评估体系的建立,对于数据要素市场建设将具有重要的实践意义。1)有助于破解数据定价难题。数据要素市场建设的核心挑战之一是数据资产的定价问题。Token化视角下数据价值评估提供了一种新的解决思路,通过建立数据到Token再到价值的映射关系,实现数据价值的可量化评估,为数据交易提供定价基准。2)有助于促进数据流通共享。合理的价值评估和收益分配机制是数据要素充分流通的前提。Token化视角下数据价值评估通过建立透明、公正的价值衡量标准,可以降低数据交易的信息不对称,增强数据提供方的分享意愿,推动数据的跨组织、跨行业流通。3)有助于激励数据质量提升。如果数据价值能够得到合理评估和回报,数据提供方将有更强的动力提升数据质量。这将形成正向激励循环:高质量数据带来更高评估价值,更高评估价值激励更多高质量数据投入,形成数据要素市场的良性生态。
(二)对企业数据战略的启示
Token化视角下数据价值评估体系的建立将对企业数据战略产生深远影响。首先是数据资产观念的更新。企业需要从"数据资产"观念转向"数据能力"观念。不是简单地拥有多少数据,而是这些数据能够转化为多少模型能力、产生多少Token价值。这意味着企业需要更加关注数据的质量、适配性和使用效率,而非仅仅追求数据的规模。其次是投资决策框架的调整。在数据投资决策中,企业需要引入Token回报率(Token ROI)的概念,评估单位数据投资能够产生的Token价值和模型能力提升。这将帮助企业更加理性地进行数据采购、标注和加工决策,优化数据投资的回报结构。最后是组织能力的重塑。数据价值的Token化评估要求企业建立新的组织能力,包括将原始数据转化为高质量数据集的数据工程能力、具有科学衡量数据贡献度的价值评估能力以及能够通过数据流通实现价值变现数据运营能力。
人工智能技术的快速发展正在深刻重塑数据资源的价值导向和发展路径。传统以"数据资源或数据资产"为对象的价值评估范式,在AI时代面临数据价值贡献路径复杂化、数据使用方式根本性变革、Token消耗带来量化困境、利益分配公平性诉求等多重挑战。面对这些挑战,本文提出以Token为核心的新型数据价值评估框架。这一框架的核心要点包括:
一是以Token作为价值量化的新维度。Token作为大模型处理信息的基本单位和价值交换的媒介,能够有效连接数据投入与智能产出,为数据价值评估提供可观测、可计量的基础。
二是建立多因素的价值贡献度衡量指标体系。通过制定词元计量标准、明确不同模态的Token折算规则、引入质量权重和场景调节系数,构建起系统化的数据集价值评估体系。
三是以"高质量数据集"为价值评估的新锚点。将评估对象从原始数据转变为经过采集、加工等数据处理,可直接用于开发和训练人工智能模型的高质量数据集,更有利于实现价值贡献的可追溯性和利益分配的合理性。
展望未来,随着人工智能技术的持续演进和数据要素市场建设的深入推进,Token化视角下数据价值评估体系将不断完善和发展。企业在这一进程中需要更新数据资产观念、调整投资决策框架、重塑组织能力,以更好地把握数据要素时代的机遇与挑战。
参考文献
[1] 中共中央、国务院《关于构建更加完善的要素市场化配置体制机制的意见》, 2020.
[2] 全国信息技术标准化技术委员会大数据标准工作组《 数据要素白皮书(2022年)》, 2023.
[3] 中国信息通信研究院《人工智能生成内容(AIGC)白皮书(2022年)》, 2023.
[4] 中国资产评估协会《数据资产资产评估指导意见》,2023.
[5] 国务院"十四五"数字经济发展规划,2022.
[6] 梅宏《数据要素化概论》. 科学出版社, 2023.
[7] 阳镇, 陈劲《数字化转型与企业创新绩效-基于动态能力视角的实证研究》,管理世界, 2022
[8] 国务院发展研究中心课题组《数据要素市场建设的方向与路径》. 经济研究, 2021,
[9] 国家数据局《高质量数据集建设指引》,2025.


北京立言金融与发展研究院是经北京市人民政府批准设立的非营利性高端金融智库。研究院旨在全面服务于国家金融改革和发展的战略目标,着重服务于北京经济、金融改革与发展的各项重要任务,打造首都地区金融智库协调发展平台,有效聚合中央、北京、在京高校及社会金融智库,取长补短、协调配合、形成合力,更好地为北京“四个中心”建设服务。同时也致力于为金融机构和工商企业提供应用性咨询服务,并为经济金融人才提供多层次、标准化或定制型的教育培训服务,努力为现代化金融人才的成长提供更多智力支撑。
声明
本公众号独家文章未经授权不得以任何形式转载、摘编。如若转载请联系我们,并注明来源,文章标题文字和内文文字(包含文末责任编辑)禁止二改!否则一经发现,将追究相关责任,谢谢理解和配合。
请长按扫码关注我们
微信号:北京立言金融与发展研究院


夜雨聆风