AI语料库获取作品数据行为的版权规制:现实争议与路径抉择
点击上方“清华大学学报哲学社会科学版”可订阅哦!

本文作者付丽霞博士
摘要
人工智能(AI)语料库作为大模型数据训练的核心资源,需要海量“数据投喂”以保障语料的真实性与准确性。由于作品与数据的二元重叠,AI语料库获取的数据中不乏版权法所保护的作品数据。实践中,各国对于AI语料库作品数据获取行为的版权规制方案未达成一致,市场调节或制度调适的路径抉择仍存在争议。有鉴于此,有必要借助利益平衡理论,系统分析以一般许可为核心的市场调节路径和以合理使用为核心的制度调适路径,从宏观的国家文化安全与创新战略,以及微观的产业发展与权益保护等多视角出发,开展本土化的版权分类治理。首先对AI语料库获取作品数据的行为进行目的区分,在公益目的下AI语料库获取作品数据的行为可适用现有合理使用规则;而在非公益目的下,则应进一步区分AI通用语料库与AI专业语料库,对其获取作品数据行为分别优化适用法定许可规则与一般许可规则。
关键词
人工智能(AI)语料库;作品数据;合理使用;版权分类治理
如今,人工智能技术已然成为全球科技与文化产业加速发展的关键驱动力,对国际竞争与产业分工新格局产生着重要影响。并且,随着人工智能科技创新水平的不断提升,其产业规模在不断扩大,但同时也面临着高质量语料供给不足的难题。2023年12月,国家数据局、中央网信办、科技部等17个部门联合发布《“数据要素×”三年行动计划(2024—2026年)》,明确了提升数据供给水平,打造高质量人工智能大规模数据集的战略目标。2025年1月,教育部、国家语委、中央网信办联合印发《教育部国家语委中央网信办关于加强数字中文建设推进语言文字信息化发展的意见》,并进一步提出“推动基础性语言资源建设,实施国家关键语料库共建共享计划”。在此背景下,我国上海市、广东省等省市也陆续开展了AI语料库的建设规划。与此同时,人民网主流价值语料库、万卷·丝路等国内特色语料库相继建立,极大提高了我国人工智能产业的语料供给能级。然而,也必须看到,AI语料库的全面建设虽为人工智能产业的跃迁式发展提供了重要支撑,但其获取作品数据的版权风险也随之而来,并引发了诸多争议。经过归纳梳理,大致可以将相关争议总结为如下两个层面,即AI语料库获取作品数据是否需要取得版权许可以及能否通过合理使用规则获得版权侵权豁免。鉴于此,为进一步理顺AI语料库获取作品数据行为的版权规制进路,有必要从版权争议的产生源头出发,审慎分析现有规制模式,进一步考量人工智能时代革新版权规则的外部性效应,搭建起规范化、多元化的AI语料库获取作品数据的版权规则,从而保障作品数据获取的清晰化与合法化,为AI语料库建设工作的持续推进提供高效的版权制度供给。

一、AI语料库获取作品数据行为版权规制的问题缘起
AI语料库,是指大规模用于模型训练的结构化数据集合,通常包含文本、图像、音频、视频等多种形式的数据,是提高人工智能模型准确性与泛化能力的核心驱动力。当下,随着DeepSeek、Manus、豆包、Kimi、ChatGPT等人工智能大模型的不断涌现与广泛应用,以“算法模型升级优化”为焦点的人工智能竞赛已悄然落下帷幕。全球人工智能产业正将战场转移至“高质量人工智能语料库建设”的实力比拼,专业化、规模化、标准化的AI语料库市场已悄然建立,并逐步发展成为当前各国释放数据要素价值的核心阵地。据统计,2024年全球人工智能训练数据语料库市场规模价值就高达29.2亿美元,且预计到2032年将增长至170.4亿美元。早期,人工智能公司进行产品研发的数据主要源自对网页内容的抓取与爬取,其核心目标是通过数据的“海量投喂”,迅速、便捷地提升模型性能。然则,网络数据质量参差不齐,无效语料过多,内含广告、垃圾信息、重复信息等诸多噪声干扰,需要耗费大量算力对其进行清洗过滤,否则无法用于模型训练。因此,为了保障优质作品数据的可得性、真实性和多样性,现阶段AI语料库主要围绕高质量的版权作品进行数据采集。
然而,AI语料库的产业化、专业化发展态势也将其获取作品数据行为的版权争议推至台前。具体来说,AI语料库建设时需要将获取的作品数据进行机器可读的语言转化,并对错误内容、违法内容进行过滤、清洗,再进行分类与标记,从而在价值对齐的基础上保障语料库数据的规范化和优质化。此时,由于作品与数据价值的二元重叠,AI语料库前述的一系列行为往往不可避免地涉及复制、改编等作品使用行为。但是,人们对于前述行为是否需要获得版权人许可却并未达成共识,相应的版权争议也随之应运而生。2024年9月,德国汉堡法院就审理了全球第一例AI语料库获取作品数据的版权纠纷案,即摄影师罗伯特·克奈斯克(Robert Kneschke)诉非营利组织LAION案。该案中,法院依据德国《著作权和邻接权法》(Act on Copyright and Related Rights)第60a条,将LAION语料库获取罗伯特·克奈斯克作品数据的行为定性为文本数据挖掘版权例外,无需版权人许可,也无需付费,但国内外对其判决质疑的声音却不绝于耳,且呈现出愈演愈烈之势。究其缘由,AI语料库的建设需要海量的高质量作品数据供给,以满足人工智能模型训练的需求。此时,若获取作品数据需要逐一获得版权人的许可并支付报酬,则无疑会极大提高AI语料库的建设成本,加重建设者的合规义务,也会显著降低AI语料库的建设速率。不仅如此,AI语料库下游产业的人工智能产品,特别是生成式人工智能,其创新发展速率也将会受到严重阻滞。举例而言,根据DeepSeek网页版的最新互动回答,DeepSeek模型接受训练的数据集均来自2025年1月之前,若用户想要获得最新资讯则需要启用联网功能以弥补时效性不足。若此时进一步延缓AI语料库获取作品数据的速度,DeepSeek的知识储备将大打折扣。反之,若全然剥夺版权人对作品的控制权以保障AI语料库获取作品数据的需求,虽然能够显著提高AI语料库的建设速率,但版权人的创作热情必将受到严重削弱,进而影响人类作品的持续产出,致使AI语料库可获得的高质量作品数据逐渐减少。

Copyright and Artificial Intelligence, Part 3: Generative AI Training
在此基础上,进一步剖析AI语料库获取作品数据行为版权规制难题的形成原因,不难发现,相关法律规范设定的不明晰以及对应市场交易机制的不成熟是其中最为关键的两大核心要素。具体说来,在法律规范层面,AI语料库获取作品数据行为的版权规则适用尚不明确。纵观全球版权制度架构,AI语料库获取作品数据的行为性质并未在实体规范中被予以明确规定。各国学者纷纷尝试利用法律解释学对既有法律规定进行适用分析,但却都未能形成明确的法律指引。例如,2025年5月,美国在公布的《版权与人工智能,第三部分:生成式人工智能训练(预发布版)》(Copyright and Artificial Intelligence, Part 3: Generative AI Training, Pre-publication Version)中明确指出,使用受版权保护的作品构建训练数据集的行为必然涉及复制权,但该行为是否能够落入合理使用的范畴还未有定论。《日本著作权法》(Copyright Law of Japan)经过2019年修订后,在第30-4条、47-4条、47-5条中规定了“非享受性作品使用例外、计算机附随性使用例外、信息处理轻微利用例外”等。前述条款被认为是人工智能信息分析活动中作品使用的“尚方宝剑”,但关于AI语料库获取数据行为的具体适用规则尚缺乏清晰明确的释疑和法律适用的典型案例;2024年3月,我国《生成式人工智能服务安全基本要求》出台,第5.2条强调“应尊重语料的知识产权,并公开语料中涉及知识产权部分摘要信息”,但如何在我国《著作权法》中予以适用亦不明确。
除此之外,在实践中,AI语料库也尚未就获取作品数据建立起成熟的市场交易机制。当前,AI语料库建设者正通过包括商业合作、技术协同等在内的多元化作品数据获取方式来构筑自身的语料竞争优势。例如,Open AI公司从2023年起与德国施普林格出版集团(Axel Springer)、美国《时代》(Time)、法国《世界报》(Le Monde)等报刊社、出版社陆续达成了内容版权许可协议,以获取真实、可信、即时的作品数据。诚然,前述作品数据获取方式能够帮助AI语料库公司更广泛地获取作品数据,规避版权风险。但也必须认识到,基于技术协同、商业许可的作品交易方式并未形成统一的市场标准,作品的使用方式、作品的付酬标准等完全取决于AI语料库公司自身的博弈能力以及技术、资本的支撑条件。据统计,OpenAI公司每年购买新闻文章版权的费用介于100万至500万美元之间。对于OpenAI公司而言,此项许可费用并非数额巨大,但对于小型公司而言则难以承受。若继续保持自由发展的作品数据获取状态,任由市场磨合,内容版权生产商将更多地倾向于与主流AI语料公司合作,小型公司将彻底丧失竞争能力。
现阶段,人工智能产业发展迅猛,若不能及时出台合理的版权规制方案,AI语料库获取作品数据的版权风险将成为悬在产业有序发展之上的“达摩克利斯之剑”。因此,有必要从现有规制路径出发,将人工智能产业链中的版权风险前置,明确AI语料库获取作品数据行为版权规制的最优方案,为人工智能产品的合法产出与高效利用提供法律保障,为人工智能基础设施的有序建设提供版权制度的有力支撑。

二、AI语料库获取作品数据行为版权规制的实践探索
承前所述,服务于人工智能模型训练的AI语料库,在运营中往往会呈现出作品与数据价值的二元重叠,相应的数据获取过程也就不可避免地会涉及诸多受版权保护的作品类型。在此基础上,如何实现作品数据的合法获取,有效规避版权侵权风险便成为当下AI语料库建设中亟须解决的焦点问题。诚然,在版权法律实践中尚未形成AI语料库获取作品数据的体系化制度安排,但这并不意味着现行法律规范无法对相关作品使用行为予以必要规制。具体说来,一方面,AI语料库可以通过一般许可使用模式在相关版权市场交易上的海量适用,集齐对应作品数据获取行为的合法授权;另一方面,AI语料库也可以凭借合理使用机制在版权制度体系下的扩张解释,达到对应作品数据获取行为的侵权豁免。然而,不可否认的是,这两种规制路径分别存在着市场调节中版权交易成本高及制度调适中版权运营风险高的固有顽疾。为进一步理顺AI语料库获取作品数据行为的版权合规路径,有必要分别对版权许可使用和版权合理使用的规范效果予以深入剖析,并以此为基础构筑后续的版权治理体系。

(一)市场调节:以一般许可使用为基础的作品数据获取
在版权市场交易中,一般许可使用是合法获取作品的常规方式,既能充分保障版权人的合法权益,也使作品内容得以广泛传播。对于AI语料库而言,也是同理,版权许可使用在其作品数据的合法获取过程中发挥着举足轻重的作用。实践中,基于数据来源路径的固定性,受到版权保护的作品数据往往会被稳定地收录到AI语料库中,这一过程不可避免地存在作品的利用行为,但版权制度框架下AI语料库获取作品数据行为的法律定性却并不明确。对此,理论界往往会以相关作品数据获取行为的天然“复制性”与“固定性”为依据,认定AI语料库这一行为必然涉及受复制权控制的复制行为。在没有明确的版权限制与例外的规定情况下,不能贸然剥夺版权人对于作品使用的自由决策权与获酬权。
此外,AI语料库采用一般许可使用路径获取作品数据还能够保障真实、可信语料的可持续供给。通常而言,版权制度的创设目的即在于奖励人类世界中的个人创造行为,进而推进社会科学与文化的发展进步。实践中,在技术挑战已经对个人创造行为产生消极影响的情况下,如若我们继续剥夺个人对其所创作作品的控制权,以及在利益分享层面的正向回馈,则势必会使版权制度丧失对于文学艺术市场繁荣的创新激励效用。然而,在人工智能生成内容的场景下,作品的创作方式不再依赖于传统的人类作者,生成式人工智能应用能够凭借对语料库内容的机器学习便直接进行高效的作品产出。如果此时AI语料库无需授权付费即可进行人类作品数据的大量获取,那“机器作者”的替代效应则会被进一步加强,真实的人类作品数据将会被消耗殆尽。有调查显示,到 2028 年,互联网上的高质量文本数据将被全部使用,业内称这一阶段为“数据墙”(Data Wall)。诚然,站在产业发展立场上,似乎我们需要版权人让渡一定的权益来提升AI语料库获取作品数据的效率,但与此同时,必须意识到,对于版权人合法权益的忽视事实上也会对人工智能语料库产业形成反噬。版权保护力度的减退势必会致使人类作者创作动力不足,相应的高质量人类作品数据供给也会随之短缺。此时,AI语料库建设者便会将目光转而投向低质量语料,例如用户生成内容。然而,低质量语料并非取之不尽。耗尽低质量语料后,AI语料库建设者则会更多地使用合成数据,甚至是虚假数据。如此一来,AI语料库不仅无法为人工智能模型训练提供高质量的作品数据,还会使人工智能模型训练受到低质数据的毒害,进而触发严重制约产业发展的人工智能切尔诺贝利危机(AI’s Chernobyl Moment)。

在此基础上,需要进一步予以关注的是,AI语料库建设者遵循市场规律,以一般许可使用获取作品数据的这一常规路径选择,虽能有效避免陷入版权侵权纠纷,保障人工智能产业的良性发展,但在规范运行的具体实践中却往往存在着市场失灵的潜在风险。例如,在实践中,DeepSeek、Manus等人工智能软件大多会将其用户使用软件过程中所生成的内容作为自建AI语料库作品数据的基础来源,并以“准入制”的用户协议一揽子获得用户内容的版权使用许可。从形式上看,相关用户协议中似乎并不存在违法事由,但这种“零和性抉择”的版权许可使用协议却普遍存在着攫取用户版权利益的情形,且难以充分满足合同的实质公平要件。除此之外,许多大型人工智能公司为实现语料数据内容供给的合法性与稳定性,还会尝试以许可使用的模式与第三方内容公司进行版权授权合作。这种AI语料库获取作品数据的方式虽看似合理高效,但实际上同样暗藏危机。具体说来,在AI语料库与第三方内容公司合作的过程中,由于网络环境下作品创作形式的多样化、传播范围的广泛性,很多时候无法确定真正版权人。例如,2022年5月,奥迪拍摄的广告《人生小满》就因文案陷入抄袭风波,虽然有博主声称自己是该文案的作者,但最终被网友提出证据予以否定。至今,该文案的版权人仍未确定。此外,还需要强调的是,在AI语料库与处于传统出版行业的内容公司进行合作的过程中,往往存在着出版社或者期刊是否有权代表作者进行版权许可使用、前人工智能时代的投稿或版权协议是否能够成为现今期刊或出版社再授权作品使用的合法依据等一系列实践争议,如若不能妥善解决,则势必会引发版权侵权的连锁反应。
(二)制度调适:以版权合理使用为核心的作品数据获取
在版权制度体系中,合理使用是权利限制机制的重要类型,并在技术发展进程中充当着版权人垄断权利与社会公共利益的“调和器”。实践中,每一次作品创作、使用、传播方式的变化,都会引发合理使用是应被限制适用还是应被扩张适用的选择两难。面对当前人工智能时代语料库数据获取的全新作品使用方式,学者们纷纷提出可以尝试调适合理使用制度来应对技术发展下传统权利分配体系和利益分享机制所面临的冲击。尤其是在版权一般许可使用模式存在特定市场失灵风险的情况下,版权合理使用机制的延伸适用势必会在AI语料库获取作品数据过程中发挥更为关键的规范作用。对此,多数学者认为AI语料库获取作品数据的行为可以被整体涵盖在数据训练行为中,从而被认定为版权合理使用,并主张增设文本数据挖掘合理使用或数据信息分析合理使用的类型,以明确的认定标准,通过立法优化的形式回应新技术发展而引发的版权争议。当然,也有学者认为应当从AI语料库获取作品数据的应用场景、种类、行业、目的等多因素进行区别认定,特别是非商业目的下的AI语料库作品数据获取行为可认定为合理使用。

通常而言,合理使用机制被认为是应对版权一般许可使用中市场失灵难题的修正方案。美国学者温迪·简·戈登(Wendy Jane Gordon)认为对于市场失灵而言,版权领域的合理使用制度可以理解为其修正机制。当正常的市场运行无法促进高效的版权授权时,无须版权人许可的合理使用应当被允许,从而进一步优化资源配置。在AI语料库获取作品数据场景下,版权许可使用模式运行中所呈现出的市场失灵风险,无疑也会推动合理使用机制在其中的延伸适用。进而言之,在本身就存在技术壁垒的人工智能市场中,拥有大平台支撑的AI语料库往往会有更高的抗版权风险能力,其数据获取能力远高于数据短缺平台。例如,训练中国版Sora至少需要30万小时视频数据,如按版权费用常规每小时4 000—5 000元计算,总成本将超过1.2亿元,这并非所有的人工智能企业能够承受。长此以往,AI语料库市场的不完全竞争将开始出现,最终势必会形成少数企业控制市场的垄断局面。相应地,传统AI语料库版权市场将从自由市场变成畸形的技术寡头市场,市场活力也将丧失殆尽。面对这一困境,合理使用机制通过降低AI语料库建设者的合规义务,无疑能够较好地缩小不同AI语料库之间的高质量数据差距,激发人工智能创新市场的良性竞争。也正是基于此,学者们普遍认为AI语料库获取作品数据的行为应当被认定为合理使用,进而从源头保障产业发展的燃料供给,并有效解决人工智能产业发展中的负外部性问题。
除此之外,在AI语料库以版权合理使用为核心获取作品数据过程中,还须对不可定价的公共利益予以优先保护。实践中,人们往往将保护作者权益作为版权法的主要目的,但事实上这并不完全正确,保障以作者为代表的相关利益团体只是版权制度的附带功能,它的最终目的是保障公共利益。对于AI语料库的作品数据获取而言,若单纯依赖于版权一般许可使用模式的市场调节,而不运用版权合理使用机制予以适当调适,则势必会使语料库建设者更加倾向于获取版权风险较低或版权成本较低的作品数据,即便后续不断进行人工智能的模型优化也无法完全解决数据所引发的整体人工智能产品偏移的风险,而这一风险看似仅是对人工智能产业发展的创新阻滞,但实质上也是对社会公众利益的侵蚀,甚至会对文化安全造成冲击。尽管如此,也必须看到,版权合理使用机制下AI语料库对于作品数据不支付报酬的免费获取,会使广大版权人极力追求的获酬权丧失实现之可能,此时如何进行制度优化以保障激励机制的效能发挥则成为重中之重。

三、AI语料库获取作品数据行为版权规制的分类治理进路
通过对前述既有版权规制路径的梳理与分析,可以发现,无论以版权一般许可使用为基础的市场调节,还是以合理使用为核心的版权制度调适,在规制AI语料库获取作品数据行为的过程中都存在一定的缺陷与不足。对此,应当清醒地意识到,单纯依赖于某一既有规制路径进行作品数据获取,并不能完全满足人工智能产业、版权人、公众等各方主体的多元诉求,同时也无法充分实现AI语料库持续高质量数据供给的运营目标。在此基础上,为全面推进AI语料库获取作品数据的版权合规,应尽快找准定位,结合市场调节与制度调适两种规制路径的优势与劣势,开展分类治理的体系化版权规制方案设计。具体说来,一方面,应对现行合理使用机制的适用范畴予以合理限定,明确其与一般许可使用模式的适用边界;另一方面,则应在现行版权许可使用模式下,引入法定许可规制路径,使之与既有的一般许可平行设置,并根据实践中AI语料库获取作品数据行为的不同类别予以分别适用。此外,需要指出的是,在AI语料库获取作品数据行为提供版权规制“最优解”的探索过程中,规制路径的选择并非一蹴而就,还应立足当前我国的国际战略定位、产业发展诉求和版权保护生态,从正当性和可行性两个维度厘清AI语料库获取作品数据行为版权分类治理的理论根基,并以此为基础细化规制方案,进行体系化的规则设计。
(一)AI语料库获取作品数据行为版权分类治理的理论根基
AI语料库获取作品数据行为版权分类治理的方案设计不仅是对现有规范适用弊端的合理优化,更是根植于本土利益衡量的最佳决策。因此,有必要在厘清多层级利益主体诉求与冲突的基础上,探究分类治理的核心功能与适用标准,从而保障分类治理方案的有效实施。
1.版权分类治理的正当性:多层级利益主体平衡的最佳策略
AI语料库是人工智能产业的基础生产要素,其在建设阶段获取作品数据行为的版权规制路径选择不仅关系着下游人工智能公司的生产成本,更影响着国家的发展策略、产业的创新方向和版权人的创作热情。承前所述,市场调节和制度调适两种规制路径在产业利益保障和版权人利益保护上各有侧重,相应的法律后果也有所差异。因此,不妨将上述规制路径予以结合适用,尝试构建多元化的分类治理路径,从而实现多层级主体的利益平衡。

应当首先阐明的是,版权分类治理路径是保障我国文化安全和促进文化创新的必然选择。目前,我国处于人工智能产业急速发展的关键时期,AI语料库市场规模急剧扩张。据统计,2023年我国人工智能语料市场规模为68.7亿元,2025年预计将达到109亿元,实现25%以上的年复合增长率。但与此相反的是,目前国际主流人工智能大模型训练语料以英文为主,占比超90%,中文语料库在规模、质量和领域覆盖度上仍落后于英文语料库。由此可见,我国迫切需要快速建设AI语料库。当然,这一紧迫感不仅仅源自提高AI语料库国际市场占有率的目标,还源自对国家文化安全的保障。因此,实践中完全依赖于市场自我调节的许可规制路径,是无法在短期内建立起与英语系国家所能抗衡的AI语料库梯队的,这对我国的文化安全和文化输出会产生不可忽视的消极后果。国家间AI语料库数量差异最终将会演变成人工智能训练数据的样本差异,而这种样本差异无疑是导致人工智能偏向性的重要原因,反映在终端则是生成式人工智能的思想和文化内核将集中于英文主导的西方国家。随着人工智能软件的广泛应用,如果仍旧放任AI语料库的低效率建设,不仅会阻碍本国产业的发展,还会使得文化多样性在人工智能时代被予以抹杀,全球多元价值的碰撞与火花将被予以掩盖。诚然,合理使用规制路径能够较好地缩短各国语料库之间的高质量数据差距,降低算法偏见,加快AI语料库市场的建设速率,短期内帮助我国建立起中文AI语料库话语体系,但却并不能维系我国AI语料库市场中优质作品数据的可持续供给。换句话说,虽然合理使用规则能够缓解市场调节模式带来的效率问题,但其对版权人作品控制权与付酬权的限制也使得版权人的创作热情被大大削减。随之而来的问题就是优秀作品的短缺,这将导致中文AI语料库的竞争力大幅下降。为此,应进一步引入法定许可制度,构建版权分类治理模式,既能兼顾语料库建设效率,提升中文AI语料库的国际话语权,亦能保障版权人的获酬权,促进社会文化创新发展,实现语料高质量循环供给。
除此之外,版权分类治理路径也是我国产业发展保障与版权人权益保护并重的最优方案。当前,我国仍属于人工智能技术追赶型国家,AI语料库产业发展诉求强烈,需要海量的高质量语料支撑产业发展。此时,若参照处于人工智能领先地位的美国采取观望态度应对人工智能产业的版权问题,等待自由许可市场的持续发展。那么,这必将导致全球范围内人工智能语料资源进一步向产业领先、技术领先、资本雄厚的发达国家流动,进而形成“数据霸权”和“行业寡头垄断”,从而引发新的全球性发展鸿沟和不平等。国家间人工智能产业发展的数据壁垒也将被进一步强化,我国人工智能产业将难以追赶至发达国家水平。此时,版权限制与例外制度给予人工智能产业发展空间的功能效用则显得尤为重要。但需要指出的是,在人工智能产业国际竞争的背景下,我们也不能完全忽视版权人权益保护对产业发展的积极效用。细言之,现阶段AI语料库的作品数据获取并非局限于一国境内,全球范围内的所有优质作品无一例外都将成为各国争夺的对象。面对各国差异化的作品数据获取版权规则,适用合理使用规则实现AI语料库合法获取作品数据的相关国家必将成为全球人工智能产业发展的聚集地,但同时也会沦为人工智能模型训练的牺牲品和产业升级的“垫脚石”。短期来看,这样的制度安排可能会快速搭建起“人工智能产业天堂”,但长期来看则会使得该国版权人的作品价值被贬损,从而丧失市场竞争力。此外,随着人工智能垂直应用的加速,传统行业的数字化纵向程度不断加深,我国已经涌现出许多高质量的AI语料库。据北京国际大数据交易所统计,人工智能高质量数据的交易从2024年10%的交易量占比到现在的80%,呈现爆发式的增长。由此可见,我国人工智能语料库的商品价值已经逐渐凸显,并展现出较高的市场潜力。此时,若采用合理使用规则全面释放前述作品数据价值,不仅是对版权人权益的巨大伤害,同时也是对现阶段AI语料库产业的巨大冲击。因此,可以认为,多元化的版权分类治理路径无疑是AI语料库高效获取作品数据的最佳选择,使其在适度释放产业创新发展空间的同时,也能有效保障版权人合法权益,推进人工智能产业的有序健康发展。

《2025中国语料市场发展及榜单报告》
2.版权分类治理的可行性:差异化作品数据获取行为的有效规制
AI语料库获取作品数据行为的版权分类方案能否得到有效实施,其关键在于如何为多元化的路径选择寻找到具备可操作性的分类标准。实践中,围绕AI语料库获取作品数据行为版权规制的讨论一般聚焦于该行为是否具有公益目的,以及是否需要因AI语料库的应用范畴不同而进行区别对待。
在区分AI语料库获取作品数据的公益目的与非公益目的的基础上,对于个人学习、科研和课堂教学等公益目的下AI语料库的作品数据获取行为,应当直接纳入合理使用的规制范畴之中,使前述AI语料库建设者能够在无需许可和付酬的情况下,高效率、低成本地获取作品数据,从而搭建起高质量的AI语料库。进而言之,随着人工智能技术的广泛应用,社会知识创造、传播的方式与路径被彻底改变,人工智能逐步成为公众知识获取的主流渠道,AI语料库亦产生了数字时代“知识公地”(knowledge commons)的价值。若AI语料库的获取作品数据行为仍旧以传统版权许可规则予以规制,则高质量的作品数据势必会被拥有强大资本支撑的AI语料公司所垄断。从社会文化发展而言,若一味放任前述垄断行为的发展,那人工智能领域的“知识圈地”运动将会由此开启,版权制度也将成为产业竞争、国家竞争,甚至文化竞争的工具。基于此,有必要适当开放公益目的下AI语料库获取作品数据的渠道,适用合理使用规则,从而避免“知识公地的私人化”的悲剧,保障知识平权。
对于非公益目的下AI语料库的获取作品数据行为,还应以AI通用语料库与AI专业语料库的差异为标准,展开进一步的分类治理。所谓AI通用语料库,是指涉及广泛的作品类型,取材衡平且规模体量较大的语料库,具有综合性和多样性的特点。常见的AI通用语料库包括我国的中文互联网语料资源平台、美国Common Crawl语料库等。相反,AI专业语料库则是为了自动驾驶、具身智能、金融、教育等特定领域应用目的,按照一定的标准进行部分数据获取而建立的,是人工智能产品多场景应用的基础。常见的AI专业语料库有科大讯飞语音识别语料库、上海交通大学多语言医疗语料库等。


Common Crawl
通用AI语料库与专业AI语料库在获取作品数据行为的规制路径选择上,无疑存在显著差异。AI通用语料库是搭建人工智能产品世界话语体系与基础逻辑架构的重要来源,是人工智能产品实现价值对齐的基础,也是降低人工智能算法歧视的重要途径。人工智能模型训练的初期就是依赖于发挥基础知识作用的AI通用语料库。若AI通用语料库存在语言缺失、事实错误等问题,必然会导致人工智能产品的知识断裂,从而影响人工智能输出层面的准确性与可信度。因此,对于非公益目的下AI通用语料库获取作品数据行为的版权规制应采用法定许可的规制方案,在释放AI通用语料库获取作品数据的速率压力,保障作品广泛性与真实性的同时,充分满足版权人财产权益的保障诉求,以市场对话自由为基础拟定出合理的定价机制,最大限度地保障版权人的获酬权。而AI专业语料库则是传统行业创新发展的重要“知识底座”,具有专业性、针对性、高精度的特点,能够帮助企业快速搭建起特定行业的“话语体系”,提高人工智能技术行业垂直应用的速率。就其本质而言,AI专业语料库事实上是商业流通产品,依托的是具有极高的市场价值,且能有效助力行业发展的核心作品数据。对于此类行业作品数据的获取,若适用合理使用或法定许可等版权例外规则对版权人的作品控制权进行剥夺,则势必会斩断行业作品数据持续市场供给的可能性,故应回归版权一般许可规则进行市场调适。
(二)AI语料库获取作品数据行为版权分类治理的规则设计
在阐明AI语料库获取作品数据行为版权分类治理的正当性与可行性后,需要予以进一步解决的关键问题即如何建构起差异化版权规则,以及如何进行具体规则适用。在此,必须特别注意的是,AI语料库获取作品数据行为版权规制的差异化规则设置并非单纯地针对新问题设立新规则,而是应当从现有版权规则出发,在综合考量法律修改经济性与规范释义可能性的基础上进行多层次的版权分类治理规则设计。

1.公益目的下AI语料库获取作品数据合理使用规则的有限适用
如前所述,对出于个人学习、科研、教学目的等公益目的建设的AI语料库获取作品数据行为可适用合理使用规则予以规制。但是,必要格外注意的是,合理使用规则的适用范围应当是有明确限制的。一方面,基于前述合理使用规则而建立的AI语料库,在后续的开放获取层面应当受到规制,即未经作品版权人同意不得将该语料库内容提供给商业性的人工智能企业。这一限制的存在是为了防范语料库建设者通过合理使用规则免费、高效获得作品后,将低成本建成的AI语料库以高价售卖、价值交换等形式提供给市场主体获取直接或间接的经济利益,使得原本AI语料库获取作品数据的公益目的转变为了商业目的,进而陷入“数据洗钱”(data laundering)的窠臼。美国《版权与人工智能,第三部分:生成式人工智能训练(预发布版)》中就曾指出,有学者认为开始出于非商业目的建立语料库或者数据集而后续将其用于商业目的的行为,很难单独将这一行为评价为非营利目的,可称之为数据洗钱。另一方面,建立在公益目的上的AI语料库,其作品数据获取行为必须以合法为前提。合法性是规则适用的基础,如若前提不合法,版权人权益的保护与限制必将无从谈及。正如2025年6月美国法官威廉·哈斯克尔·阿尔苏普(William Haskell Alsup)在Bartz v. Anthropic案中所指出的,从盗版网站获取能够合法购买或以其他方式获得的作品,即便后续盗版副本的使用被认为具有高度转换性而构成合理使用,且被立即删除,该行为本质上还是无法挽回的版权侵权行为。
目前,我国《著作权法》第二十四条第一项、第六项已有关于个人学习、课堂教学或科学研究的合理使用规则,其具体表达为:“(一)为个人学习、研究或者欣赏,使用他人已经发表的作品”;“(六)为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行”。前述条款能够部分用于规制公益目的下AI语料库的数据获取行为,但仍需要进一步调适。第一,对于合法获取的要求,在第二十四条第一款中“也不得不合理地损害著作权人的合法权益”即可予以涵盖。第二,对于后续利用行为规制的要求,前述条款第(六)项中主要强调限制后续“出版发行”行为,而出版发行目前并未达成适用于互联网领域的共识,这与AI语料库的后续流通和利用方式并不完善契合。因此,可将第(六)项中“不得出版发行”扩张至“不得向公众提供”,达到禁止市场流通的法律效果,避免因后续利用方式的有限列举,而导致该规则被束之高阁。第三,改变条款中列举的作品使用方式,可将第(六)项中穷尽列举的作品使用方式,如“翻译、改编、汇编、播放或者少量复制”,扩充表达为“作品使用”,并删去“少量”的使用程度限定,从而适当放宽该条款的适用范围,使其在满足AI语料库建设需要的同时,提高法律适用的弹性。

《中华人民共和国著作权法》
2.非公益目的AI通用语料库获取作品数据法定许可规则的引入
对于非公益目的AI通用语料库获取作品数据的行为,可通过引入法定许可规则予以规制。在法定许可规则明确规定的适用范畴中,使用者可以无需版权人授权而直接使用其作品,并只需事后在合理时间内支付报酬即可。纵观各国法定许可制度的设置,其一般都是以特殊、例外的情形存在,且有着严格的规则适用条件。我国主要有教科书编写、制作录音制品、报刊转载和广播电台、电视台播放作品等四大法定许可类型,高度集中于特定行业,故均无法直接用于规制非公益目的AI通用语料库获取作品数据行为,需要进行规则新设。
在相应法定许可规则的制定过程中,需要对以下问题予以事先明确:第一,该法定许可规则适用的客体必须是发表的作品。AI通用语料库获取作品主要强调作品本身事实内容和逻辑内容的提取,作品可替代性较强,故其并非迫切需要获取未发表作品。此外,回归法定许可规则的创设历史,其核心目标是降低市场交易成本,提高产业运行效率。法定许可规则仅仅是调和传播技术发展初期产业利益分配的临时性工具,并不足以优先于版权人发表权这一精神权利。第二,明确设置该法定许可规则相配套的集体管理机制。法定许可规则的引入往往伴随着著作权集体管理规则,我国有音乐、音像、文字、摄影、电影五家著作权集体管理组织负责法定许可规则下相关作品使用费转付。虽然,社会各界目前对集体管理组织的信任还有待提高,但不可否认的是,集体管理组织在我国法定许可规则的有效实施层面发挥了实质性推动作用。因此,可明确将非公益目的下AI通用语料库获取作品数据的法定许可中版权人稿酬转付的工作直接依托于既有集体管理组织,无需进行特殊设定。若有超出五大集体管理组织的管理的作品类型,则可以进一步对集体管理组织的职能予以扩充解释。第三,该法定许可规则可设置作者声明保留条款。AI通用语料库在进行作品数据获取时,更多地关注作品的正确性与可靠性,获取作品体量大,可替代性强,作品的单一价值较低。并非需要获取所有作品才能完成语料库建设,故可适当将选择权留给版权人。最后,因为AI通用语料库的基础设施价值,该法定许可付酬标准应当适当低于市场标准。

3.非公益目的AI专业语料库获取作品数据一般许可规则的优化
对于非公益目的AI专业语料库获取作品数据的行为,版权制度应当在尊重商品经济规律的基础上,适用传统一般许可规则,进一步推动高质量语料库进行有序流动。同时,通过市场这只“看不见的手”进行产业数据资源的合理调配,以高额的经济价值回报唤醒传统产业的“沉睡”数据资产,从而保障语料专业性、真实性,并实现垂直市场的良性运转。究其缘由,行业数据本身是由属于企业核心资产的商业数据所构成,甚至有些属于商业秘密,公开获取渠道十分受限。在数据竞争愈演愈烈的背景下,即使给予AI专业语料库建设者无需许可即可获取作品的版权例外权限,其自行获取的作品数据质量和体量事实上也难以完全满足语料库建设需要。这就导致看似为了提高AI专业语料库建设速率而设置版权例外制度,实则大大降低了其市场竞争活力,使得AI专业语料库获取作品数据变得困难重重。

对非公益目的下AI专业语料库的版权许可规则而言,可从以下两个层面进行进一步配套与完善:其一,可配套设置作品开放许可规则。允许版权人对其作品设立打包或单项的开放许可,并在版权局官网进行标准公示,加快作品数据的许可流通效率。在此基础上,还应借鉴适用标准必要专利的“公平、合理、无歧视”原则,保障不同规模的AI专业语料库建设者都可平等地进行市场交易活动,降低不公平竞争、数据集中等负面效应。其二,可依托公共数据推动行业数据的开放、集成、共享。对部分政府主导的行业数据进行开源设置,加大行业语料的开放力度,助力搭建语料库作品数据的基础要素设施,并尝试构筑“AI专业语料库数据共享池”。
四、结语

当前,我们必须清醒地意识到,人工智能的产业竞争最终都将变成语料的竞争。AI语料库的建设步伐绝不会停止,甚至会进一步加速。AI语料库获取作品数据行为的版权规制也必将变成决定AI产业发展格局的“重要命题”。面对时下AI语料库产业的作品无序获取状态,一味地进行版权规则的适用调整事实上并不能彻底解决这一实践议题。“法律的本土化或民族化乃是人类法律世界的基本存在方式。”对于AI语料库获取作品数据行为的版权规制,这一影响人工智能产业基础建设的核心问题,必须结合国家战略定位、产业发展水平和公共利益诉求综合考量其解决方案。唯有如此,才能真正保障人工智能技术与版权制度持续释放积极效能,从而实现“可供给、能供给”的高质量语料循环供给目标。

[原文载于《清华大学学报(哲学社会科学版)》2026年第2期,作者:付丽霞,中南财经政法大学知识产权研究中心]
编辑:若水

欢迎大家关注本微信号!
《清华大学学报(哲学社会科学版)》
官方微信平台
Journal_of_Thu

夜雨聆风