

作者:汉坤律师事务所 叶志豪 | 赵宇先 | 陆利锋
一、 引言
生成式人工智能(Generative AI)的迅猛发展正在重构内容生产和传播的底层逻辑,然而,从输入端训练数据的爬取、训练,到输出端内容的生成、发布,法律风险亦如影随形。
因此,为系统梳理AIGC生命周期中输入与输出两端的核心法律风险与合规应对,本文分为上下两章,作为上章,将重点聚焦AIGC输入端的数据爬取不正当竞争与训练数据使用中的著作权侵权风险,下章则将聚焦输出端内容的著作权侵权风险以及相关主体的责任义务,并在此基础上,系统提出涵盖输入端与输出端两方面的合规应对建议。通过上下两章的衔接,本文旨在为企业应对从数据源头输入到内容终端输出的法律风险提供实务指引。
二、风险全景——AIGC输入与输出两端的核心法律挑战
(一) 输入端风险:数据爬取与训练的双重困境
数据是 AIGC 模型训练的核心基础,其获取与使用方式受到《反不正当竞争法》《著作权法》《个人信息保护法》《网络安全法》等多重规制。篇幅所限,在输入端,本文仅聚焦于AIGC模型的数据爬取训练行为所面临的不正当竞争与著作权侵权风险。
1. 数据爬取的不正当竞争风险:未经授权大规模抓取公开平台数据的行为若实质性替代了原平台服务、破坏市场竞争秩序,或违背诚实信用原则“搭便车”利用他人数据资源,将可能会被认定为不正当竞争。
2. 数据训练的著作权侵权风险:未经许可将受著作权保护的作品纳入训练数据集,正面临日益严格的法律定性。在模型训练过程中,作品被加载、分析并存储于服务器,这一行为很有可能被认定构成对复制权的侵害。
(二) 输出端风险:生成内容的侵权与合规危机
输出端的风险集中体现为生成内容的民事侵权与行政合规风险。
1. 民事侵权风险:AIGC模型在输出端可能引发著作权侵权、不正当竞争、人格权侵权等风险。其中,著作权侵权是核心争议之一,判断关键在于生成内容与受保护作品是否构成“实质性相似”。虽然“风格”本身不受著作权法保护,但若AI输出成果在独创性表达、结构编排或核心元素上与现有作品高度雷同,仍可能构成侵权。
2. 行政合规风险:AIGC服务提供者若未依法履行AI生成内容的标识义务,或模型生成涉黄、涉政等违禁内容,将面临严厉的行政处罚,存在合规风险。
三、 输入端深度解析——数据爬取的不正当竞争风险及司法认定规则
(一) 现行立法与监管政策的双重规制
近年来,我国已通过立法修订与专项监管规则,构建起对 AIGC 数据爬取行为的双重规制体系,为司法认定提供明确法律依据:
1. 《反不正当竞争法》的专条规范:2025年新修订的《反不正当竞争法》新增非法数据获取条款,在第13条明确禁止以避开技术措施等不正当方式获取、使用他人合法数据,首次尝试在《反不正当竞争法》框架下对非法数据获取行为进行专条规范。
2. 国家网信办等七部门2023年颁布的《生成式人工智能服务管理暂行办法》(以下简称“《暂行办法》”)第四条第(三)项为生成式人工智能服务提供者创设了公平竞争义务,即不得利用算法、数据、平台等优势,实施垄断和不正当竞争行为。这为权利人主张生成式人工智能服务提供者不正当竞争提供了重要规范依据。[1]并且,《暂行办法》第7条明确规定了生成式人工智能服务提供者的训练数据处理活动要求,要求企业审慎评估数据来源合规性,避免陷入“技术无罪”误区。
(二) 司法实践中核心认定规则
结合司法实践,法院对 AIGC 数据爬取行为是否构成不正当竞争的认定,核心围绕 “数据集合” 的保护边界与“实质性替代” 标准两大核心问题展开,裁判规则已趋于明确:
1. “数据集合” 的保护边界:合法经营利益的认定
在司法实践中,法院对“数据集合”的保护边界逐渐清晰。针对企业对长期投入形成的公开数据集合是否享有可保护的竞争利益的问题,主流观点认为,企业对合法采集后的数据经过匿名化处理后,若具备规模性、独特性与商业价值,即构成应受保护的“竞争性权益”,这种权益虽非绝对财产权,但属于受法律保护的经营利益。[2]
例如,在(2023)粤03民初6844号案件中,法院认为,基于平台海量组合数据进行的大数据分析产品,是对海量用户数据进行加工处理后的衍生数据,已无法与用户生成的数据相对应,具有独立的数据价值,该种经营数据权益应当由经营平台者享有。[3]在入库案例(2018)浙01民终7312号案件中,法院亦认为,平台运营者基于原始交易数据,经过深度加工、算法分析形成的数据产品,可以为运营者所实际控制和使用,为其带来相应的经济利益,属于竞争法意义上的财产权益,同时构成平台运营者的竞争优势,应当受到反不正当竞争法的保护。[4]
2. “实质性替代”:不正当竞争的核心认定标准
认定数据爬取行为构成不正当竞争的关键在于判断该行为是否构成“实质性替代”。司法实践中,法院着重在三个方面进行审查[5]:
(1) 是否损害了对方的竞争性利益;
(2) 是否违背了商业道德与诚实信用原则;
(3) 是否利用他人数据资源构建自身竞争优势,从而破坏市场竞争秩序;
例如,在指导性案例262号中,法院确认了平台对数据集合享有受保护的经营性利益,行为人在未获得用户授权且未获得平台授权的情况下,抓取并使用这些数据,不仅侵犯了用户隐私,更实质性替代了平台的服务,破坏了其竞争优势,违背商业道德与诚信原则,构成不正当竞争。[6]
在深圳中院审理的(2023)粤03民初6844号案件中,法院亦明确,明确平台衍生数据权属归属于平台,他人运用AI技术手段爬取他人平台模拟真实股票交易的程序化、量化证券交易数据后,为自己会员提供自动化、程序化下达真实股票交易指令的“克隆”服务,构成不正当竞争,最终判赔1950万的超高数额。
因此,若AI模型未经授权,通过抓取数据实现了与原平台相似的功能,导致原平台用户流失、流量转移,将被认定为破坏了市场竞争秩序、损害其他经营者的合法权益,构成不正当竞争。
四、输入端深度解析——数据训练的“复制”侵权风险和抗辩边界
近日,中国广电联合会演员委员会发布严正声明,针对擅自抓取演员影像声频用于AI模型训练等侵权行为,要求任何主体未经演艺人员本人书面正式授权,严禁擅自采集、使用、合成、传播相关影响、声纹与专属艺术形象。[7]虽然该声明主要针对演艺人员的肖像权等人格权益,但也反映出特定行业组织对于AI模型的数据训练行为持严厉态度,严格要求取得合法授权,否则AI模型数据训练将面临极高的被指控侵权风险。
同理,在AIGC 模型训练中对在先作品进行抓取、使用的行为,是否构成《著作权法》意义上的 “复制”,以及是否可援引 “合理使用” 进行抗辩,也已成为当前司法实践与律师实务中的核心争议问题。
(一) 数据训练行为的定性:是否构成著作权意义上的“复制行为”
根据《著作权法》第十条第一款第五项,复制权系指“以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份的权利”。 其中,“数字化”被明确列为复制行为的方式之一。
在AI训练场景下,开发者将他人享有著作权的图片、文字、音乐等内容,从原始载体(如图书、网页、音像制品)中提取,转化为可供机器读取的数字格式(如文本向量、图像张量)。从文义解释的层面看,这一过程似乎可以被纳入“数字化复制”范畴,然而,结合技术特征与著作权法理,人工智能的数据训练行为具有一定特殊性,不能简单等同于传统的复制行为,一律将其认定为著作权法意义上的“复制行为”。
01
非临时复制情形
虽然我国并未具体规定复制行为的构成要件,但总结各国著作权立法例和相关学说,著作权法所规制的“复制行为”,要求该行为使作品被相对稳定地固定在物质载体之上形成作品的有形复制件。[8]
因此,若生成式人工智能对数据的训练,系利用爬虫等技术收集海量作品、建立作品数据库,并将其存储在硬盘等物质载体上,则该行为过程形成了诸多作品的相对稳定的复制件,属于受复制权规制的复制行为。
02
临时复制情形
然而,除上述被纳入复制行为范畴的方式外,生成式人工智能对作品的利用,还会以 “临时复制”(Temporary Reproduction)的方式进行。在“临时复制”的训练模式中,作品仅被调入计算机内存或硬盘划出的临时缓存区进行实时分析,训练结束后数据即被清空,无法被再次调用或独立利用。
(1)法律依据层面
虽然国际上对于“临时复制”是否属于复制权所规制的行为并未达成一致,但我国在参与WIPO版权条约(WCT)外交会议及制定《信息网络传播权保护条例》时,均明确不支持将“临时复制”定性为复制行为,即在我国现行法中并没有将“临时复制”纳入复制权规制范围的法律依据。[9]
(2)正当性层面
从技术角度看,“临时复制”只是计算机运行中附带发生的客观技术现象,并不会产生具有可流通性、可利用性,且具有独立经济价值的复制件,其价值仅在于完成特定的技术过程,完全依附于计算机对作品的其他操作行为,产生与结束均依赖于操作的产生于结束,故不可能脱离该行为而被独立利用,也不具有被独立利用的经济价值。[10]
从法理角度看,复制行为的构成要件之一为,该行为使作品被相对稳定地固定在物质载体之上形成作品的有形复制件。因此,如前所述,“临时复制”仅是依附于技术过程的短暂存在,并未形成作品的稳定复制件,并不符合复制行为“相对稳定地固定”的要求,不属复制行为。
(3)司法实践层面
在入库案例“易查网案”中,法院认为,对网页的转码行为是否构成著作权侵权需要视具体情况而定,需要考察复制是否短暂及临时、是否转码技术所必须、是否具备独立的经济价值等因素,综合衡量该等行为是否构成“临时复制”。若网络服务商以转码为借口,实施了超越转码技术所必须的、属于著作权法专有权利保护范围的行为,则应当承担侵权责任。该案中,经营者将其所谓“临时复制”的内容传输给触发转码的用户后,并未立刻将相应内容从服务器硬盘中自动删除,还将该内容存储在自己的服务器中,属于对他人作品的复制,构成复制权侵权。[11]该案审理法官此后更是明确指出,“临时复制”不受复制权控制,否则会违背著作权法促进社会主义科学事业的发展与繁荣的宗旨。[12]
因此,虽然数据训练在文义上看似属于“数字化复制”,但仍然需要结合生成式人工智能数据训练的具体方式进行分析。如果该数据训练行为仅涉及技术过程中不可避免的“临时复制”,仅临时存储于服务器或本地设备中,在训练结束后删除相关内容,未形成稳定的复制件,在我国目前仍然处于大力发展AI产业的背景下,不宜将“临时复制”认定为著作权法意义上受复制权规制的“复制行为”。
(二) 合理使用抗辩的边界
如前所述,AI模型的数据训练可能被认定落入《著作权法》所规制的“复制行为”范畴。然而,即使数据训练行为在形式上符合复制权的控制范围,也并不意味着必然构成侵权。在我国著作权法框架下,是否构成侵权,还需进一步判断该行为能否被“合理使用”制度所豁免。因此,合理使用抗辩的边界,直接决定了AI模型输入端数据训练行为的合法与非法分野。
01
我国关于“合理使用”的规定
我国著作权合理使用制度规定在《著作权法》第二十四条中,该条款规定,在特定情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益。可见,我国对合理使用的规定实际上贯彻了《伯尔尼公约》的“三步检验法”。[13]
从立法体例来看,《著作权法》第二十四条采用“具体列举+兜底条款”的方式,首先明确列举了12种具体的合理使用情形,其次在第13项规定了兜底条款“法律、行政法规规定的其他情形”。因此,与美国版权法开放式的“四要素判断法”不同,[14]我国对于合理使用的构成上相对保守,并不会给予法官过多的自由裁量权,[15]要求使用行为必须严格落入这12项具体情形之一,或者有其他专门法律的明确规定,否则即构成侵权。因此,在我国现行法未作明确规定的情况下,AI模型数据训练的行为恐怕难以直接归入《著作权法》第二十四条的合理使用情形,而需要法院在个案中对此新型复制行为的边界进行权衡。
02
国内司法实践现状
目前国内司法实践中关于AI训练数据的复制权侵权认定的生效裁判尚较少,在现有的公开案例中,法院的裁判标准和态度不一。
(1)“奥特曼案”:合理使用的肯定立场
在“奥特曼案”(上海某文化传播公司诉杭州某AI平台案)中,原告将“删除训练数据”作为诉请之一,主张被告在训练阶段未经许可使用了原告享有著作权的奥特曼形象。一审法院认为,鉴于生成式人工智能在数据训练阶段使用他人作品的目的,原则上应是用于学习分析在先作品,从中提取出相应的规律,便于后续转换性创作新作品,因此该种使用行为并非以再现作品的独创性表达为目的,且一般情况下数据训练只是对语料数据作结构特征分析时暂时保留了在先作品,数据训练及生成过程中也未将在先作品展示给公众,因此,在无证据证明生成式人工智能是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下,可以被认为是合理使用。[16]并进一步指出,“从促进生成式人工智能技术发展的角度来看,对于大模型的数据输入、数据训练行为的侵权认定,宜采取相对宽松包容的认定标准”。这一判决为AI训练端的合理使用抗辩提供了重要的司法支持。
(2)“美杜莎案”:认定构成复制权侵权
与“奥特曼案”的宽容立场不同,上海市金山区人民法院审理的“美杜莎”案展现出更为严格的裁判态度。法院认为,被告以商业使用为目的,在素材截取阶段及模型训练、发布及使用阶段再现在先作品的独创性表达,侵害了原告对“美杜莎”作品享有的复制权和信息网络传播权。[17]可见,法院倾向于认为将作品整理为训练数据集,本身就是一次未经许可的复制行为,再加上模型训练具有商业目的、模型输出能高度复现原作核心,则不适用合理使用抗辩,构成复制权侵权。
总体上,我国司法实践对于AI模型数据训练是否属于合理使用的问题尚未形成统一的裁判标准,有待实践进一步明确。但值得注意的是,北京知识产权法院副院长杜长辉在2025中关村论坛全球知识产权保护与创新论坛上发言表示:“在生成式人工智能技术应用的不同阶段,采用差异化的保护原则,注重平衡各方利益。在模型预训练阶段,侧重促进数据的取得和使用;在生成传播阶段,更加注重权利保护。”[18]这表明,现阶段司法可能倾向于对输入端采取相对宽容的态度,即附条件地允许数据训练使用,以促进技术创新发展,但是具体标准和条件依然有待立法和司法进一步明确。
(三)行政监管动态
目前我国也已有国家标准对不同来源的训练数据的采集作出了明确规范要求,因此在现行立法和司法实践尚未明晰AI模型的数据训练行为是否属于合理使用的情况下,建议AI模型开发者、平台运营者等涉AI数据训练主体,参考国家市场监督管理总局和国家标准化管理委员会发布的《网络安全技术 生成式人工智能服务安全基本要求》[19]《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》[20]的相关采集管理要求,对不同来源的数据进行分类合规自查。需要注意的是,该标准对于不同来源的数据训练行为普遍要求取得相应的授权许可,这一定程度上反映了现行监管对于AI模型的数据抓取、训练行为采用较为严格的普遍授权态度。
(四)政策导向与立法趋势展望
尽管前述国家标准对训练数据采集提出了较为严格的授权要求,但若将视角提升至国家整体政策层面,可以发现,我国近年来始终将人工智能作为战略性新兴产业,持续释放鼓励创新、包容审慎监管的积极信号。2026年《政府工作报告》首次提出“打造智能经济新形态”,明确“深化拓展‘人工智能+’”,推动人工智能商业化规模化应用,并将“完善适应人工智能技术发展促进就业创业的措施”首次写入报告,体现了我国对人工智能产业发展的高度重视与持续支持。这一政策基调为AI模型数据训练的法律评价提供了重要方向性指引。
因此,尽管现行规定及司法实践尚存不确定性,但基于国家大力发展AI产业的顶层设计,我国未来有可能出台或细化相关规定,在平衡著作权人利益与产业发展的基础上,对AI模型的数据训练行为给予一定程度的合理使用豁免,以鼓励技术创新与数据合法流通。
五、结语
在生成式人工智能的输入端,数据爬取若违背商业道德或突破技术防线,将构成不正当竞争;而未经许可复制受保护作品以供AI模型数据训练,在我国现行立法及司法实践下面临被认定为复制权侵权的风险。在此背景下,企业应审慎评估数据来源合规性,建立内部数据治理机制,以规避输入端法律风险,同时对未来的相关政策演进保持关注。本文将在下章进一步讨论AI模型输出端的著作权侵权风险,及生成式人工智能服务提供者的相关责任义务,并系统梳理输入输出两端的合规建议。
注释
[1] 冯晓青:《生成式人工智能服务提供者版权侵权及不正当竞争研究——以AI平台版权侵权“奥特曼系列案”为例》,载《知识产权》2023年第11期。
[2]石丹:《大数据时代数据权属及其保护路径研究》,载《西安交通大学学报(社会科学版)》2018年第3期;【指导性案例262号】北京知识产权法院(2021)京73民终1011号判决书、【入库案例】杭州中级人民法院(2018)浙01民终7312号判决书。
[3] 广东省深圳市中级人民法院(2023)粤03民初6844号民事判决书。
[4] 【入库案例】杭州中级人民法院(2018)浙01民终7312号判决书。
[5]北京知识产权法院(2016)京73民终588号判决书、上海知识产权法院(2016)沪73民终242号判决书、【入库案例】杭州中级人民法院(2018)浙01民终7312号判决书、天津滨海新区人民法院(2019)津0116民初2091号裁定书、【指导性案例262号】北京知识产权法院(2021)京73民终1011号判决书、广东省深圳市中级人民法院(2023)粤03民初6844号民事判决书。
[6] 【指导性案例262号】北京知识产权法院(2021)京73民终1011号判决书,该案为最高人民法院首次发布数据权益司法保护专题指导性案例之一。
[7]https://www.news.cn/fortune/20260402/da066ff2e9a34c46a81e70b265a97acd/c.html,最后访问日期2026年4月10日。
[8] 王迁,褚楚:《人工智能与著作权边界初探:技术进步下的法律挑战与思考》,载《中国编辑》2024年第8期https://mp.weixin.qq.com/s/2fUU_1K1iJTfdMYcCArmXw?scene=1&click_id=1,最后访问日期2026年4月10日。
[9] 同上。
[10] 同上。
[11] 上海市浦东新区人民法院刑事判决书(2015)浦刑(知)初字第12号。
[12] 叶菊芬,桑清圆:《转码小说网页后的存储构成侵权》,载《人民法院报》2017年3月2日,第7版。
[13] 吴凯涛:《著作权合理使用制度研究》,载《法学》2023年第2期。https://pdf.hanspub.org/ojls20230200000_45222959.pdf
[14] 晏凌煜:《美国司法实践中的“转换性使用”规则及其启示》,载《知识产权》2016年第6期。http://iolaw.cssn.cn/fxyjdt/201608/t20160811_4643474.shtml
[15] 见前注14。
[16] 杭州市中级人民法院(2024)浙01民终10332号民事判决书、杭州互联网法院(2024)浙0192民初1587号民事判决书,该案为浙江省高级人民法院2024年知识产权保护典型案例之一、杭州市中级人民法院2024年度知识产权司法保护暨服务保障新质生产力发展典型案例之二。
[17] “上海高院”微信公众号:“《斗破苍穹》美杜莎形象被抄袭 人工智能大模型著作权侵权案一审落槌”。https://mp.weixin.qq.com/s/Plae0snaOEsqqmodLU9j4g
[18] https://bjzcfy.bjcourt.gov.cn/article/detail/2025/03/id/8765055.shtml,最后访问日期2026年4月10日。
[19]GB/T 45654—2025《网络安全技术 生成式人工智能服务安全基本要求》:对服务提供者的要求如下。 a) 使用开源训练数据时,应遵循该数据来源的开源许可协议或取得相关授权文件。 注1:对于汇聚了网络地址、数据链接等能够指向或生成其他数据的情况,如需使用这些被指向或生成的内容作为 训练数据,将其视同于自采训练数据。 b) 使用自采训练数据时,应具有采集记录,不应采集他人已明确不可采集的数据。 注2:自采训练数据包括自行生产的数据以及自行从互联网采集的数据。 注3:明确不可采集的数据,例如已通过爬虫协议(robots协议)或其他限制采集的技术手段明确表明不可采集的网 页数据,或个人已拒绝授权采集的个人信息等。 c) 使用商业训练数据时:应有具备法律效力的交易合同、合作协议等;交易方或合作方不能提供数据来源、质量、安全等方面的承诺以及相关证明材料时,不应使用该训练数据;应对交易方或合作方所提供的训练数据、承诺以及相关证明材料进行审核。 d) 将使用者输入信息用作训练数据时,应具有使用者授权记录。
[20] GB/T 45652-2025《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》:对服务提供者的要求如下。 a) 数据收集时,应对数据进行评估和记录,数据所包含的违法不良信息不应超过5%。 注1:本文件关注的违法不良信息主要是指包含GB/T45654—2025中A.1~A.4中29种安全风险的信息。 b) 对自行收集的预训练数据,不应采集他人已明确不可采集的数据。 c) 收集开源数据集时,应遵循该数据集的开源许可协议或取得使用授权文件。 d) 对从外部数据源收集的预训练数据,应记录数据收集所涉及的数据来源: 1) 数据来源为互联网网站的,记录网站的统一资源定位符; 2) 数据来源为外部组织或个人的,记录数据集名称、来源组织,保存具备法律效力的交易合 同、合作协议、许可协议或相关授权文件等; 3) 数据来源为服务使用者的,具有服务使用者的授权记录,并记录服务名称、服务使用者的 标识。 e) 同类型的数据应具有多个不同的数据来源: 1) 不同的数据来源包含多个数据提供主体,包括但不限于互联网网站、其他组织或个人、服 务使用者等; 2) 同类型数据中,每个数据来源的比例不低于1%。 注2:此处类型包括但不限于代码、图像、音频、视频及相同语言的文本等。 f) 所采集数据涉及个人信息的,应取得对应个人的同意或符合法律、行政法规规定的其他情形; 所采集数据涉及敏感个人信息的,应取得对应个人的单独同意或符合法律、行政法规规定的其 他情形。 g) 通过交易或合作等方式从其他组织或个人收集数据时,应对交易方或合作方所提供的数据、承 诺以及相关证明材料进行审核。 h) 涉及数据跨境收集时,应符合相关数据跨境安全法规和标准要求。



叶志豪
86 21 6080 0568
zhihao.ye@hankunlaw.com

业务领域
知识产权、商事争议解决

赵宇先
+86 21 6080 0272
yuxian.zhao@hankunlaw.com

业务领域
商事争议解决

陆利锋
+86 21 6080 0216
lifeng.lu@hankunlaw.com

业务领域
合规与调查、商事争议解决、劳动人事


夜雨聆风