随着生成式人工智能(Generative AI)的爆发式发展,海量数据训练已成为大模型能力的基石,同时也成为了法律纠纷的“火山口”。全球司法辖区正在通过一个个标志性判例,试图回答同一个核心问题:未经授权使用受版权保护的内容进行AI训练,究竟是属于侵权的“盗用”,还是合法的“合理使用”?本文梳理了近期国内外具有代表性的司法案例,从版权侵权认定、合理使用的边界,到训练数据本身的资产属性,呈现当前数据训练领域的司法裁判脉络。

一、版权侵权:当模型“记住”了作品
在版权法框架下,如果AI模型在训练过程中或生成结果中再现了受保护作品的表达,开发者可能面临直接的侵权追责。
德国GEMA v. OpenAI 案(2025)
慕尼黑第一地区法院认定OpenAI的大语言模型(LLMs)构成了版权侵权。法院指出,模型参数中包含了足够多的受版权保护歌词的“记忆”内容,用户通过特定提示即可复现这些歌词。法院强调,这种“记忆”形式构成了著作权法意义上的“复制”(fixation),且超出了德国法允许的“文本与数据挖掘”例外范畴。该案明确:模型提供方因主导训练与架构设计,需承担侵权责任,而不能简单推给终端用户
中国上海“美杜莎”案(2026)
上海知识产权法院二审宣判了上海首例AI大模型著作权侵权案。用户李某截取《斗破苍穹》中美杜莎角色形象图片训练LoRA模型并公开发布,导致其他用户可生成实质性相似图片。法院认定,李某在素材截取及模型训练、发布阶段再现了原作的独创性表达,侵犯了复制权和信息网络传播权。同时,法院也明确了平台责任边界:AI平台若已履行下架等注意义务,一般不直接承担侵权连带责任
二、“合理使用”的博弈:美式四要素测试的实践
美国法院在处理AI训练数据时,频繁援引版权法上的“合理使用”(Fair Use)原则,通过四要素(目的、性质、数量、市场影响)进行测试,但目前裁判结果呈现出一定的分化。
Anthropic 图书训练案(2025)
美国加州北区联邦法院裁定,Anthropic使用受版权保护的图书训练其大模型Claude属于“合理使用”。法官认为,训练目的具有高度的“转换性”(transformative)——即不是为了复制或取代原作,而是为了让模型学习语言模式以创造新事物,且模型并未复制作者可识别的表达风格或创意。不过,法官同时明确指出,如果Anthropic是通过盗版渠道获取这些图书,则下载和存储行为本身可能不构成合理使用
Meta 版权诉讼案(2025)
与此相对,在针对Meta的集体诉讼中,法院虽因原告证据不足而暂时未判定Meta败诉,但在判决论述中抛出了一个极具威胁的侵权理论——“市场稀释”理论。法院指出,即使大模型输出不构成直接复制,但模型使得“快速生成无数与原作相竞争的作品”成为可能,这种向市场大量注入同类型作品的行为可能“摧毁”原作的市场(尤其是无名作者的市场)。法院认为,若能构建此理论的证据链,原告甚至在“市场影响”这一决定性要素上胜诉
Thomson Reuters v. Ross Intelligence 案(2025)
美国法院就法律研究平台Ross使用Thomson Reuters的Westlaw法律批注训练AI模型作出了简化判决,认为此举不构成合理使用。该案表明,即便是用于训练且不直接向用户展示原素材,若使用的数据包含具有编辑独创性的表达,且可能影响原权利人的潜在市场,法院倾向于保护权利人的许可权益。
三、训练数据的资产属性与刑法保护
除了知识产权侵权纠纷,训练数据作为AI企业的核心资产,其法律属性也在刑法案例中得到了进一步夯实。
北京“删库”案(2026)
某科技公司算法工程师王某为“干私活”,违规删除公司89TB的AI训练数据及自研模型,造成项目停摆。法院最终以破坏计算机信息系统罪判处其有期徒刑五年十个月。该案确立了重要规则:AI模型训练数据不仅是普通数据,更是信息系统功能的核心组成与运行基础,具有“计算机信息系统”功能属性;且因数据被删导致的算力损失、模型重置成本,均可纳入刑法意义上的“经济损失”计算范围。
四、小结与观察
从上述案例可以看出,全球司法界对“数据训练”的法律定性正处于快速构建期:
侵权认定趋于精细:法院开始区分“单纯的训练学习”“参数记忆”与“最终生成输出”,并关注模型是否能通过提示词稳定复现原作。
合理使用并非“免死金牌”:即便在美国,法院也开始警惕大模型对原作市场的潜在替代与稀释效应,单纯主张“转换性使用”未必总能过关。
训练数据本身就是财产:无论是作为版权法下的保护客体,还是刑法下的系统资产,训练数据的财产价值和法律边界正日益明晰。
夜雨聆风