AI领域法律研究系列之二:数据训练的司法案例研究

随着生成式人工智能（Generative AI）的爆发式发展，海量数据训练已成为大模型能力的基石，同时也成为了法律纠纷的“火山口”。全球司法辖区正在通过一个个标志性判例，试图回答同一个核心问题：未经授权使用受版权保护的内容进行AI训练，究竟是属于侵权的“盗用”，还是合法的“合理使用”？本文梳理了近期国内外具有代表性的司法案例，从版权侵权认定、合理使用的边界，到训练数据本身的资产属性，呈现当前数据训练领域的司法裁判脉络。

一、版权侵权：当模型“记住”了作品

在版权法框架下，如果AI模型在训练过程中或生成结果中再现了受保护作品的表达，开发者可能面临直接的侵权追责。

德国GEMA v. OpenAI 案（2025）

慕尼黑第一地区法院认定OpenAI的大语言模型（LLMs）构成了版权侵权。法院指出，模型参数中包含了足够多的受版权保护歌词的“记忆”内容，用户通过特定提示即可复现这些歌词。法院强调，这种“记忆”形式构成了著作权法意义上的“复制”（fixation），且超出了德国法允许的“文本与数据挖掘”例外范畴。该案明确：模型提供方因主导训练与架构设计，需承担侵权责任，而不能简单推给终端用户

中国上海“美杜莎”案（2026）

上海知识产权法院二审宣判了上海首例AI大模型著作权侵权案。用户李某截取《斗破苍穹》中美杜莎角色形象图片训练LoRA模型并公开发布，导致其他用户可生成实质性相似图片。法院认定，李某在素材截取及模型训练、发布阶段再现了原作的独创性表达，侵犯了复制权和信息网络传播权。同时，法院也明确了平台责任边界：AI平台若已履行下架等注意义务，一般不直接承担侵权连带责任

二、“合理使用”的博弈：美式四要素测试的实践

美国法院在处理AI训练数据时，频繁援引版权法上的“合理使用”（Fair Use）原则，通过四要素（目的、性质、数量、市场影响）进行测试，但目前裁判结果呈现出一定的分化。

Anthropic 图书训练案（2025）

美国加州北区联邦法院裁定，Anthropic使用受版权保护的图书训练其大模型Claude属于“合理使用”。法官认为，训练目的具有高度的“转换性”（transformative）——即不是为了复制或取代原作，而是为了让模型学习语言模式以创造新事物，且模型并未复制作者可识别的表达风格或创意。不过，法官同时明确指出，如果Anthropic是通过盗版渠道获取这些图书，则下载和存储行为本身可能不构成合理使用

Meta 版权诉讼案（2025）

与此相对，在针对Meta的集体诉讼中，法院虽因原告证据不足而暂时未判定Meta败诉，但在判决论述中抛出了一个极具威胁的侵权理论——“市场稀释”理论。法院指出，即使大模型输出不构成直接复制，但模型使得“快速生成无数与原作相竞争的作品”成为可能，这种向市场大量注入同类型作品的行为可能“摧毁”原作的市场（尤其是无名作者的市场）。法院认为，若能构建此理论的证据链，原告甚至在“市场影响”这一决定性要素上胜诉

Thomson Reuters v. Ross Intelligence 案（2025）

美国法院就法律研究平台Ross使用Thomson Reuters的Westlaw法律批注训练AI模型作出了简化判决，认为此举不构成合理使用。该案表明，即便是用于训练且不直接向用户展示原素材，若使用的数据包含具有编辑独创性的表达，且可能影响原权利人的潜在市场，法院倾向于保护权利人的许可权益。

三、训练数据的资产属性与刑法保护

除了知识产权侵权纠纷，训练数据作为AI企业的核心资产，其法律属性也在刑法案例中得到了进一步夯实。

北京“删库”案（2026）

某科技公司算法工程师王某为“干私活”，违规删除公司89TB的AI训练数据及自研模型，造成项目停摆。法院最终以破坏计算机信息系统罪判处其有期徒刑五年十个月。该案确立了重要规则：AI模型训练数据不仅是普通数据，更是信息系统功能的核心组成与运行基础，具有“计算机信息系统”功能属性；且因数据被删导致的算力损失、模型重置成本，均可纳入刑法意义上的“经济损失”计算范围。

四、小结与观察

从上述案例可以看出，全球司法界对“数据训练”的法律定性正处于快速构建期：

侵权认定趋于精细：法院开始区分“单纯的训练学习”“参数记忆”与“最终生成输出”，并关注模型是否能通过提示词稳定复现原作。

合理使用并非“免死金牌”：即便在美国，法院也开始警惕大模型对原作市场的潜在替代与稀释效应，单纯主张“转换性使用”未必总能过关。

训练数据本身就是财产：无论是作为版权法下的保护客体，还是刑法下的系统资产，训练数据的财产价值和法律边界正日益明晰。