
【数法新声】
【数法新声】栏目是华东政法大学高富平教授指导下的硕博研究生搭建的全新学术交流板块,旨在聚焦数据法治领域前沿问题,分享学术研究成果、交流实务观察见解。
本栏目下所涉观点均为作者个人学术思考与见解,仅用于学术交流,不构成也不代表高富平教授本人及相关机构的官方观点与立场,欢迎学界同仁、实务界人士批评指正,共同推动数据法治研究的深化与完善。
生成式人工智能(AIGC)的广泛应用,使得未经许可利用版权作品训练模型行为的合法性成为著作权法领域的争议焦点。在模型预训练阶段,开发者往往需将包含版权作品的数据集抓取并存储于本地介质,由于著作权人依法享有复制权等专有权利,在缺乏法定豁免事由的前提下,未经许可的训练行为面临显著的著作权侵权风险。然而,若要求开发者逐一获取权利人授权,将导致极高的交易成本,并因此阻滞人工智能技术的创新发展。如何平衡著作权人的专有权利与AI大模型对训练数据的法律需求,已成为当前著作权领域亟待解决的核心命题。目前,各国被告方多援引“合理使用”(Fair Use)或相关法定豁免原则进行抗辩,但不同法域的裁判机构在此问题的法律适用上存在明显分歧。
本文旨在通过对上述不同法域典型案例的梳理,展开横向与纵向的逻辑对比。纵向层面,解析各法域内部如何从传统著作权规则演进至处理AI新技术问题的裁判标准;横向层面,对比中、美、德三国在行为定性、侵权判断重点与价值取向上的制度差异。在此基础上对案例中的核心争议点展开深度辨析。通过对比研究,探究AI大模型训练数据著作权侵权的认定准则,以期为完善相关法律适用规则提供理论支撑。
中国
近两年,我国司法机关接连审理了多起具有标杆意义的生成式人工智能(AIGC)著作权纠纷案。其中,广州“奥特曼”案[1]、杭州“奥特曼”案[2]与上海“美杜莎”案[3],因其集中触及了动漫角色形象在 AI 训练场景下的复杂权利边界而最具代表性。三起案例的争议内核高度契合,均聚焦于:权利作品是否被纳入模型训练、AI 输出物与原作品是否构成实质性相似,以及相关行为应如何锚定在复制权、改编权或信息网络传播权的评价体系之中。选择这三案作为研究样本,旨在勾勒我国法院在AI训练领域裁判逻辑的演进路径:从单纯关注“输出了什么”,转向剖析“模型是如何训练与调用的”;从笼统的侵权判定,转向对“输入端”与“输出端”法律关系的细致剥离与联结。通过对这些案例的纵向审视,可以清晰观察到我国司法实践如何尝试在保护原创表达与激励 AIGC 技术创新之间,寻求一种更为精细且理性的动态平衡。
案例一:广州“奥特曼”案
【基本案情】
原告经合法授权,享有“奥特曼”系列美术作品在中国大陆的著作权及独立维权权利。被告通过接入第三方接口运营 Tab 网站,向公众提供 AI 对话及 AI 文生图服务。2023 年 12 月,原告发现用户在该网站 AI 绘画模块输入“生成奥特曼”等相关指令后,系统输出了大量与案涉奥特曼形象相同或近似的图片。原告主张,被告未经许可将案涉版权作品作为输入端训练数据纳入 AI 模型的生成来源,导致平台输出的结果完整保留了奥特曼角色的头部特征、胸部指示灯及躯干线条等独创性表达。原告认为,这种从“数据投喂”到“内容生成”的全过程,实质性侵害了其享有的复制权、改编权及信息网络传播权,遂诉至广州互联网法院。
【裁判要旨】
广州互联网法院经审理认为,被告侵害了原告对案涉奥特曼作品享有的复制权和改编权。Tab 网站生成的部分图片保留了奥特曼形象的独创性表达,与案涉作品构成实质性相似,属于未经许可复制案涉作品;另有部分图片在保留奥特曼核心独创性表达的基础上加入新的风格或元素,构成对案涉作品的改编;在同一被诉行为已经被纳入复制权、改编权范围的情况下,无需再对信息网络传播权进行重复评价。
在平台责任方面,法院判令被告停止生成与案涉奥特曼作品实质性相似的图片,并采取关键词过滤等技术措施进行防范。但因被告未实际开展模型训练,法院未支持原告要求其删除训练数据集中奥特曼相关物料的诉请。被告未建立有效投诉举报机制、未进行充分风险提示,未尽到生成式 AI 服务提供者的合理注意义务,因此应承担相应赔偿责任。
案例二:杭州“奥特曼”案
【基本案情】
原告经合法授权,享有“奥特曼”系列美术作品在中国大陆的著作权及独立维权权利。被告平台提供Checkpoint基础模型和LoRA模型,向用户提供文生图、图生图、LoRA 模型训练、模型发布及作品分享等服务。原告发现,被告平台上存在多个以“奥特曼”“迪迦”等为名称或触发词的 LoRA 模型,用户可以上传奥特曼图片训练模型,并进一步生成、发布与奥特曼形象相同或高度近似的图片。取证显示,平台“广场”“叠加模型 LoRA”“IP 作品”等栏目中已有多张奥特曼相关图片和模型,部分生成图片在人物形象、服饰细节、色彩搭配等方面与原告主张权利的奥特曼形象基本一致。原告认为,被告平台允许用户上传未经授权的奥特曼作品进行定向模型训练,并通过相关模型持续生成、发布奥特曼或类奥特曼图片,既侵犯其复制权、改编权、信息网络传播权,也构成不正当竞争,遂诉至杭州互联网法院。
【裁判要旨】
一审法院经比对认为,案涉被诉图片与原告奥特曼形象在人物造型、服饰细节、色彩搭配等方面基本一致,仅在动作、背景上存在差异,构成实质性相似。相关内容通过平台功能向公众提供,使用户可以在其选定的时间和地点获得,侵害了原告的信息网络传播权。被告虽然不是直接上传、训练、发布图片的主体,但其提供模型训练、生成、发布和应用服务,并对明显涉及奥特曼 IP 的内容未尽合理注意义务,构成帮助侵权。
在合理使用方面,一审法院没有完全否定 AI 训练阶段使用既有作品的可能性。法院认为,生成式人工智能发展需要大量训练数据,数据训练阶段使用他人作品,原则上可能具有学习、分析作品表达特征并服务后续转换性创作的技术目的,因此对训练阶段不宜过度严格评价。但是,本案的问题不在于一般性数据训练是否合理使用,而在于用户上传奥特曼图片训练 LoRA 模型后,生成并发布了与奥特曼形象实质性相似的图片,且相关模型还可被其他用户反复调用,继续生成侵权内容。此时,相关行为已经超出个人学习、研究、欣赏的范围,不能以合理使用抗辩。
案例三:上海“美杜莎”案
【基本案情】
本案原告系《斗破苍穹》系列动漫中“美杜莎”角色形象的著作权人。被告H 公司运营国内某 AI 图像生成平台,平台内提供 AI 在线生图、LoRA 模型训练、模型发布与调用等服务。被告李某为该平台用户,其截取《斗破苍穹》动漫中美杜莎角色形象图片二十余张,制作成美杜莎图包,并使用平台“训练 LoRA”功能将图片作为训练素材投入,生成两款美杜莎 LoRA 模型后发布在其个人账号中。其他用户在调用案涉美杜莎 LoRA 模型后,只需输入不同提示词,即可生成与《斗破苍穹》中美杜莎角色形象相同或实质性相似的图片。
原告认为,被告李某未经许可截取、训练、发布并使用美杜莎角色形象,使案涉模型能够定向生成美杜莎图片,侵犯了其复制权、改编权和信息网络传播权;同时,原告还主张“美杜莎”构成有一定影响的商品名称,相关行为构成不正当竞争,遂诉至上海市金山区人民法院。金山区人民法院作出一审判决后,原告与被告李某均不服,分别提起上诉;二审由上海知识产权法院审理。
【裁判要旨】
一审法院经审理认为,《斗破苍穹》动漫中的美杜莎角色形象具有独创性,属于受著作权法保护的美术作品,原告作为著作权人有权主张保护。被告李某未经许可,截取美杜莎角色图片制作图包,并将其作为训练素材投入平台“训练 LoRA”功能,生成并发布美杜莎 LoRA 模型,使其他用户能够借助该模型生成与美杜莎形象相同或实质性相似的图片。该行为再现了原告作品的独创性表达,侵害了原告的复制权和信息网络传播权。但在没有证据证明自然人对 AI 生成图片存在实质性智力投入的情况下,生成式人工智能直接生成的图片并非著作权法意义上的美术作品。案涉美杜莎 LoRA 模型及其文生图结果未体现李某的实质性智力创作,因此不构成“改编作品”,李某不构成改编权侵权。
二审法院进一步澄清,复制权本质上是“再现权”,只有当 LoRA 模型在用户指令下再次生成了与输入的权利作品实质性相似的图片时,才完成了对作品的复制。案涉复制权侵权并非单纯成立于“上传二十余张美杜莎图片训练模型”这一环节,而是成立于模型输出阶段。
【纵向对比与总结】
在“模型训练是否当然侵权”的问题上,三案体现出一种逐渐细化的裁判思路。广州“奥特曼”案没有正面讨论训练阶段是否构成合理使用,因为被告只是接入第三方接口,并未实际训练模型,所以法院未支持删除训练数据中奥特曼素材的请求。杭州“奥特曼”案则采取较为审慎的态度,承认生成式 AI 的发展需要大量训练数据,对输入端训练不宜一概严格否定,但如果训练后的 LoRA 模型被用于生成、发布与原作品实质性相似的图片,并可被其他用户反复调用,就超出了合理使用或单纯学习训练的范围。上海“美杜莎”案二审则进一步明确,复制权本质上是“再现权”,单纯将图片输入 LoRA 模型训练,并不当然完成复制权侵权;只有当模型在用户指令下输出与权利作品实质性相似的图片,使作品独创性表达被再次呈现时,才构成复制权意义上的复制。
总体来看,三案体现出我国法院在利用版权作品训练AI的著作权纠纷中,正在逐步形成一种区分训练输入与生成输出、避免简单结果归责的裁判思路。法院并未将版权作品被用于模型训练本身当然认定为侵权,而是更强调具体使用方式、输出结果以及后续传播行为。换言之,AI 训练阶段的作品利用是否侵权,并不能脱离生成结果和商业传播场景单独判断。
这种思路体现了两个层面的平衡:一方面,法院承认生成式 AI 技术发展确实需要大量数据,对单纯的模型训练不宜过度压缩,否则可能不利于技术创新;另一方面,一旦训练后的模型能够稳定、定向地生成与权利作品实质性相似的内容,并通过平台发布、分享、反复调用,就已经从“技术学习”转化为对作品独创性表达的市场化再现,应当受到著作权法约束。因此,三案共同说明,判断 AI 训练与生成行为是否构成著作权侵权,关键不在于是否使用了版权作品这一单一事实,而在于该使用是否导致作品独创性表达被输出、传播并替代性利用。
美国
美国部分选取Bartz v. Anthropic [4]与Kadrey v. Meta Platforms, Inc. [5]作为分析对象。这两个案件的争议重心更集中于输入端:未经许可复制完整书籍并用于训练大语言模型,是否可以构成美国版权法意义上的合理使用。选择这两个案件,是因为它们较清楚地展现了美国法院在处理 AI 训练纠纷时的基本分析框架,即围绕合理使用四要素,重点考察训练行为的转换性、训练作品的性质,完整复制的必要性,以及对潜在市场的影响。
案例一:Kadrey v. Meta Platforms, Inc.
【基本案情】
本案原告为 Richard Kadrey、Sarah Silverman 等十三名作家,被告 Meta Platforms, Inc. 是 Facebook、Instagram等平台的运营者,同时开发了名为Llama 的大语言模型。原告发现,Meta 训练数据的基础来源中包含名为“Books3”的子集,该数据集源自Shadow Libraries,其中收录了原告受版权保护的逾 666 部文学作品,且这些作品均未经权利人许可被非法传播。原告主张,Meta 未经授权将上述作品作为输入端训练数据进行数字化复制、存储并用于商业性 AI 模型的开发与运作,该行为跨越了“转换性使用”的边界,实质性侵害了原告对其作品享有的复制权及其他衍生权利。被告Meta 辩称,其复制书籍的目的并不是向公众提供这些书籍本身,而是为了训练大语言模型,因此属于转换性使用,应被认定为合理使用。双方因此分别提出部分简易判决动议,请求法院判断该复制行为是否构成合理使用。
【裁判要旨】
法院认为,在本案证据记录下,Meta 使用原告书籍训练 Llama 属于合理使用。但法院特别强调:这个结论不代表Meta 使用所有受版权保护作品训练 AI 都合法,也不代表AI 训练天然属于合理使用。法院围绕合理使用四要素展开分析。
因素一,使用目的与性质。法院认为,这一因素总体上有利于 Meta。原告作品主要是供读者阅读、欣赏,而 Meta 的使用则是将书籍作为训练数据,用于开发一种新的技术工具。Meta 复制原告书籍,并不是为了向公众提供这些书籍本身,也不是为了让用户通过 Llama 阅读或替代阅读原告作品,其使用目的与原告作品本身目的不同。法院据此认为,这种使用具有较强的“转换性”。不过,法院也承认 Meta 的使用具有商业性,因为 Meta 预计生成式 AI 会带来巨大经济收益。因此,第一因素并非完全倒向 Meta,但转换性的重要性使该因素整体支持 Meta。
因素二,受版权保护作品的性质。法院认为,这一因素支持原告。原告作品多为文字作品,属于具有较强创造性和表达性的作品类型。版权法对这类作品通常给予较强保护,因为它们体现了作者在语言、结构、叙事、人物塑造和表达方式上的原创性。Meta 不能简单地说自己只是利用书籍中的“信息”或“语言规律”,因为大语言模型训练本身正是通过作品中的词序、句法、语境、风格和表达结构来学习语言模式。因此,原告作品的创造性和表达性使第二因素倾向于原告。
因素三,使用部分的数量和实质性。法院认为,这一因素在形式上对原告有利,因为 Meta 复制的是整本书,而不是少量片段。一般而言,完整复制受版权保护作品会增加侵权风险。但法院同时指出,第三因素不能机械适用,而要结合使用目的来判断。如果某种转换性使用必须使用完整作品才能实现,例如训练大语言模型需要完整文本来学习长篇结构、上下文连续性等内容,那么复制全部作品并不必然排除合理使用。因此,虽然 Meta 使用了作品整体,但法院没有将这一点视为决定性因素,而是进一步将分析重点放在第四因素,即市场影响上。
因素四,对潜在市场或作品价值的影响。这是本案法院最重视的因素,也是本案胜负的关键。法院认为,在 AI 训练案件中,原告可以从几种角度证明市场损害:一是模型可能复现原作品,使用户不必购买原书;二是未经许可训练可能损害作者将作品授权给 AI 公司训练的许可市场;三是模型可能大量生成与原作品竞争的类似作品,造成市场稀释。法院认为,原告前两个角度都没有成功。关于复现,证据显示 Llama 无法输出原告作品中有意义的大段内容,最多只能生成很短片段,不足以替代原书。关于训练数据许可市场,法院认为原告不能仅仅因为 Meta 需要复制作品,就当然主张自己拥有一个受保护的 AI 训练授权市场,否则合理使用抗辩会被架空。法院承认,真正可能有力的是“市场稀释”理论,即 AI 模型可能大规模生成与人类作品竞争的文章,从而削弱作者市场和创作激励;但本案原告没有充分提出证据证明 Llama 的输出会实际稀释其作品市场。因此,第四因素最终没有支持原告,Meta 的合理使用抗辩成立。
案例二:Bartz v. Anthropic
【基本案情】
本案原告 Andrea Bartz、Charles Graeber 和 Kirk Wallace Johnson 是多部小说及非虚构作品的作者。被告 Anthropic PBC 是一家AI公司,其核心产品是生成式 AI 服务“Claude”。
为训练 Claude 背后的大语言模型,Anthropic 建立了内部“中央图书馆”,用于储存、检索并筛选书籍数据。其书籍来源主要有两类:一是从 Books3、Library Genesis、Pirate Library Mirror 等盗版图书库下载大量电子书,其中包括原告作品;二是购买大量纸质书,将其拆装、裁切并扫描成数字文件后收入中央图书馆,同时丢弃原纸质书。
原告作品被 Anthropic 复制并纳入中央图书馆,随后又被选入不同训练数据集,用于训练 Claude 背后的多个大语言模型。原告并未主张 Claude 向用户输出了其作品的完整复制件或实质性相似内容,而是认为 Anthropic 未经许可下载、保存并使用其作品训练商业化 AI 模型,侵犯其复制权。Anthropic 则主张,其训练 LLM 的行为具有高度转换性,且将购买的纸质书扫描成数字版本只是为了节省空间、方便检索,均应构成合理使用。
因此,本案在简易判决阶段主要区分三类行为进行判断:使用作品训练 LLM、将合法购买的纸质书数字化、以及从盗版来源下载并永久保存作品。法院没有将这些行为笼统视为“AI 训练”,而是分别评价其是否构成合理使用。
【裁判要旨】
法院认为,Anthropic 使用原告作品训练 Claude 背后的大语言模型,属于高度转换性使用。原告作品原本的功能是供人阅读、欣赏、获取信息或娱乐;而 Anthropic 的使用目的,是让模型学习语言结构、表达模式、事实组织和写作能力,从而生成新的文本回应。法院强调,原告并没有主张 Claude 向用户输出了其作品的完整复制件或实质性相似内容 ,因此本案不是输出端替代原作品的案件。法院围绕合理使用四要素展开分析。
因素一,使用目的与性质。法院认为,训练 LLM 的目的与原作品的阅读、欣赏或信息获取目的明显不同,具有极强的转换性,因此该因素支持 Anthropic。虽然 Anthropic 是商业公司,Claude 也面向付费用户并产生商业收入,但商业性并不足以压倒训练用途本身的转换性。
因素二,受版权保护作品的性质。法院承认,原告的小说和非虚构作品原则上属于版权法重点保护的对象,具有较强的创造性和表达性,因此该因素倾向于原告。不过,法院也认为,在本案整体合理使用分析中,第二因素并非决定性因素。
因素三,使用部分的数量和实质性。Anthropic 使用的是整本书,表面上看对其不利。但法院认为,训练大语言模型需要完整文本,以便模型学习上下文关系、文本结构、写作风格和语言规律。因此,完整复制与训练目的之间具有技术上的必要关联,并不当然排除合理使用的成立。
因素四,对潜在市场或作品价值的影响。法院认为原告未能证明明显的市场损害。关键在于,Claude 并未向用户输出原告作品的复制件,也没有生成可识别的实质性相似内容,因此缺乏直接替代原作品市场的证据。法院还指出,作者不能仅仅因为 AI 公司使用作品训练模型就当然主张存在一个受版权法保护的“训练数据授权市场”。否则任何未经许可的复制行为都可以被权利人转化为许可市场受损,从而架空合理使用制度。
因此,综合四项因素,法院认定 Anthropic 使用原告作品训练 LLM 的复制行为构成合理使用。至于 Anthropic 将合法购买的纸质书拆解、裁切并扫描成数字文件的行为,法院也认为可以构成合理使用,但该行为并非“模型训练”,而是内部保存和检索所需的“格式转换”。对于 Anthropic 从盗版网站下载并永久保存作品的行为,法院认为该行为不构成合理使用,但同样认定该行为不属于“训练 LLM”,而是一个独立的使用行为;由于该部分并非本文讨论重点,故不再展开。
【纵向对比与总结】
从两个案件的对比来看,美国法院并没有把AI 训练本身简单归入合法或侵权的任何一端,而是仍然回到传统合理使用四要素中进行判断。只是,在具体权衡时,法院更看重两个问题:第一,训练行为是否改变了作品原有的使用目的;第二,这种使用是否已经对原作品市场造成现实或可证明的替代性损害。
法院认可 LLM 训练具有较强转换性,因为模型训练并不是把相关作品重新提供给读者阅读,而是让模型学习语言结构、表达模式和文本组织方式,属于“转换性使用”。且两个案件都承认,大语言模型训练往往需要使用完整文本。虽然完整复制在形式上对被告不利,但如果不接触完整作品就无法实现训练目的,法院通常不会仅凭复制了完整资料这一点就否定合理使用。但是,合理使用的关键仍然要落到市场影响上。如果原告能够证明模型会输出原作的大段内容,或者生成与原作品实质性相似、足以替代原作的新内容,结论就可能不同。在Kadrey v. Meta中,法院没有接受原告的市场损害主张,主要不是因为这种损害理论完全不成立,而是因为原告没有拿出足够证据证明 Llama 的输出已经实际稀释或替代其作品市场。相比较之下,Bartz v. Anthropic的意义在于,它把AI 训练背后的不同复制行为拆分开单独分析。法院没有因为最终用途是训练模型,就把所有复制都一并纳入合理使用,而是分别评价训练行为、纸质书数字化行为和盗版来源下载行为。
因此,美国法院目前呈现出的思路是:在没有实质性相似输出、没有原作替代,也没有充分市场损害证据的情况下,训练 LLM 本身较可能被认定为合理使用;但如果存在被告从盗版来源取得作品并永久保存的类似情况,法院就可能把这些行为从“合理训练”中剥离出来,单独评价其侵权责任。
德国
由于AI训练数据引发的著作权纠纷仍处于司法探索阶段,相关生效裁判和典型案例相对有限,尤其是在欧洲范围内,直接围绕 AI 训练数据版权问题展开实体判断的案件尚不多见。基于此,本文仅选取德国GEMA 诉 OpenAI 案[6]作为分析对象。该案系欧洲首例针对生成式人工智能训练数据版权问题作出实质性判断的司法判决,集中涉及受保护歌词被纳入大语言模型训练数据、模型记忆化以及输出端再现等问题,具有较强的代表性和讨论价值。
案例:GEMA v. OpenAI
【基本案情】
本案原告 GEMA 是德国音乐著作权集体管理组织,被告为 OpenAI 相关公司,负责开发、运营并向欧洲经济区及德国用户提供基于大语言模型的生成式 AI 聊天机器人服务。
争议作品包括九首德国知名歌曲歌词。GEMA 主张,这些歌词未经许可被纳入 OpenAI 的训练数据,并在 GPT-4、GPT-4o 等模型中被“记忆化”,使模型能够在用户输入简单提示词时输出与原歌词相同或高度相似的内容。GEMA 主张,OpenAI 的行为至少构成两类侵权:第一,在模型内部未经许可复制、固定涉案歌词;第二,在聊天机器人的输出端向用户再现或改写歌词,构成复制、改编及向公众提供。被告则抗辩称,大语言模型并不是数据库,模型参数只是反映从训练语料中学习到的统计关系,并未存储或复制特定歌词;输出结果是根据用户提示动态生成,并非对训练数据的直接复制。此外,被告还主张相关训练行为可适用德国著作权法中的文本与数据挖掘例外,即 §44b UrhG 或 §60d UrhG。
【裁判要旨】
法院经审理认为,模型内部的记忆化结果可以落入复制权的评价范围。著作权法意义上的“复制”并不以作品必须被保存为人类可直接读取的形式为必要。只要作品内容通过技术手段被固定于某一载体或系统之中,并能够在后续操作中再现,即可能构成复制权控制下的复制行为。因此,涉案歌词虽并非以完整文本文件形式存储于模型中,但其能够在特定提示词作用下由模型再次输出,足以表明作品表达已在模型中形成可再现的固定状态。
关于文本与数据挖掘例外,法院并未当然否定 AI 训练与文本数据分析之间的关系,但对其适用范围作出了限制。法院认为,文本与数据挖掘例外旨在允许对作品进行自动化分析,以提取模式、趋势或相关信息,并不当然涵盖训练完成后作品表达被模型实质性保留并可向外部用户再现的情形。本案中,争议焦点已非单纯抓取、清洗或分析训练数据,而是涉案歌词在模型中被记忆化,并在输出端以相同或实质相似方式重新呈现。该种使用已经超出单纯信息分析的范围,直接触及作品表达本身的再利用,故不能当然适用文本与数据挖掘例外予以免责。
在输出端行为的认定上,法院进一步认为,聊天机器人生成并向用户展示涉案歌词或其变形文本,构成著作权侵权。即便相关输出并非逐字完整复制,而是存在删减、错漏、替换或所谓“幻觉”内容,只要其中仍可识别出原歌词中具有独创性的表达部分,即不影响侵权判断。法院因而支持原告关于停止未经许可在大语言模型中复制涉案歌词、停止在聊天机器人输出中复制、公开提供或改写涉案歌词的主要诉讼请求,并判令被告承担信息披露义务,确认其损害赔偿责任。但对于原告基于人格权、错误署名等提出的部分请求,法院未予支持。
【总结】
总体来看,GEMA v. OpenAI体现出德国法院在AI版权纠纷中较为鲜明的权利保护取向。法院并未将该案宽泛地定性为一般意义上的“AI 训练是否侵权”问题,而是抓住“记忆化”这一关键事实展开论证:当受保护作品不仅被纳入训练集,且以可再现的方式固化于模型参数中,并能通过特定提示词在输出端复现时,该种模型内部状态即已触及著作权法意义上的复制。这一逻辑将“可再现性”视为判断模型内部复制的核心标准,强调只要作品表达能被再次感知,便应纳入复制权的规制范畴。
同时,本案也反映出德国法院对文本与数据挖掘例外条款(TDM)的限制性解释。法院明确区分了“为分析而进行的预备性复制”与“训练后作品表达被模型记忆并可再现”两类行为。前者主要服务于信息提取、语义分析和模式识别,尚可纳入 TDM 例外的规范目的;后者则已经不再是单纯分析作品中包含的信息,而是使作品表达本身以新的技术形态被固定并持续可用,直接触及权利人的作品利益。因此,法院拒绝将 TDM 例外扩张适用于模型中的永久性或可再现性复制,体现出德国司法对于著作权限制制度的审慎态度。
综上,德国司法倾向于构建一种以作者为中心的严格保护模式。 法院将“记忆化—可再现—输出”锚定为一个闭环的侵权评价链条。这种取向并非否定技术进步,而是明确了技术创新的红线,即模型的技术复杂性或数据规模不能成为消解原创表达控制权的借口。这充分体现了欧洲司法实践在 AIGC 浪潮下,对权利人作品控制权的强烈保护立场。
【中、美、德案例横向对比】
通过对中、美、德三国典型案例的深入解析,我们可以清晰地观察到,各国司法机构在处理“AI训练数据”这一前沿法律问题时,既展现出了对技术发展的共识性宽容,也在权利保护边界的划定上呈现出显著的法域特色。以下是对三国裁判逻辑的横向对比分析与总结:
一、 中、美、德三国裁判逻辑横向对比表

二、 中、美、德三国裁判逻辑具体分析
通过对中国、美国与德国的相关案例比较可以发现,三国法院都没有简单地以“是否使用版权作品训练 AI”作为唯一判断标准,而是分别从不同制度入口切入,对 AI 训练数据著作权纠纷进行类型化处理。中国裁判更强调“输入端训练”与“输出端生成”的区分,美国裁判倾向于以合理使用四要素为核心展开利益衡量,德国裁判则围绕文本与数据挖掘例外的边界,以及作品在模型中是否形成“可再现”的固定状态展开判断。三者虽然都试图回应 AI 技术发展与著作权保护之间的冲突,但在行为定性、侵权判断重点与价值取向上呈现出一定差异。
对输入端行为的定性上,三国差异十分明显。中国法院目前并不倾向于将作品被投入模型训练本身当然认定为侵权。无论是杭州“奥特曼”案还是上海“美杜莎”案,法院关注的重点都不是单纯的训练行为,而是训练后的 LoRA 模型是否能够稳定生成与权利作品实质性相似的图像,以及相关图像是否被发布、分享或反复调用。换言之,在中国案例中,输入端训练行为的违法性通常需要通过输出端结果加以具体化。美国法院则更聚焦输入端的训练行为,且对输入端复制行为的态度更为宽容,即使被告完整复制了原告作品,只要其目的并非重新向公众提供原作品,而是为了训练模型,使模型学习语言结构、表达模式或文本组织方式,并且没有证据证明其造成了市场替代,法院仍可能认定其构成合理使用。德国法院则采取更严格的判断方式,如果作品只是被临时复制、分析和用于模式提取,可能仍处于 TDM 例外的范围内;但一旦作品表达在模型中形成可再现的固定状态,并可以通过提示词再次输出,就可能突破文本数据挖掘例外的边界,进入复制权侵权评价。
在认定侵权的关键点上,中国更重视“输出结果”。也就是说,判断 AI 训练与生成行为是否构成侵权,关键不在于模型是否曾接触或使用版权作品,而在于最终输出内容是否再现了原作品的独创性表达,是否与原作品构成实质性相似,以及相关输出是否被进一步传播。美国的关键判断点则在于“使用目的与市场影响”。法院会重点考察训练行为是否具有转换性,即是否改变了原作品的使用功能,同时考察模型输出是否会替代原作品市场,或者是否造成有证据支持的市场稀释。德国的关键点不在于传统意义上的市场替代,而在于作品是否被模型“记忆化”并处于“可再现”状态。德国法院认为,如果模型能够在特定提示词下输出与原作品相同或高度相似的内容,就说明作品表达已经以某种技术形式被固定在模型内部,从而触及复制权控制范围。
在价值取向上,中国呈现出一种动态平衡式的裁判思路。中国法院一方面承认生成式 AI 的发展确实需要大量数据,不宜将训练行为本身一概认定为侵权;另一方面也强调,如果模型被用于定向生成特定 IP 形象,并导致作品表达被反复再现和传播,就不能再以技术创新或学习训练作为抗辩。这种思路试图在保障 AI 技术开发所需数据与防止特定作品被“定向洗稿”之间寻求平衡。美国的取向则更偏向创新激励。只要 AI 训练创造了新的技术功能,且原告无法证明模型输出对原作品市场造成实质替代,法院往往不愿过度限制研发过程。但这并不意味着美国法院完全忽视权利人利益,因为一旦出现大段复现、实质性相似输出或可证明的市场稀释,合理使用结论仍可能发生变化。德国则体现出更强的作者权利保护取向。GEMA 案中的裁判逻辑表明,德国法院更重视作者对作品表达的控制权,尤其警惕技术复杂性掩盖作品表达被固定、记忆和再现的事实。
综上,三国裁判逻辑可以概括为三种不同模式:中国是“输出结果中心型”,强调训练行为与侵权输出之间的事实联结;美国是“合理使用衡量型”,强调转换性目的与市场影响;德国则是“可再现性控制型”,强调模型内部是否形成对作品表达的固定和记忆。三种路径各有侧重:中国方案更适合处理图像生成、角色形象复刻等输出端高度可见的案件;美国方案更适合处理大语言模型训练中大规模文本复制的合法性问题;德国方案则为模型“记忆化”与输出端复现提供了更严格的权利保护框架。由此可见,AI 训练数据著作权纠纷的未来裁判方向,不应停留在“训练是否当然侵权”或“训练是否当然合理使用”的二元判断,而应当沿着“输入复制—模型固定—输出再现—市场影响”的链条,对不同阶段、不同风险和不同利益损害进行分层评价。
三、核心争议点的深度辨析
在2026年4月29日上海市高级人民法院对“美杜莎”案作出的二审判决中,法院通过提出“复制权的本质是再现权”这一极具前瞻性的论断,为中国人工智能著作权纠纷的裁判逻辑确立了新的法理基石。上海高院认为,涉案模型“记住”的是抽象的统计规律而非原图的直接编码,只有当输出物最终再现了原作品,并使他人能够接触到该作品时,法律意义上的复制行为才宣告完成。虽同为“再现”,但上海“美杜莎”案中的“再现”与德国GEMA案的“可再现”存在一定差异。
这一区别首先体现在“再现”的法律完成时点上。德国 GEMA 案中的“可再现”,强调的是模型内部状态本身。只要受保护作品的表达已经以某种技术形式被固定于模型参数之中,并能够在特定提示词作用下被重新输出,即可认为作品处于一种可被调用、可被复现的状态。换言之,德国法院并不要求权利人必须等到每一次具体侵权输出发生之后,才可以主张复制权受到侵害;模型参数本身能否承载并复现作品表达,已经成为复制权评价的核心事实。
而上海“美杜莎”案中的“再现”,则更强调输出端结果的实际呈现。上海高院虽然同样承认复制权的本质在于使作品表达再次出现,但其并未将模型训练阶段的参数提取直接等同于作品复制。法院将涉案 LoRA 模型训练理解为对图像特征、风格规律和视觉元素的抽象学习,而非对原图作品的压缩存储。只有当模型在用户指令下生成了与原作品构成实质性相似的图片,使原作品的独创性表达重新进入他人可感知范围时,复制权意义上的“再现”才真正完成。
因此,德国 GEMA 案中的“可再现”是一种状态导向的判断,其重点在于模型是否已经具备复现作品表达的能力;而中国美杜莎案中的“再现”则是一种结果导向的判断,其重点在于模型是否已经实际输出了可以与原作品进行比对的表达结果。前者将复制权保护提前至模型内部“记忆化”阶段,防止作品表达以参数形式被隐蔽固定;后者则将侵权判断落实到具体生成结果之中,避免因模型曾经接触或学习作品而过度扩大复制权控制范围。
由此可见,二者并非都在否认或确认 AI 训练复制,而是在复制权保护应当延伸到何处这一问题上采取了不同答案。德国路径可以概括为“记忆化—可再现—复制”,即模型内部形成可复现能力本身即可能触发复制权;中国路径则可以概括为“训练输入—生成输出—实质性相似—复制”,即训练只是技术过程,侵权判断仍需通过输出端再现加以确认。这也体现了两国对 AI 训练行为问题的价值取向,前者更偏向权利本位,后者更体现技术包容与结果规制之间的平衡。
案例参考来源:
[1] 上海新创华文化发展有限公司诉广州年光公司网络侵权责任纠纷案,参见(2024)粤0192民初113号民事判决书。
[2] 上海某文化发展有限公司诉杭州某智能科技有限公司著作权侵权及不正当竞争纠纷案,参见(2024)浙01民终10332号民事判决书。
[3] 参见上海高院公众号推送:《用AI“复刻”美杜莎动漫角色,算侵权吗?上海首例人工智能大模型著作权侵权案二审宣判!》
[4] Bartz v. Anthropic PBC, 3:24-cv-05417, (N.D. Cal.)
[5] Kadrey v. Meta Platforms, Inc., 3:23-cv-03417, (N.D. Cal.)
[6] GEMA v. OpenAI, No. 42 O 14139/24 (Landgericht München I [LG] [Munich Regional Court I] Nov. 11, 2025) (Ger.).

作者:华东政法大学智能法24级研 陈艺萱
责任编辑:丁畅
夜雨聆风