【导语】数据是AI的燃料,但用错燃料可能引发火灾。本期我们聚焦《示范法》第2章(第15-38条),其中最具突破性的是:“法定许可”与“开源合理使用”两种训练数据合法化路径。核心结论:现行法律框架下,企业无法仅凭“法定许可”或“合理使用”完全解决数据版权问题。但按照《示范法》指引提前搭建合规体系,是避免“奥特曼案”式侵权风险的唯一出路。

一、训练数据的“融资”难题:现状与风险
《人工智能示范法4.0(2026)》(https://mp.weixin.qq.com/s?__biz=MzA4NTU1MjEyOQ==&mid=2649869318&idx=1&sn=75e9cbc6d7a07a34f41174739c08b9dc&chksm=866220e0eb42b14b88b26e277df2381c530cb8ea0419e45e10ef5e905bc275fd2c39605d7264&scene=27)。AI训练数据面临的核心法律困境是三部法律的交叉影响:
1.著作权法:未经授权使用他人作品训练模型,可能构成侵权。
2.个人信息保护法:使用个人信息进行模型训练,原则上需要“单独同意”,尤其是敏感个人信息。
3.反不正当竞争法:大规模爬取他人平台数据,可能构成不正当竞争。
《示范法》试图用一种“三位一体”的方案来解决这个“数据融资”难题。
二、三大创新制度详解
1. 法定许可:未来之路(第24条)
原文:“……可根据法定许可在模型训练过程中使用已发表作品。”
律师解读:
法律现状:该制度目前仅为立法建议,现行《著作权法》并未设置“模型训练法定许可”。企业不能以此为由直接使用他人作品。
实操建议:目前的替代方案是:
批量授权:主动联系音著协、文著协等著作权集体管理组织,查询有无批量许可通道。
黑名单避让:对于像“奥特曼”、“迪士尼”等知名IP,权利人通常会明确声明“禁止用于模型训练”,必须严格规避。这正是前文案例03(洛丽塔案)的核心规则。
行动预案:如果未来立法通过,企业应提前建立“训练数据源权利状态登记册”,记录每批数据的来源、是否已付费、是否有禁止声明。
2.开源模型合理使用:有条件的“绿灯”(第25条)
原文:“开源基础模型研发者利用合法获取的作品进行模型训练……可不经授权且不支付报酬。”
律师解读:
两个必须满足的前提:
1.模型必须“开源”:指模型权重(Weights)公开,且其许可证允许商业用途和修改(例如,Apache 2.0、MIT等)。需特别注意,Llama 3的社区许可证明确禁止特定商业用途。
2.数据必须“合法获取”:这是底线。通过爬取未授权网站(如有偿文库、独家作品集)获得的全文内容,不属于“合法获取”。
律师建议:在引入任何开源模型前,法务部门必须逐条审核其许可证,确认其商业使用限制。同时,记录训练数据爬取的全过程,以证明其“合法性”。
3.去标识化豁免同意:有限度的“例外”(第19条)
原文:“采用符合国家标准的去标识化技术……取得认证后,不需取得个人同意。”
律师解读:
法律现状:目前这是政策建议,并非现行法。司法实践中,对于使用涉及营销记录、客服对话等客户数据进行的模型微调,法院倾向于要求获得用户的“单独同意”(特别是涉及《个人信息保护法》第28条定义的敏感信息,如生物识别、行踪轨迹)。
安全线:在企业遵守“单独同意”规定的前提下,可优先使用公开的、非敏感的数据进行预训练;对于使用员工或客户数据进行的微调,必须签署明确的、可撤回的“单独同意书”,并明确数据使用范围和删除权。
三、关联案例:奥特曼LoRA案(案例03)的合规启示
案情:平台允许用户上传“奥特曼”形象训练其私家小模型(LoRA),并公开分享。
结果:法院认定平台构成“帮助侵权”。
合规启示:该案的判决直接对应《示范法》第24条的“禁止声明”规则。企业应从该案吸取教训:
建立“知名IP黑名单”:禁止用户上传此类内容进行模型微调。
区分使用场景:对用户微调模型,宜设置为“默认私用”,若用户希望公开分享,则需通过人工或自动化审核。
四、司法创新规则提炼
·规则V(训练数据分层处理):基础模型训练数据应区分:(a)已进入公有领域/CC0协议数据,可自由使用;(b)知名受保护作品,应避免使用,否则需获得授权;(c)用户上传的微调数据,平台应设立“禁止知名IP”规则,并建立“通知-删除”机制。
·规则VI(开源不等于数据自由):模型权重开源,不等于其训练数据可以侵权获取。爬取数据的合法性是判断是否侵权的关键。
五、给您的律师建议与SOP
作为您的AI律师,我建议立即建立以下合规记录(台账),这是企业证明自身“已尽到合理注意义务”的关键证据:
1.训练数据源台账:记录每批数据的具体来源(网址、数据库名)、是否为公开许可、是否含有“禁止训练”声明、数据处理方式(是否去标识化)。
2.IP黑名单库:建立并定期更新国内外的知名IP(影视、文学、游戏、形象)清单,并在预训练和微调环节进行过滤。
3.开源许可证审查清单:在引入任何开源模型前,法务部门必须填写该清单,确认其商业使用权限、修改限制、署名要求。
4.用户同意合规文件:如果使用用户数据进行微调,务必签署符合《个人信息保护法》规定的、可随时撤回的“单独同意书”。
5.立法跟踪备忘录:安排专人跟踪《著作权法》和《人工智能促进法》的立法动态,特别是关于“模型训练法定许可”的进展,并及时调整公司策略。

六、结语:法律是数据流的“油管”
《示范法》第2章提出的“法定许可 + 开源合理使用 + 去标识化豁免”三位一体方案,是解决AI发展核心瓶颈——“合法数据短缺”问题的有益探索。虽然这些条款目前仍是“立法建议”,但其背后体现的规则逻辑(分层处理、尊重原作者明示禁止、用户同意优先)已被司法实践反复确认。
作为您的律师,我的建议是:不要等待法律生效,而是立即搭建“提前合规”的台账与流程。这不仅是风险规避,更是向客户展示律师前沿服务能力的宝贵机会。
夜雨聆风