AI领域法律研究系列之七十三:《人工智能示范法4.0(2026)》系列解读第二讲|支持与促进:开源与训练数据的合规之道

【导语】数据是AI的燃料，但用错燃料可能引发火灾。本期我们聚焦《示范法》第2章（第15-38条），其中最具突破性的是：“法定许可”与“开源合理使用”两种训练数据合法化路径。核心结论：现行法律框架下，企业无法仅凭“法定许可”或“合理使用”完全解决数据版权问题。但按照《示范法》指引提前搭建合规体系，是避免“奥特曼案”式侵权风险的唯一出路。

一、训练数据的“融资”难题：现状与风险

《人工智能示范法4.0（2026）》（https://mp.weixin.qq.com/s?__biz=MzA4NTU1MjEyOQ==&mid=2649869318&idx=1&sn=75e9cbc6d7a07a34f41174739c08b9dc&chksm=866220e0eb42b14b88b26e277df2381c530cb8ea0419e45e10ef5e905bc275fd2c39605d7264&scene=27）。AI训练数据面临的核心法律困境是三部法律的交叉影响：

1.著作权法：未经授权使用他人作品训练模型，可能构成侵权。

2.个人信息保护法：使用个人信息进行模型训练，原则上需要“单独同意”，尤其是敏感个人信息。

3.反不正当竞争法：大规模爬取他人平台数据，可能构成不正当竞争。

《示范法》试图用一种“三位一体”的方案来解决这个“数据融资”难题。

二、三大创新制度详解

1. 法定许可：未来之路（第24条）

原文：“……可根据法定许可在模型训练过程中使用已发表作品。”

律师解读：

法律现状：该制度目前仅为立法建议，现行《著作权法》并未设置“模型训练法定许可”。企业不能以此为由直接使用他人作品。

实操建议：目前的替代方案是：

批量授权：主动联系音著协、文著协等著作权集体管理组织，查询有无批量许可通道。

黑名单避让：对于像“奥特曼”、“迪士尼”等知名IP，权利人通常会明确声明“禁止用于模型训练”，必须严格规避。这正是前文案例03（洛丽塔案）的核心规则。

行动预案：如果未来立法通过，企业应提前建立“训练数据源权利状态登记册”，记录每批数据的来源、是否已付费、是否有禁止声明。

2.开源模型合理使用：有条件的“绿灯”（第25条）

原文：“开源基础模型研发者利用合法获取的作品进行模型训练……可不经授权且不支付报酬。”

律师解读：

两个必须满足的前提：

1.模型必须“开源”：指模型权重（Weights）公开，且其许可证允许商业用途和修改（例如，Apache 2.0、MIT等）。需特别注意，Llama 3的社区许可证明确禁止特定商业用途。

2.数据必须“合法获取”：这是底线。通过爬取未授权网站（如有偿文库、独家作品集）获得的全文内容，不属于“合法获取”。

律师建议：在引入任何开源模型前，法务部门必须逐条审核其许可证，确认其商业使用限制。同时，记录训练数据爬取的全过程，以证明其“合法性”。

3.去标识化豁免同意：有限度的“例外”（第19条）

原文：“采用符合国家标准的去标识化技术……取得认证后，不需取得个人同意。”

律师解读：

法律现状：目前这是政策建议，并非现行法。司法实践中，对于使用涉及营销记录、客服对话等客户数据进行的模型微调，法院倾向于要求获得用户的“单独同意”（特别是涉及《个人信息保护法》第28条定义的敏感信息，如生物识别、行踪轨迹）。

安全线：在企业遵守“单独同意”规定的前提下，可优先使用公开的、非敏感的数据进行预训练；对于使用员工或客户数据进行的微调，必须签署明确的、可撤回的“单独同意书”，并明确数据使用范围和删除权。

三、关联案例：奥特曼LoRA案（案例03）的合规启示

案情：平台允许用户上传“奥特曼”形象训练其私家小模型（LoRA），并公开分享。

结果：法院认定平台构成“帮助侵权”。

合规启示：该案的判决直接对应《示范法》第24条的“禁止声明”规则。企业应从该案吸取教训：

建立“知名IP黑名单”：禁止用户上传此类内容进行模型微调。

区分使用场景：对用户微调模型，宜设置为“默认私用”，若用户希望公开分享，则需通过人工或自动化审核。

四、司法创新规则提炼

·规则V（训练数据分层处理）：基础模型训练数据应区分：（a）已进入公有领域/CC0协议数据，可自由使用；（b）知名受保护作品，应避免使用，否则需获得授权；（c）用户上传的微调数据，平台应设立“禁止知名IP”规则，并建立“通知-删除”机制。

·规则VI（开源不等于数据自由）：模型权重开源，不等于其训练数据可以侵权获取。爬取数据的合法性是判断是否侵权的关键。

五、给您的律师建议与SOP

作为您的AI律师，我建议立即建立以下合规记录（台账），这是企业证明自身“已尽到合理注意义务”的关键证据：

1.训练数据源台账：记录每批数据的具体来源（网址、数据库名）、是否为公开许可、是否含有“禁止训练”声明、数据处理方式（是否去标识化）。

2.IP黑名单库：建立并定期更新国内外的知名IP（影视、文学、游戏、形象）清单，并在预训练和微调环节进行过滤。

3.开源许可证审查清单：在引入任何开源模型前，法务部门必须填写该清单，确认其商业使用权限、修改限制、署名要求。

4.用户同意合规文件：如果使用用户数据进行微调，务必签署符合《个人信息保护法》规定的、可随时撤回的“单独同意书”。

5.立法跟踪备忘录：安排专人跟踪《著作权法》和《人工智能促进法》的立法动态，特别是关于“模型训练法定许可”的进展，并及时调整公司策略。

六、结语：法律是数据流的“油管”

《示范法》第2章提出的“法定许可 + 开源合理使用 + 去标识化豁免”三位一体方案，是解决AI发展核心瓶颈——“合法数据短缺”问题的有益探索。虽然这些条款目前仍是“立法建议”，但其背后体现的规则逻辑（分层处理、尊重原作者明示禁止、用户同意优先）已被司法实践反复确认。

作为您的律师，我的建议是：不要等待法律生效，而是立即搭建“提前合规”的台账与流程。这不仅是风险规避，更是向客户展示律师前沿服务能力的宝贵机会。