AI 合规系列 (四):购买数据集的相关概念和法律风险分析之二-夜雨聆风

AI 合规系列 (四):购买数据集的相关概念和法律风险分析之二

续前文

AI 合规系列（一）：人工智能训练数据从哪里来

AI 合规系列（二）：企业自行采集人工智能的训练数据的法律分析

AI 合规系列（三）：购买数据集的相关概念和法律风险分析之一

本篇继续介绍购买数据集的法律风险。

三、第二重风险：授权范围不足

购买数据集的第二个风险，是合同授权范围不足。

很多数据采购合同会写数据来源合法、买方可以使用数据、供应商保证不侵犯第三方权利。这样的表述有用，但远远不够。训练数据的使用方式比普通数据分析复杂得多，如果授权条款没有把训练用途说清楚，后续很容易产生争议。

常见的授权缺口包括：

• 只允许内部研究，不允许商业化模型训练；
• 只允许数据分析，不允许进入参数训练；
• 只允许检索、展示或统计，不允许复制、清洗、标注和再加工；
• 只允许单一项目使用，不允许多个模型复用；
• 只允许买方本公司使用，不允许集团共享；
• 只允许本地部署，不允许上传云训练平台；
• 只允许人工使用，不允许机器学习训练；
• 只允许评测，不允许微调；
• 只允许短期使用，不允许长期留存；
• 只允许非商业用途，不允许生成式 AI 服务商业化；
• 只允许买方自用，不允许提供给第三方标注公司、外部评测机构或者模型厂商；
• 只允许使用特定版本，不允许使用后续更新数据。

这些差异在传统数据服务中也许不突出，但在模型训练中会被放大。因为模型训练区别于一次性查看数据，通常会把数据转化为训练样本、标签、嵌入向量、参数更新、评测基准和模型能力。即便原始数据最终不以完整形态保存在模型中，训练过程中通常也会发生复制、缓存、格式转换和中间结果保存。对于包含作品的数据集，还可能涉及《著作权法》第十条中的复制权、改编权、汇编权、信息网络传播权等权利；许可使用或转让合同中未明确许可、转让的权利，未经权利人同意，另一方不得行使，这可以从《著作权法》第二十六条至第二十九条得到支撑。

在买卖合同中，训练用途应当被明确列出，而不能从数据使用、算法开发、产品优化等笼统表述中当然推出。尤其是以下事项，建议单独写明：

• 数据是否可以用于预训练；
• 数据是否可以用于微调或指令调优；
• 数据是否可以用于 RAG 知识库或向量库；
• 数据是否可以用于评测集、基准集或红队测试；
• 数据是否可以用于偏好数据、强化学习或者人工反馈训练；
• 数据是否可以与其他数据集合并；
• 数据是否可以用于商业化模型或对外提供服务；
• 数据是否可以用于基础模型、行业模型或者客户定制模型；
• 数据是否可以由第三方标注、托管、清洗、训练或者评测；
• 数据使用期限、保存期限和合同终止后的删除义务；
• 权利人投诉、上游撤回、监管要求删除时，买方如何停止使用或删除相关样本。

更稳妥的写法，是明确买方有权在特定期限、地域、主体范围、系统环境和训练目的下，对数据进行复制、清洗、标注、格式转换、抽样、去标识化、嵌入化、向量化、训练、微调、评测和商业化部署，而不是笼统写成“买方有权使用数据”。

授权越具体，后续争议越少。

四、第三重风险：个人信息

购买数据集中如果包含个人信息，交易就不再只是商业采购问题，而会同时进入个人信息保护法框架。

《个人信息保护法》第四条规定了个人信息和个人信息处理的范围；第五条至第七条确立合法、正当、必要、诚信、目的明确、最小必要、公开透明等原则；第十三条列明个人信息处理依据；第十四条、第十五条、第十七条分别涉及同意、撤回同意和告知；第十九条规定保存期限；第二十条、第二十一条、第二十三条分别涉及共同处理、委托处理和向其他个人信息处理者提供；第二十七条处理已公开个人信息；第二十八条至第三十一条涉及敏感个人信息和未成年人个人信息。

购买数据集中如果包含个人信息，买方不能只依赖供应商的概括保证。

首先要审查供应商收集、保存、清洗、标注、出售或者许可该数据集时是否具有《个人信息保护法》第十三条下的处理依据；其次要审查供应商向买方交付数据属于委托处理、共同处理、向其他个人信息处理者提供，还是其他数据流转安排；最后还要审查买方取得数据后是否具有独立处理依据。

个人信息处理依据不会因数据集买卖而自动由供应商传递给买方，尤其当买方拟将数据用于模型训练、微调、评测、RAG 知识库或者商业化部署时，更应单独审查训练目的、处理方式、个人信息种类、保存期限和用户权利响应机制。

如果供应商主张数据来源于已公开个人信息，买方也不能认为该数据集可自由训练。《个人信息保护法》第十三条第六项和第二十七条允许在合理范围内处理个人自行公开或者其他已经合法公开的个人信息，但个人明确拒绝的除外；处理已公开个人信息对个人权益有重大影响的，还应依法取得个人同意。因此，公开状态只能降低取得环节的部分障碍，不能替代合理范围、个人拒绝、重大影响、敏感信息和训练用途审查。

买方还要关注数据交付的法律关系。交付可能构成委托处理、共同处理、向其他个人信息处理者提供，或者在特定情况下涉及个人信息出境。不同关系对应的义务不同。委托处理要约定处理目的、期限、方式、个人信息种类、保护措施和双方权利义务；共同处理要约定各自权利义务；向其他个人信息处理者提供，通常要向个人告知接收方信息、处理目的、处理方式和个人信息种类，并取得个人单独同意；跨境提供个人信息还需满足《个人信息保护法》第三十八条至第四十条等规则。

《网络数据安全管理条例》第八条禁止窃取或者以其他非法方式获取网络数据、非法出售或者非法向他人提供网络数据等非法网络数据处理活动；第十二条要求网络数据处理者向其他网络数据处理者提供、委托处理个人信息和重要数据的，应通过合同等约定处理目的、方式、范围和安全保护义务，并保存处理情况记录；第十九条要求提供生成式人工智能服务的网络数据处理者加强训练数据和训练数据处理活动安全管理；第二十一条至第二十四条则进一步细化个人信息处理规则、同意规则、权利响应以及删除或匿名化要求。

所以，个人信息数据集采购不能只依靠供应商一句已脱敏或来源合法。

买方需要看脱敏是否达到匿名化程度，是否仍可通过账号、设备号、手机号、订单号、地理位置、上下文或者外部数据库重新识别自然人。只要仍属于个人信息，就需要处理依据、告知、最小必要、保存期限、安全措施和用户权利响应。

敏感个人信息尤其要谨慎。医疗健康、金融账户、行踪轨迹、生物识别、特定身份、不满十四周岁未成年人个人信息等，如果进入训练集，不能只按一般个人信息处理。相关项目通常还要考虑单独同意、专门规则、严格保护措施和个人信息保护影响评估。

五、第四重风险：作品、代码和内容权利瑕疵

购买数据集的另一个高频风险是知识产权。

文本语料、图片样本、音频、视频、代码、新闻、论文、图书片段、问答内容、评论、设计图、产品图、地图、插画、字幕、课件，都可能构成著作权法意义上的作品。《著作权法》第三条规定作品类型，第十条列明著作权内容，其中复制权、改编权、汇编权、信息网络传播权等，都会影响训练数据的使用边界。

在数据集采购中：

第一，公开可见不等于自由训练。网页、论文、新闻、论坛、图片站、代码仓库中的内容，即便可以被普通用户访问，也不意味着供应商可以打包出售，更不意味着买方可以用于模型训练。公开传播解决的是可访问性，不自动解决复制、清洗、标注、训练和商业化授权问题。

第二，供应商交付语料不等于拥有训练授权。供应商可能只是抓取、聚合或整理了第三方内容，并未取得权利人许可。尤其是海量文本、图片和代码数据集，权利人分散、授权层级复杂、使用限制多样，供应商很难用一份概括性承诺覆盖全部训练用途。

第三，合理使用不能被当作采购前提。在现行《著作权法》框架下，商业化大模型训练是否可以落入既有合理使用规则，仍不宜作确定性推断。采购数据集时，买方不应把合理使用作为供应商无需取得授权的默认前提。若项目拟以合理使用、非作品性使用或者技术性使用作为风险抗辩，应当在采购前单独形成法律评估，而不是用概括性合同保证替代授权审查。

数据集供应商对清洗规则、分类体系、标注体系、样本选择、字段结构或者数据编排可能享有一定成果权益，特定情况下还可能构成汇编作品。《著作权法》第十五条规定，汇编若干作品、作品片段或者不构成作品的数据或者其他材料，对其内容的选择或者编排体现独创性的，可以构成汇编作品；但行使汇编作品著作权时不得侵犯原作品著作权。也就是说，供应商可能有权许可其标注成果或编排成果，却未必有权许可买方对底层文本、图片、音频、视频或代码进行模型训练。

第四，代码数据集还要单独审查开源许可。开源不等于无条件可用。不同许可证对复制、修改、分发、署名、相同方式共享、专利授权、商用限制等要求不同。即便代码可以公开下载，也要看训练、微调、模型输出、代码补全产品是否触发相应许可证义务。对于含有 GPL、AGPL、CC BY-NC、CC BY-SA 等限制的数据集，买方更要确认训练用途、商业用途和后续输出是否与许可条款相容。

第五，还要注意 CC 协议。部分开放内容允许复制、传播或改编，但可能附带署名、非商业使用、禁止演绎、相同方式共享等条件。训练数据采购合同如果只写供应商保证数据可用，却不说明数据集中开放许可内容的比例、类型和限制，买方在商业化训练和模型输出阶段仍可能面临合规压力。

与作者交流：

续前文