乐于分享
好东西不私藏

实务指南 | AI训练数据合规:数据采购→授权链→合成数据全链路

实务指南 | AI训练数据合规:数据采购→授权链→合成数据全链路

背景:为什么训练数据合规是AI出海的生死线

2024年以来,中国AI企业出海面临的核心挑战已从”模型能力”转向”合规能力”。欧盟、中国、美国三大司法辖区均已明确:训练数据的来源合法性,是AI产品能否进入当地市场的底层前提。

根本逻辑在于:一旦模型训练使用了非法数据,整个模型的合法性均受质疑。 反映在监管层面:

  • 欧盟:GDPR Art. 22赋予数据主体对自动化决策的拒绝权,训练数据不合规,模型本身就缺乏合法基础;
  • 美国:FTC持续关注训练数据中的隐私侵权问题,2023年对多家AI公司的执法均从数据来源切入;
  • 中国:《生成式人工智能服务管理暂行办法》明确要求用于训练的数据应当真实、准确、客观、合法。

一、训练数据的合法性基础:四类路径与场景选择

合法性基础
适用场景
核心要求
数据主体明确授权
用户行为数据、社交媒体数据、医疗健康数据等
授权必须具体、知情、可撤回
合同必要
用户主动使用服务时产生的数据
限于合同履行所必需的数据处理
合法利益
内部分析、安全防护、欺诈检测等低敏感场景
须做三步测试:目的正当→手段必要→利益与基本权利平衡
公共数据集
已公开的文本、图像、知识库等
须核实”公开”不等于”无限制使用”,仍需核查平台服务条款

实操建议:

  1. 优先获取明确授权:对于出海AI产品,最稳健的路径是获取数据主体的单独同意,尤其是处理敏感数据时。
  2. 公共数据集不等于免费午餐:Common Crawl、Wikipedia等开放数据集均有各自的使用条款,需逐一核查。以Wikipedia为例,其内容遵循CC BY-SA 4.0协议,用于商业训练须注意传染性。
  3. 合法利益需留存三步测试文档:建议在Data Protection Impact Assessment(DPIA)中专项记录,并设置定期复核机制。

二、数据采购合同的关键条款

从第三方采购训练数据时,合同是锁定合规责任的核心工具。以下条款不可或缺:

  1. 授权范围条款

    • 明确数据可用于模型训练,而非仅限数据分析或服务提供;
    • 若AI产品面向特定市场,合同须覆盖相应地域范围;
    • 若涉及模型权重的分发,需单独约定。
  2. 衍生品权利条款

    • 训练后产生的模型权重、衍生的中间数据(如Token化后的数据),是否仍受原始授权约束?须明确约定,否则存在二次授权风险。
  3. 数据来源保证条款

    • 供应商须保证:数据来源合法,已获得数据主体有效授权,授权范围覆盖本次采购用途;
    • 建议加入:”若因数据来源问题导致采购方被第三方追诉,供应商承担全部赔偿责任”的赔偿条款。
  4. 合规证明文件要求

    • 要求供应商提供:数据主体授权记录(脱敏样本)、数据采集时的隐私政策、数据处理记录;
    • 建立定期审计权:合同中保留对供应商数据来源的抽查权利。
  5. 退出条款

    • 明确当发现数据来源违法时,供应商的退款/赔偿义务及通知时限。

三、数据血缘(Data Lineage)追踪:怎么记录、记录什么、留存多久

数据血缘是可审计的数据链路追溯能力,是AI合规体系的基础设施。

字段
说明
示例
数据来源
供应商/平台/自采集
AWS Marketplace / Wikipedia / 自采集
采集时间
数据采集的时间窗口
2023-01-01 ~ 2023-12-31
数据类型
文本/图像/音频/代码
文本
数据量级
记录条数或规模
50GB / 1,000,000条
授权类型
明确授权 / 合同必要 / 合法利益 / 公共数据
明确授权
授权范围
地域/用途/是否含衍生品
全球,AI训练,含衍生品
处理记录
清洗/标注/增强/去标识化的处理记录
去重、语言过滤、去标识化(移除手机号/邮箱)
接收方
接收数据的内部团队或供应商
内部ML团队

留存时长:

  • GDPR Art. 5(1)(e):存储期限不超过处理目的所需的最短时间;
  • 实务建议:训练日志至少留存至模型退役后3年,或最后一次使用该数据训练的模型退役为止(取较晚者);
  • 若涉及投诉或诉讼,保留至相关程序终结。

四、合成数据的合规价值与局限

合成数据(由AI生成、模拟真实数据分布的数据)是近年热门的合规”解法”,但其合规价值需客观评估。

优势:

  • 不涉及真实自然人的个人信息,天然规避GDPR下的数据主体权利(访问权、删除权等);
  • 可规模化生成,解决特定领域数据稀缺问题(如医疗影像、罕见场景);
  • 用于模型测试和内部验证,可替代真实数据降低泄露风险。

局限与风险(不可忽视):

  1. 合成≠无版权:若合成数据高度还原原始受版权保护内容(如文学片段、代码),仍可能构成衍生侵权;
  2. 隐私泄露风险:研究表明,合成数据可通过对模型进行”成员推断攻击”反推是否使用了特定个体的数据——合成数据并非绝对的隐私”脱敏证明”;
  3. 监管认可度有限:目前欧盟EDPB和中国监管机构均未将合成数据列为数据来源合规的”免死金牌”,仅将其作为辅助手段。

实操建议: 合成数据适合用于:模型测试集扩充、内部验证集构建、敏感场景的模拟训练;但核心训练数据仍应优先使用已获充分授权的真实数据,并在训练日志中明确区分”真实数据训练批次”与”合成数据训练批次”。


五、训练日志留存:GDPR Art. 30在AI训练中的落地

GDPR Art. 30要求数据控制者和处理者维护数据处理记录。AI训练场景下的落地要点:

记录项
具体内容
处理目的
模型训练、微调、推理
数据类别
文本/图像/音频/代码;是否含敏感数据(健康/生物识别/儿童等)
数据来源
自采集/供应商/开放数据集(附供应商名称)
接收者
内部ML团队 / 第三方云服务商(GPU算力供应商等)
跨境传输
目的地国家 + 传输机制(SCCs / BCRs / Adequacy Decision)
保留期限
至模型退役 + X年(建议3年)
安全措施
加密(传输/存储)、访问控制、差分隐私(Differential Privacy)

实操建议:

  • 将训练日志整合入现有的RoPA文档,而非单独建册;
  • 若使用外部GPU算力服务商(如Lambda Labs、Vast.ai),须与其签署数据处理协议(DPA),明确训练数据不得被存储或用于其他目的;
  • 对于包含个人信息的数据集,建立数据映射,明确每类数据的法律基础和处理范围。

六、自检清单

  • 训练数据来源清单:
     我是否已梳理清楚所有训练数据的来源清单,包括自采集、供应商采购和开放数据集?每类数据均须有对应的授权链文件。
  • 合同授权范围:
     数据采购合同是否明确覆盖”模型训练用途”和”地域范围”?若合同仅写”数据分析”,则用于模型训练存在授权瑕疵风险。
  • Data Lineage:
     是否对每批训练数据记录了完整的Data Lineage信息?至少包含:来源→采集时间→授权类型→处理记录→接收方。
  • 公共数据集条款核查:
     使用公共数据集前,是否逐一核查了其服务条款?部分开放数据集有使用限制(如CC BY-NC协议禁止商业用途)。
  • 合成数据批次区分:
     若使用合成数据,是否建立了与真实数据训练批次的明确区分记录?并评估了成员推断攻击风险。
  • GPU算力服务商DPA:
     与GPU算力/云服务商是否签署了DPA?确认训练数据不会被服务商留存或用于其他目的。
  • 训练日志留存机制:
     是否已建立训练日志留存机制,确保RoPA记录覆盖所有训练数据处理活动?并设定合理的保留期限(建议模型退役后3年)。
  • 敏感数据DPIA:
     若涉及敏感数据(健康、生物识别、儿童数据)训练,是否已进行DPIA(数据保护影响评估)?并记录了降低风险的措施。

*本文为AI训练数据合规的基础框架,具体场景的适用建议结合产品实际咨询专业法律顾问。