一、客户数据不是AI企业的免费训练燃料
(一)客户交付数据,不等于授权无限使用
AI企业在客户项目中,往往会接触到非常高价值的数据和资料。
客户文档、业务流程、历史工单、客服对话、销售记录、合同文本、产品资料、员工问答、客户知识库、行业规则和经验,都是AI企业最希望沉淀下来的东西。
这些数据确实有价值。
它们可以提升问答效果,可以优化RAG知识库,可以形成行业模板,可以优化Agent工作流,可以改善模型表现,也可能帮助AI企业在下一家客户交付时更快、更准、更标准化。
但价值高,不代表可以随便用。
客户把数据交给AI企业,通常是为了实现合同目的。例如搭建该客户自己的知识库、部署客服机器人、做合同审查辅助、做内部问答系统、优化客服工单流转、配置Agent工作流。
这不等于客户同意AI企业做无限制训练。
也不等于客户同意AI企业拿这些数据去服务其他客户。
更不等于客户同意AI企业把客户专有业务经验沉淀为自己的行业资产。
AI企业最容易犯的错误,是把“客户给了我数据”理解成“客户授权我使用数据”。更进一步,又把“客户授权我用于项目服务”理解成“客户授权我用于产品优化、模型训练、跨客户复用”。
这几层不是一回事。
客户数据能不能用,首先要看合同目的。客户数据能不能训练,要看是否有明确训练授权。客户数据能不能复用到其他客户,要看是否有更明确、更严格的跨客户使用授权。
(二)服务客户、优化系统、训练模型,是不同层级的数据用途
客户数据使用至少要拆成五层。
第一层,是为客户提供本项目服务。
例如导入客户资料、建立客户知识库、回答客户员工问题、生成内部检索结果、完成合同约定的系统部署和调试。这通常是最基础、最容易成立的合同目的内使用。
第二层,是为该客户优化系统。
例如根据该客户反馈优化检索规则、提示词、知识库结构、召回策略、Agent流程,让这个客户自己的系统更好用。这一层比基础服务更进一步,但仍然围绕本客户、本项目、本合同。
第三层,是为AI企业优化通用产品。
例如抽象出不含客户专有信息的交付流程、功能模块、通用模板、错误分类方法、评测方法。这一层已经不只是服务某一个客户,而是帮助AI企业改善对所有客户的产品能力,因此需要更清楚的授权边界。
第四层,是用于模型训练或微调。
例如把客户数据加入训练集、微调模型权重、优化行业模型、训练Embedding模型、训练检索排序模型。这一层风险更高,因为数据可能进入训练流程,影响模型参数或模型能力,后续删除、隔离和退出都更复杂。
第五层,是用于其他客户项目。
例如把A客户资料、问答、流程、规则、Prompt、工单经验复用给B客户。这是最敏感的一层。尤其当A客户和B客户处于同一行业甚至存在竞争关系时,风险会被放大。
这五层用途的授权强度完全不同。
不能用一句“客户同意使用数据”全部覆盖。
合同里如果只写“供应商有权使用客户数据提供服务”,通常不能当然解释为AI企业可以拿客户数据训练通用模型,更不能当然解释为可以用于其他客户。
(三)客户数据审查的核心,是把用途写准、边界留痕
AI企业在客户项目中取得的数据,哪些可以用,哪些不能用,不能靠业务人员之间的默契。
真正稳妥的做法,是把客户数据类型、数据用途分层、训练和优化边界、个人信息和商业秘密、脱敏和去客户化、跨客户复用、删除和退出机制,全部写进合同和附件。
同时,产品和运营侧要能落地。
合同写“客户不同意训练”,系统就要能关闭训练用途。
合同写“客户数据不得跨客户复用”,系统就要能做客户数据隔离。
合同写“项目结束后删除客户数据”,系统就要能删除原始数据、切分片段、向量数据、缓存、日志和备份中的相应内容,或者至少提前说明哪些内容因审计、合规、争议处理需要有限保留。
合同写了做不到,风险比不写更大。
二、先分清客户数据到底是什么
(一)客户数据不能笼统写成“项目资料”
AI项目里的客户数据,不能笼统写成“项目资料”。
项目资料只是一个业务说法,不是法律和合规上的分类。
客户数据可能包括原始业务资料、客户内部制度、客户知识库、历史问答记录、工单和客服记录、合同和交易资料、员工信息、用户信息、客户名单、业务流程和决策规则、接口数据、系统日志。
这些数据的权利属性不同。
有些可能属于客户商业秘密。
有些包含个人信息。
有些包含第三方版权内容。
有些来自客户自己的客户。
有些只是一般业务资料。
有些是AI企业在项目实施过程中形成的交互记录、标注记录、测试结果和优化数据。
不同类型的数据不能一概处理。
如果合同只写“客户资料由客户提供,供应商可用于项目实施”,后续很难解决几个关键问题:哪些资料只限本客户项目使用,哪些资料可以沉淀为通用能力,哪些资料不能进入训练集,哪些资料项目结束后必须删除,哪些资料涉及第三方权利或个人信息。
(二)客户数据至少要分五类
客户数据至少要分五类。
第一类,是客户专有业务数据。
包括业务流程、客户名单、交易记录、订单、报价、内部报告、业务规则、经营分析、供应商信息、投标方案、风控规则等。这类数据最敏感,通常只能用于本客户项目。
第二类,是客户知识资料。
包括制度、手册、培训资料、FAQ、产品说明、合同模板、客服知识库、内部操作指南等。这类资料是否可沉淀,要看合同约定和去客户化处理。有些知识资料虽然看起来通用,但仍可能体现客户业务经验和内部管理方式。
第三类,是个人信息数据。
包括员工信息、客户信息、用户对话、联系方式、身份信息、行为记录、工单记录、投诉记录、面试简历等。这类数据要看个人信息处理合法基础、告知同意、最小必要、保存期限和删除机制。
第四类,是第三方来源数据。
包括客户采购的报告、数据库、标准、论文、外部资料、平台数据等。客户持有这些资料,不代表客户有权转交AI企业用于AI处理,更不代表可以训练或跨客户复用。
第五类,是项目交互数据。
包括系统使用记录、问答日志、用户反馈、人工标注记录、测试结果、错误样本、召回失败样本、客户评价等。这类数据最容易被AI企业视为“系统运行数据”,但仍要区分服务日志、本客户优化、通用产品优化和模型训练。
(三)不同数据对应不同使用边界
客户专有业务数据,原则上只用于本客户项目。
除非客户明确同意,否则不应进入AI企业通用训练集,不应作为行业模板对外使用,也不应复用到其他客户。
客户知识资料,是否可沉淀,要看合同约定和去客户化处理。
例如通用文档结构、常见问题分类、知识库搭建方法可以抽象沉淀,但客户内部制度全文、产品手册、培训材料、业务流程细节不宜直接转为通用能力。
个人信息数据,要看处理合法基础、告知同意、最小必要、安全措施和删除机制。
即使客户同意AI企业处理,也要判断客户是否有权作出授权,是否已对员工、用户或客户履行必要告知。
第三方来源数据,要看客户是否有权转交AI企业处理。
客户购买了某数据库或报告,可能只取得内部阅读权,并没有取得机器处理、AI检索、训练或商业化复用授权。
项目交互数据,要区分服务日志、产品优化和模型训练。
用于故障排查和争议处理的日志,不等于可以用于训练模型。用于本客户系统调优的反馈,不等于可以用于其他客户。
三、为本客户提供服务,是最基础的数据用途
(一)客户提供数据的默认目的通常是完成本项目
客户提供数据的默认目的,通常是完成本项目。
客户把制度文件交给AI企业,是为了搭建该客户内部知识库。
客户把工单记录交给AI企业,是为了改善该客户客服问答。
客户把合同模板交给AI企业,是为了服务该客户合同审查场景。
客户把产品资料交给AI企业,是为了让系统能回答该客户产品问题。
客户把接口数据开放给AI企业,是为了完成系统对接和功能交付。
这类使用通常可以理解为合同目的内使用。
但即便如此,也要写清处理范围、访问权限、保密义务、保存期限、项目结束后的处理方式。
基础用途不是空白授权。
基础用途的边界是:为本客户、本项目、本合同目的服务。
(二)基础用途不等于自由用途
AI企业可以为完成合同而处理客户数据。
但不能当然拿去训练通用模型,不能当然拿去优化其他客户项目,不能当然拿去做行业报告,不能当然拿去做销售案例,不能当然公开展示。
例如,AI企业可以将客户合同模板导入系统,用于该客户合同审查辅助。
但不能直接把客户合同模板沉淀为通用合同审查模型训练数据。
AI企业可以将客户客服工单用于该客户客服问答优化。
但不能直接把工单内容变成行业客服知识库卖给其他客户。
AI企业可以在项目实施过程中分析客户业务流程。
但不能将客户流程细节包装成“某行业最佳实践方案”对外销售。
基础服务用途,应当围绕合同履行。
一旦超出合同履行,就需要进入更高层级授权。
(三)客户合同中应明确基础用途
客户合同中应明确基础用途。
可以约定:AI企业仅为履行本合同项下服务之目的,对客户提供的数据进行必要处理。
必要处理可以包括导入、清洗、切分、索引、检索、摘要、生成回答、日志留存、系统调试、故障排查、权限配置、数据备份等。
同时应约定,超出上述范围的用途,应取得客户另行书面同意。
这里的“另行书面同意”很重要。
它可以防止业务团队在后续交付过程中,以“项目需要”“系统优化”“产品迭代”为由,把基础服务数据扩大到训练和跨客户复用。
四、为该客户优化系统,可以写,但必须限定
(一)AI项目通常需要边用边优化
很多AI项目不是一次性交付后就结束。
客户使用过程中,会产生错答记录、用户反馈、人工标注、召回失败样本、高频问题、业务部门修改意见。
这些反馈用于优化本客户系统,是合理的。
例如调整知识库切分,优化检索策略,修改提示词,补充客户知识库,优化Agent工作流,改进问答引用方式。
如果完全不允许使用这些反馈,AI系统很难变得更好。
但这仍然应限于本客户服务范围。
客户同意AI企业基于反馈优化本客户系统,不代表同意AI企业把这些反馈用于所有客户。
(二)本客户优化和通用产品优化要分开
本客户优化,是使用客户数据让该客户系统更好用。
通用产品优化,是使用客户数据改善AI企业面对所有客户的产品能力。
两者差别很大。
本客户优化更容易被客户接受,因为它直接服务于客户自身效果。
通用产品优化需要更清晰授权,因为它可能让AI企业从客户数据中获得可用于其他客户的能力。
合同中不能把二者混写成“用于产品优化”。
“产品优化”这个词太宽,既可能指该客户项目调优,也可能指AI企业通用产品迭代,还可能被解释为模型训练。
实务中建议写成三类:为本项目运行和维护进行必要处理,为提升本客户系统效果进行优化处理,经客户授权并经脱敏、去标识、去客户化后用于通用产品能力改进。
(三)本客户优化条款要写明边界
本客户优化条款可以这样设计:
客户同意AI企业在本合同服务期限内,为提升本客户系统运行效果,对客户数据、使用反馈、问答日志进行必要分析和优化处理。
优化结果仅用于本客户项目。
未经客户书面同意,AI企业不得将客户原始数据、可识别客户身份的信息、客户专有业务规则、客户保密信息用于其他客户项目或通用模型训练。
如需将项目优化经验抽象为通用能力,应进行脱敏、去标识、去客户化处理,并不得还原客户资料,不得泄露客户商业秘密,不得使第三方识别客户身份或具体业务信息。
这类条款的重点,是允许合理优化,但不让“优化”变成无限制复用。
五、用于AI企业通用产品优化,必须讲清楚用什么、怎么用、用到什么程度
(一)AI企业希望沉淀能力,本身是合理的
AI企业做项目,不可能每个客户都从零开始。
AI企业希望沉淀行业提示词模板、通用工作流、交付方法、知识库结构、错误处理经验、评测方法、产品功能改进,有商业合理性。
否则,AI企业每做一个客户都要重新搭建一套系统,商业模式很难规模化。
客户也未必希望供应商完全从零开始,因为这会推高实施周期和成本。
问题不在于AI企业能不能沉淀能力。
问题在于沉淀的是什么。
可以沉淀通用技术,不能擅自沉淀客户原始数据。
可以沉淀交付方法,不能复制客户专有流程。
可以沉淀错误类型和优化策略,不能暴露客户问答记录。
可以沉淀通用模板,不能把客户内部资料包装成行业模板。
(二)通用产品优化应优先使用抽象经验,而不是原始数据
通用产品优化应优先使用抽象经验,而不是客户原始数据。
通常可以沉淀的,是通用流程、非客户专属功能、通用字段结构、通用评测方法、非保密的行业共性问题、去客户化后的错误类型和优化策略。
例如,某类RAG项目中常见问题是“文档切分过长导致召回不准”,这种优化经验可以沉淀。
某类Agent项目中常见问题是“高危操作确认界面需要展示操作对象、金额、接收方、是否可撤销”,这种流程设计可以沉淀。
某类合同审查产品中常见问题是“不同条款需要分维度输出风险等级、修改建议、客户可接受程度”,这种产品交互可以沉淀。
但不宜直接沉淀客户原始文档、客户内部制度全文、客户业务流程细节、客户名单和交易数据、客户专有问答、客户未公开经营信息。
(三)合同中要明确通用能力边界
合同中要明确通用能力边界。
可以约定:AI企业可基于项目实施经验、非客户专有的通用技术方法、产品功能需求和经脱敏、去标识、去客户化后的统计性、抽象化信息,改进其通用产品能力。
同时明确不得反向识别客户,不得还原客户原始数据,不得泄露客户商业秘密,不得将客户专有资料提供给其他客户,不得将客户数据作为独立数据集对外提供。
对客户而言,这样可以防止资料外泄。
对AI企业而言,这样可以保留合理的产品迭代空间。
六、用于模型训练或微调,应当单独授权
(一)训练和普通优化不是一回事
训练和普通优化不是一回事。
训练可能包括预训练、微调、蒸馏、RLHF、Embedding模型优化、行业模型训练、分类器训练、检索排序模型训练。
一旦客户数据进入训练流程,风险会明显提高。
数据可能影响模型参数。
数据可能难以从模型中完全剥离。
输出可能在其他场景中体现客户信息、风格、表达或业务特征。
客户撤回数据时,AI企业未必能简单把模型中已经学习到的内容完全删除。
所以,训练用途应当比本客户服务用途、本客户系统优化、通用产品优化更加谨慎。
尤其是通用模型训练和行业模型训练,不应通过模糊条款默认取得授权。
(二)客户数据用于训练前至少要问六个问题
客户数据用于训练前,至少要问六个问题。
第一,客户是否明确授权训练用途。
不能只看客户是否提供了数据,也不能只看客户是否同意“优化服务”。
第二,训练对象是什么模型。
是客户专属模型、行业模型,还是AI企业通用模型。
第三,模型是否只服务该客户,还是服务所有客户。
客户专属训练和通用训练的风险完全不同。
第四,数据是否包含个人信息、商业秘密或第三方资料。
如果包含,需要进一步处理个人信息合法基础、保密义务和第三方授权。
第五,数据是否已经脱敏、匿名化或去客户化。
要注意,脱敏不是万能的。对于商业秘密,去掉客户名称仍可能通过业务场景和数据结构识别客户。
第六,客户是否有权撤回、要求删除或限制继续使用。
如果训练完成后技术上难以删除,应提前说明,而不是事后解释。
(三)不能把优化服务偷换成训练模型
合同里如果只写“供应商可以使用客户数据优化服务”,不宜当然解释为可以拿客户数据训练通用大模型。
“优化服务”可以理解为优化本客户系统、优化检索、优化提示词、改进交付配置。
“训练模型”则涉及更深层的数据使用,可能影响模型参数和后续输出。
对AI企业更稳妥的做法,是把训练用途单列,让客户明确选择,并写明训练范围、模型用途、退出机制和数据处理方式。
如果确实需要训练,还应明确训练数据范围、脱敏方式、是否进入通用模型、是否用于其他客户、训练后的删除安排、客户撤回后的处理机制。
(四)训练授权可以做成选项
训练条款可以设置为选择项。
客户不同意训练的,客户数据仅用于本项目服务,不进入任何通用训练流程。
客户同意本客户专属训练的,客户数据仅用于优化该客户专属模型或专属知识库,不用于其他客户。
客户同意脱敏后通用训练的,客户数据经脱敏、匿名化或去客户化后,可用于改进AI企业通用模型或产品,但不得反向识别客户,不得泄露客户商业秘密或个人信息。
客户同意特定行业模型训练的,应进一步明确行业范围、输出范围、数据保护措施、商业回报安排、退出机制和使用期限。
这类分层选择,比笼统写“客户同意供应商使用数据优化算法”更稳妥。
七、跨客户复用,是最高敏感区
(一)最容易踩雷的是把A客户经验直接用给B客户
AI企业最容易踩雷的,是把A客户经验直接用给B客户。
常见高风险做法包括:把A客户知识库模板直接复制给B客户,把A客户问答记录改名后给B客户用,把A客户业务流程整理成行业方案卖给B客户,把A客户项目中形成的Prompt直接复用给竞争对手,把A客户数据训练出的专属能力用于其他客户。
这些行为即使没有泄露原始文件,也可能引发商业秘密、合同违约或不正当竞争争议。
尤其是A客户和B客户同属一个行业、同一区域、同一竞争市场时,客户会非常敏感。
AI企业不能只说“我没有给B客户看A客户原文”。
如果复用内容实质体现了A客户业务规则、客户经验、内部流程、数据结构、风险判断和商业策略,仍可能构成不当使用。
(二)跨客户复用要看客户专属性
跨客户复用要看是否存在客户专属性。
如果内容体现客户内部流程、客户商业策略、客户数据结构、客户客户群体、客户业务规则、客户经验判断、客户组织管理方法,就不能轻易作为通用能力复用。
如果只是通用技术方法,例如文档切分方式、检索策略、界面交互、通用评测方法、权限管理逻辑、日志留存机制,通常更适合沉淀。
关键判断不是“是否改了名字”,而是“是否仍然能够体现、还原或推断客户专有信息”。
去客户化不只是删除客户名称。
如果一套流程、字段、术语、规则、数据结构仍能让熟悉行业的人识别出客户,仍然要谨慎。
(三)跨客户复用条款必须明确
跨客户复用条款应当非常明确。
可以约定:未经客户书面同意,AI企业不得将客户原始数据、客户专有资料、客户业务规则、客户项目成果用于其他客户项目。
同时约定:AI企业可以复用其独立研发的底层技术、通用代码、通用模型、通用算法、通用工作流和非客户专有方法。
项目过程中形成的可复用经验,应经过脱敏、去标识、去客户化、抽象化处理,且不得使第三方识别客户身份、业务信息或商业秘密。
如果客户属于高度竞争行业,还可以进一步约定行业排除、竞争对手限制、隔离团队、隔离知识库、专属部署等机制。
八、个人信息不能因为客户授权就一笔带过
(一)客户数据中经常包含个人信息
客户数据中经常包含个人信息。
员工姓名、联系方式、岗位信息、客户信息、聊天记录、工单记录、用户行为记录、交易记录、面试简历、投诉记录,都可能出现。
如果这些数据用于AI服务、产品优化或模型训练,就需要判断个人信息处理合法基础,不能只依赖客户和AI企业之间的合同。
个人信息保护规则强调处理个人信息应当有明确、合理的目的,并应限于实现处理目的的最小范围。
这意味着,为客户提供服务可以处理必要个人信息,但并不当然意味着可以用于通用产品优化或模型训练。
(二)企业客户是否有权授权,要具体判断
企业客户是否有权授权AI企业处理个人信息,要具体看。
客户是否已向个人告知。
客户原收集目的是否覆盖AI处理。
是否涉及敏感个人信息。
AI企业是受托处理者、独立处理者还是共同处理者。
是否需要取得个人单独同意。
是否需要进行个人信息保护影响评估。
是否涉及向第三方模型供应商提供个人信息。
是否涉及数据出境或境外访问。
例如,客户将员工聊天记录、绩效资料、面试简历、客服对话提供给AI企业,用于搭建内部智能助手或训练模型,就不能只看客户和AI企业签了合同。
还要看员工、候选人、用户、消费者是否已被充分告知,原始收集目的是否覆盖AI处理,是否涉及敏感个人信息,是否需要单独同意。
(三)个人信息处理条款要单独写
个人信息处理条款要单独写。
要明确AI企业角色,是受托处理者、独立处理者还是共同处理者。
要明确处理目的,是为客户提供服务、为客户优化系统,还是用于供应商通用产品优化或模型训练。
要明确处理范围,包括字段、类型、敏感程度、保存期限。
要明确安全措施和删除机制,包括访问控制、加密、日志、脱敏、删除、返还、事故通知。
如果涉及第三方模型供应商,还要明确是否会向第三方传输个人信息,第三方的处理角色、处理地点、安全措施和责任边界。
如果涉及出境,还要另行判断数据出境合规要求。
九、商业秘密和保密资料,比普通数据更敏感
(一)客户数据中最有价值的部分,往往最不能随便用
客户数据中最有价值的部分,往往也是最不能随便用的部分。
客户名单、定价策略、供应商信息、产品路线、投标方案、经营数据、销售话术、流程制度、内部培训资料、风控规则,都可能构成商业秘密,至少也属于合同保密信息。
AI企业如果将其用于其他客户或通用产品,即使做了一定改写,仍可能存在泄密和违约风险。
客户最担心的,不一定是原始文件被复制。
客户更担心的是自己的业务方法、客户管理经验、定价逻辑、风控规则、行业Know-how,被AI企业吸收后服务竞争对手。
(二)保密信息不能只靠脱敏解决
保密信息不能只靠脱敏解决。
脱敏主要处理可识别主体信息,例如姓名、电话、身份证号、客户名称。
但商业秘密有时即使去掉客户名称,仍可能通过行业、场景、流程、数据结构识别出来。
例如某客户的报价模型去掉客户名称后,仍可能通过产品线、区域、客户类型、折扣规则看出其商业策略。
某客户的风控规则去掉客户名称后,仍可能反映其核心判断逻辑。
某客户的销售话术去掉品牌名称后,仍可能体现其独特成交方法。
去客户化也不一定等于不可识别。
因此,保密资料复用要比普通资料更谨慎。
(三)合同中应设保密信息优先规则
合同中应设置保密信息优先规则。
凡属于客户保密信息、商业秘密、未公开经营资料的,不得用于AI企业通用训练、跨客户复用或对外展示。
即便进行脱敏、匿名化或抽象化处理,如仍可能反映客户专有信息,也不得复用。
客户另行书面同意的除外。
这类规则可以避免一个常见争议:AI企业认为自己已经脱敏,客户认为核心业务经验仍被带走。
对于高度敏感客户,还可以约定客户数据不得进入共享训练集,不得用于行业模型,不得用于服务客户竞争对手,不得用于公开案例宣传。
十、数据删除和退出机制必须提前写
(一)客户最关心项目结束后数据怎么办
客户最关心的问题之一,是项目结束后数据怎么办。
数据是不是还在供应商系统里。
向量库里有没有残留。
日志里有没有保留。
模型里有没有学进去。
备份里有没有保留。
供应商能不能证明已经删除。
这些问题不提前写,项目结束时很容易争议。
尤其是RAG知识库、Agent日志、问答记录、训练样本、客户专属模型、第三方模型调用记录都可能形成数据残留。
客户要求删除时,AI企业如果只能说“我们会删除”,但无法说明删除范围、删除方式和删除证明,就会很被动。
(二)删除机制要覆盖完整链条
删除机制要覆盖完整链条。
包括原始数据、清洗后数据、切分片段、向量数据库、缓存、日志、标注数据、训练样本、备份、导出文件、客户专属模型或权重、第三方供应商处理记录。
如果只删除原始文件,向量库仍可检索,删除并不完整。
如果只删除知识库,日志里仍保留客户问答,仍可能构成数据留存。
如果只删除本地系统,第三方模型供应商或云服务中仍有缓存,也要说明处理机制。
删除机制还要区分不同保留目的。
服务终止后,客户数据原则上应删除或返还。
但为争议解决、审计、安全、法律合规目的,部分日志可能需要有限保留。此时应约定保存期限、访问限制和脱敏措施。
(三)训练后的删除要特别说明
训练后的删除要特别说明。
如果客户数据仅用于RAG知识库,删除相对可操作。
如果客户数据已进入模型训练或微调,删除难度明显增加。
是否可从模型参数中剥离,应提前说明。
因此,训练授权条款中应写清:客户撤回后如何处理,是否停止后续使用,是否删除训练数据,是否保留已形成模型能力,是否需要重新训练,技术上是否不可行。
这部分不能含糊。
否则客户很容易认为“我要求删除,你就必须把模型里学到的全部删掉”。
AI企业如果无法做到模型层面的完全删除,应在授权前明确说明,并提供可执行替代方案,例如停止后续训练、删除原始训练样本、停止在特定场景使用、在新版本中剔除相关数据、对客户专属模型进行销毁等。
十一、客户合同要把数据用途做成分层授权
(一)建议使用五层授权结构
客户合同中,建议使用五层授权结构。
第一层,仅为本项目服务。
这是默认授权,对应合同履行所需。
第二层,为本客户项目优化。
建议明确写入,允许AI企业基于客户反馈、问答日志、错误样本优化本客户系统。
第三层,脱敏后用于AI企业通用产品优化。
建议单独授权,明确只能使用脱敏、去标识、去客户化后的抽象经验,不得泄露客户原始数据和商业秘密。
第四层,用于模型训练或微调。
必须单独、明确授权,写明训练对象、训练范围、数据类型、是否通用、是否可撤回、删除机制。
第五层,用于其他客户或行业模型商业化。
这是高敏感用途,应特别约定。必要时设置对价、行业限制、竞争对手限制、使用期限和客户审核机制。
(二)客户应有选择权
客户应有选择权。
客户可以选择不同意训练。
可以选择同意客户专属优化。
可以选择同意脱敏后产品优化。
可以选择同意特定训练用途。
AI企业应避免默认勾选过宽授权。
尤其是在企业客户合同中,不建议把“同意产品优化、模型训练、跨客户复用”混在一个总括条款里。
更稳妥的方式,是用附件列明数据类型、授权用途、处理方式、保存期限、是否可复用、是否可训练、是否可跨客户使用。
客户选择越清晰,后续争议越少。
(三)授权必须和产品能力对应
AI企业要把授权和产品能力对应起来。
如果客户不同意训练,系统应有能力关闭训练用途。
如果客户不同意跨客户复用,应实现客户数据隔离。
如果客户要求删除,应能删除RAG知识库、向量库和相关缓存。
如果客户要求日志限制,应能配置日志保存范围和期限。
如果客户只允许本客户优化,系统就不应将其问答日志流入通用优化池。
合同写了做不到,风险比不写更大。
因为客户会认为AI企业不仅超范围使用数据,还违反了明确承诺。
十二、AI企业数据复用前,建议做九问审查
(一)第一问:数据是谁的
数据是客户自己的,还是客户的客户的,还是员工个人的,还是第三方平台的,还是外部数据库的。
如果数据并非客户完全自有,就要进一步看客户是否有权授权AI企业处理和复用。
(二)第二问:数据从哪里来
数据是客户上传、系统采集、接口同步、用户输入、公开抓取,还是第三方购买。
不同来源对应不同合法性和授权边界。
(三)第三问:合同允许用到什么程度
合同允许用于本项目服务、本客户优化、通用产品优化、模型训练,还是跨客户复用。
不能超过合同授权范围。
(四)第四问:是否含个人信息
是否包含一般个人信息、敏感个人信息、员工信息、客户信息、用户行为记录。
如包含个人信息,要判断合法基础、告知同意、最小必要、保存期限、安全措施和删除机制。
(五)第五问:是否含商业秘密
是否包含内部制度、客户名单、经营数据、投标材料、定价策略、研发资料。
如包含商业秘密或保密信息,原则上不得用于通用训练和跨客户复用。
(六)第六问:是否含第三方权利内容
是否包含报告、图片、文章、数据库、代码、标准、论文等第三方内容。
客户能否交给AI企业处理,能否用于训练或商业化复用,要看第三方授权。
(七)第七问:是否做了脱敏和去客户化
脱敏后能否反向识别客户,能否还原个人,能否推断商业秘密,能否识别特定项目。
如果仍可识别或推断,就不能简单认为风险已消除。
(八)第八问:是否可删除和隔离
原始数据、向量数据、缓存、日志、备份、训练样本是否可删除和隔离。
不能删除的数据,不应轻易承诺删除。
不能隔离的数据,不应承诺客户专属使用。
(九)第九问:是否有证据证明授权
是否有合同条款、数据清单、客户确认、授权附件、系统配置记录、删除或退出记录。
数据使用不能只靠口头沟通。
融资尽调、客户审计、监管问询、争议处理时,证据比解释重要。
十三、客户数据使用边界,不能靠默契
(一)AI企业和客户的合理期待,需要通过合同分层解决
客户通常认为,我给你数据,是为了服务我。
AI企业通常希望,我做了项目,就可以沉淀能力。
这两个想法并不必然冲突。
但必须通过合同分层解决。
哪些数据只服务客户。
哪些数据可以优化本项目。
哪些经验可以抽象沉淀。
哪些数据可以训练模型。
哪些能力可以复用到其他客户。
如果不分层,双方都会觉得自己有道理。
客户会说,我没有同意你训练和复用。
AI企业会说,项目经验当然可以沉淀。
这类争议的根源,不是技术,而是数据用途没有写清。
(二)AI企业不是不能沉淀能力,而是不能偷换数据用途
AI企业不是不能沉淀能力。
可以沉淀通用技术。
可以沉淀交付方法。
可以沉淀非客户专有的流程经验。
可以沉淀经合法授权、脱敏去客户化后的抽象能力。
但不能擅自沉淀客户原始数据、商业秘密、个人信息和专有业务规则。
更不能把“本客户项目优化”偷换成“通用模型训练”,把“脱敏经验沉淀”偷换成“客户资料跨客户复用”。
AI企业真正要建立的,不只是模型能力,而是数据用途管理能力。
(三)客户也不宜简单禁止所有优化和沉淀
客户也不能只说“所有数据都不能用”。
如果客户完全禁止任何优化和沉淀,AI系统效果提升会受限,项目成本也可能增加。
更合理的方式是:客户专有数据隔离,本客户系统可优化,通用能力可抽象沉淀,训练用途单独授权,跨客户复用严格限制。
这样既保护客户数据,也给AI企业保留合理迭代空间。
对于企业客户来说,重点不是一概禁止,而是把客户专有信息、个人信息、商业秘密、第三方资料和可抽象经验分开管理。
对于AI企业来说,重点不是争取一句最宽授权,而是设计一套客户愿意接受、自己能够落地、后续经得起尽调和争议检验的数据使用体系。
十四、不要把客户给数据,理解成客户给训练许可
AI企业最容易犯的错,是把“客户给了数据”理解成“客户给了训练许可”。
这是两个完全不同的法律事实。
客户交数据,通常是为了项目实施。
客户同意优化,通常是为了本客户效果提升。
客户同意训练,必须看是否有明确授权。
客户同意跨客户复用,更应当特别约定。
如果这几层不分,数据越有价值,争议越大。
客户数据对AI企业当然重要。
但越重要的数据,越需要清楚的来源、用途、授权、隔离、删除和留痕。
能不能用于服务客户,能不能用于本客户优化,能不能用于通用产品改进,能不能用于模型训练,能不能用于其他客户项目,必须一层一层说清楚。
客户数据不是AI企业的免费训练燃料。
它可能是项目交付资料,可能是客户商业秘密,可能是个人信息,可能是第三方资料,也可能在特定授权下成为AI企业可沉淀的经验来源。
关键不在于AI企业想不想用。
关键在于客户有没有授权,数据能不能这样用,系统能不能按授权边界执行,出了问题能不能拿出证据。
这才是AI企业从项目交付走向规模化产品时,必须补上的数据治理能力。
夜雨聆风