AI企业法律风险地图(六):融资前,模型和数据能否合法商用?一、融资尽调真正要看的,不是产品演示,而是模型和数据能否支撑商业化
(一)投资人会先看AI能力背后的权利基础
很多AI创业公司融资时,最习惯讲三件事:模型效果很好,客户试点反馈不错,未来市场空间很大。这些内容当然重要。投资人也会看产品演示、试点客户、业务场景和市场空间。但进入正式尽调后,问题会变得更具体,也更难回避。投资人通常会进一步追问:模型是谁的?底座模型从哪里来?训练数据是否有授权?开源协议是否允许商用?客户数据能不能用于优化模型?第三方API能不能集成进商业产品?如果后续被客户、平台、供应商或权利人投诉,公司能不能解释清楚?因为AI公司的估值,并不只来自一个可以演示的产品界面,而是来自这套能力能否持续、稳定、合法地商业化。如果一个产品只能在路演现场跑起来,但底座模型来源不清、训练数据授权不足、开源组件存在闭源交付障碍、客户数据不能复用、第三方API不允许转售,那么这个产品的商业化基础就会被削弱。融资前最核心的问题,不是“产品能不能演示”,而是“这套能力能不能合法商业化”。这也是AI企业和普通软件公司的重要差别。普通软件项目中,投资人通常重点看代码权属、软件著作权、客户合同和团队能力。AI项目中,投资人还会穿透看模型、数据、开源、API、客户资料、输出责任和监管合规。只要其中某一环存在重大缺口,就可能影响估值、交割条件、投资人保护条款,甚至影响项目是否继续推进。(二)AI企业融资尽调比普通科技公司更复杂
普通科技公司融资尽调,通常会重点审查公司主体、股权结构、知识产权、财务数据、客户合同、劳动用工、债权债务、重大诉讼和合规事项。AI企业还要重点看模型来源、训练数据授权、开源代码和开源模型、第三方API和云服务依赖、客户数据和知识库使用边界、输出内容侵权和错误风险,以及算法、生成式AI、深度合成、AIGC标识、个人信息保护、数据安全等监管合规问题。例如,公司声称自己有行业大模型,投资人会追问底座模型是否自研,是否基于开源模型微调,是否调用第三方API,是否使用客户数据或公开数据训练,是否涉及个人信息,是否存在开源协议限制,是否已满足相关监管要求。又如,公司声称自己已经形成行业知识库,投资人会追问知识库资料从哪里来,是否来自客户项目,客户合同是否允许复用,是否包含第三方版权内容,是否可以用于其他客户,是否能在并购交易后继续使用。如果这些问题说不清,通常不是简单“补几份材料”就能解决。投资人可能会下调估值,要求交割前整改,要求创始人作出更强陈述与保证,设置赔偿责任、回购触发条款或特别承诺,甚至要求将部分问题作为交割条件。对AI企业来说,融资尽调的重点不是证明“我们很会做AI”,而是证明“我们做出来的AI能力,可以被合法、持续、可复制地商业化”。(三)融资前应先完成一次模型和数据商用梳理
AI企业融资前,创始人和法务至少应当提前梳理八条线。第一,模型来源。要说清楚模型能力到底是完全自研、基于开源模型微调、调用第三方API、采用RAG知识库增强,还是通过Agent工作流编排多个模型和工具。第二,训练数据。要说清楚数据从哪里来,是否有授权,是否允许训练、微调、评测、商用和客户交付。第三,开源许可。要说清楚使用了哪些开源代码、开源模型和开源数据集,对应许可证是否允许当前业务模式。第四,客户数据。要说清楚客户项目数据能不能用于系统优化、模型训练、行业能力沉淀和其他客户项目。第五,第三方API。要说清楚第三方API和云服务是否允许商用、集成、转售、保存输入输出、用于再训练,以及是否存在停服、涨价、场景限制。第六,输出风险。要说清楚AI输出可能造成的版权、内容、专业建议错误、客户损失等风险由谁控制、谁承担、如何留痕。第七,监管合规。要说清楚是否涉及算法推荐、深度合成、生成式AI服务、AIGC标识、个人信息保护、数据出境、网络安全和行业资质等要求。第八,投资协议中的陈述与保证。要提前判断公司能够对模型权利、数据合法性、开源合规、监管合规、争议投诉等事项作出何种程度的承诺,哪些事项需要例外披露,哪些事项需要先整改。这些问题不适合等投资人发尽调清单后再临时整理。AI企业越早完成梳理,融资谈判越主动;等尽调律师问到才回忆,往往已经进入被动解释状态。二、先看模型来源,不能把“能调用”说成“自研”
(一)所谓模型能力,必须先说清楚从哪里来
投资人最先会问的问题通常很直接:你们所谓的模型能力到底从哪里来?第一,完全自研基础模型。公司自行设计模型架构、组织训练数据、投入算力训练,并控制模型权重、训练代码和核心研发过程。第二,基于开源模型微调。公司使用开源基础模型作为底座,通过特定行业数据、指令数据或任务数据进行微调,形成面向特定场景的模型能力。第三,调用第三方闭源模型API。公司不控制底座模型和模型权重,而是通过API调用外部模型能力,在应用层做产品包装、流程设计和客户交付。第四,基于外部模型输出做蒸馏。公司使用某个模型的输出结果作为训练素材,训练或优化自己的模型。第五,采用RAG知识库增强。公司并不一定训练底层模型,而是通过知识库检索、向量数据库、提示词编排和答案生成机制增强模型在特定场景中的表现。第六,通过Agent工作流编排多个模型和工具。公司核心能力可能不在单一模型本身,而在任务拆解、工具调用、流程编排、权限控制、异常处理和场景闭环。如果公司是真正自研基础模型,投资人会关注研发投入、算力成本、训练记录、数据来源、核心团队和模型效果。如果公司是基于开源模型微调,投资人会关注开源许可证、微调数据合法性、微调成果是否可商用、是否能私有化部署和向客户交付。如果公司主要调用第三方API,投资人会关注供应商依赖、API条款限制、成本结构、毛利空间、替代性和核心壁垒。如果公司主要做RAG或Agent应用,投资人会关注知识库来源、客户数据授权、工作流可复制性、场景壁垒和交付效率。这些路径没有绝对高低之分。应用层公司也可以有很高价值,场景、客户、数据、流程和交付能力也可以构成壁垒。但不能把第三方API集成包装成“自研大模型”,也不能把开源模型微调包装成“完全自研基础模型”。融资尽调中,过度包装往往比如实披露更危险。一旦投资人发现公司对模型来源表述不准确,会进一步怀疑公司其他披露内容的真实性。(二)自研模型要能证明“自研”到什么程度
AI企业如果对外宣称“自研模型”,就要准备回答更细的问题。投资人可能会看模型架构是否由公司自主设计,训练代码是否由公司编写,模型权重是否由公司控制,训练数据是否由公司合法取得,核心研发人员是否在公司,算力采购和训练记录是否完整,模型版本迭代是否有记录,评测结果是否可复核。这些问题背后不是形式审查,而是为了判断公司真正掌握了多少核心能力。如果公司只是下载开源模型,在开源模型基础上做少量参数调整或行业微调,就不宜简单宣称“完全自研基础模型”。更准确的表述应当是“基于某类开源模型进行微调或行业化适配”,并说明微调数据、调优方法、部署能力和场景能力。如果公司只是调用第三方闭源模型API,则更应如实披露为模型服务集成、应用层产品或行业解决方案。此时公司的价值不在底层模型,而在客户场景、产品设计、数据处理、知识库构建、系统集成、交付经验和业务流程沉淀。如实披露不等于降低价值。相反,准确说明公司能力边界,反而有助于投资人判断公司的真实商业模式。真正有问题的是,公司在商业上讲“自研”,技术上实际依赖第三方API,合同上又没有取得足够商用授权,成本上还高度受制于供应商。这种情况一旦被尽调穿透,不仅影响估值,也会影响投资人的信任。(三)微调和蒸馏是融资尽调中的高频追问点
微调和蒸馏,是AI企业融资尽调中非常容易被追问的两个问题。第一,底座模型许可是否允许微调和商用。不同开源模型或第三方模型的许可条件不同,有的允许商用,有的设置使用规模、用途、行业、分发方式限制,有的要求遵守特定使用政策。企业不能只看模型是否能下载,更要看许可是否覆盖当前业务模式。第二,微调数据是否合法。即使底座模型可以商用,如果微调数据来源不清、授权不足、包含未经处理的个人信息或客户资料,也会影响微调成果的商用基础。第三,微调成果能否商用。需要结合底座模型许可、数据授权、第三方合同和客户合同判断,不能当然认为“我们调出来的结果就是我们的”。第四,能否向客户交付。商用和交付不是完全相同的问题。有些许可可能允许内部使用或提供服务,但对模型权重分发、私有化部署、转授权、嵌入客户系统有额外限制。蒸馏通常涉及使用一个模型的输出作为训练素材,再训练或优化另一个模型。尽调时需要看教师模型输出是否允许用于再训练,供应商条款是否禁止通过输出结果训练竞争模型,输出数据能否保存,是否可用于商业目的,是否存在违反API使用条款或侵害第三方权益的风险。很多第三方模型服务会对输入输出的保存、再训练、转售、竞争性使用作出限制。企业如果没有审查条款,就把第三方模型输出大量用于训练自己的模型,后续可能面临违约风险。这些问题不能等融资尽调时临时解释。企业应当提前准备模型来源说明、底座许可文件、微调数据清单、训练记录、API条款审查、蒸馏使用说明和风险判断。三、再看训练数据,数据来源不清会直接影响估值
(一)训练数据不是越多越好,而是越清楚越好
但投资人不会只听“我们有数据积累”。投资人会问:数据从哪里来?谁提供的?能不能训练?能不能商用?能不能用于多个客户?有没有个人信息?有没有版权内容?有没有客户商业秘密?有没有持续更新来源?常见数据来源包括公开网页、购买数据集、客户资料、用户交互记录、合作方数据、历史项目资料、员工和专家经验整理、外部报告、论文、书籍、行业数据库等。不同来源对应不同风险,不能统一放进“数据资产”这个大口袋里。公开网页数据可能涉及网站服务条款、robots协议、反爬规则、版权内容、个人信息和不正当竞争风险。购买数据集要看供应商是否有权提供,授权范围是否覆盖训练、微调、商用、转授权和客户交付。客户资料通常只能用于特定项目,不当然允许进入通用训练或服务其他客户。用户交互记录可能涉及个人信息处理、告知同意、隐私政策、用户协议和数据留存规则。合作方数据要看合作协议是否允许AI训练和商业化使用。员工和专家经验整理要看是否涉及原单位资料、第三方权利、保密义务或行业受限信息。外部报告、论文、书籍、行业数据库则可能涉及著作权、数据库权益、订阅协议、转载许可和使用限制。训练数据真正有价值的前提,是来源清楚、授权明确、用途匹配、能够持续使用。否则,数据越多,潜在风险也越多。(二)投资人会重点追问数据的四个问题
企业需要说明数据取得方式是否合法,是否有授权文件,是否违反网站条款,是否存在版权或数据库权益问题,是否涉及个人信息或第三方商业秘密。如果数据来自第三方采购,应当保存采购合同、授权文件、发票、数据交付记录、供应商权利保证和使用限制说明。如果数据来自公开渠道,应当保存采集规则、来源说明、使用范围判断、个人信息处理措施和版权风险评估。如果数据来自客户项目,应当查看客户合同是否允许训练、微调、产品优化或其他客户复用。如果数据来自员工或专家整理,应当确认资料来源,不宜简单认为“人工整理后就没有权利问题”。取得数据不等于可以训练,可以训练不等于可以商用,可以商用不等于可以用于所有客户。企业应当逐项判断:数据能不能用于模型训练,能不能用于微调,能不能用于评测,能不能用于RAG知识库,能不能用于商业产品,能不能用于客户交付,能不能用于其他客户,能不能用于模型优化,能不能长期保存。很多授权文件只允许“内部研究”“项目使用”“特定服务”,并不覆盖商业训练和对外交付。如果企业把这些数据用于通用模型训练,后续就可能产生违约或侵权风险。训练数据中如果包含个人信息,就要关注个人信息保护规则。企业需要看是否具备合法处理基础,是否履行告知同意或其他法定处理要求,是否遵循最小必要原则,是否进行了去标识化或匿名化处理,是否涉及敏感个人信息,是否向第三方提供,是否涉及数据出境,是否有删除、撤回同意和投诉处理机制。尤其是医疗、金融、教育、招聘、客服、政企服务等场景,数据中很容易包含个人身份信息、联系方式、交易记录、健康信息、账户信息、行为轨迹、语音、图像等内容。企业不能因为数据用于AI训练,就忽略个人信息合规要求。AI产品的竞争力往往依赖持续迭代。投资人不仅会看公司过去有没有数据,还会看未来能不能持续取得数据。如果核心数据授权期限很短,或者完全依赖单一客户、单一合作方、单一供应商,投资人会担心模型能力不可持续。如果某批数据停止授权后,公司不能继续使用由其训练形成的模型或知识库,风险更大。因此,数据授权文件中应当尽量写清授权期限、续期安排、终止后处理、既有成果是否可继续使用、衍生成果是否受影响、数据删除和模型回滚要求。(三)数据无法合法商用,会直接影响融资价值
数据问题不是单纯的合规瑕疵,而是会直接影响融资价值。如果公司的核心模型高度依赖某批训练数据,但这批数据并不允许商业训练,投资人会下调估值,甚至要求公司重新训练或剔除相关能力。如果客户数据不能沉淀为通用能力,公司每个项目都只能从零开始,业务可能更像项目制外包,而不是可复制、可规模化的产品型公司。如果数据来源存在明显瑕疵,投资人可能要求整改作为交割条件,要求创始人作出更强陈述与赔偿承诺,或者要求在投资协议中设置特别赔偿、估值调整、回购触发等条款。融资前,AI企业应当把数据从“技术资源”转换成“可审查资产”。这意味着,数据必须有清单、有来源、有授权、有用途说明、有使用记录、有风险分级。没有这些材料,企业很难让投资人相信数据资产可以支撑未来商业化。四、开源模型和开源代码,不能只证明“能跑”
(一)融资尽调一定会查开源清单
AI企业研发过程中大量使用开源代码、开源模型、开源工具、开源数据集,这是行业常态。融资尽调中,投资人或其律师通常会要求企业提供开源代码清单、开源模型清单、开源数据集清单、许可证类型、使用位置、是否修改、是否分发、是否用于商业产品、是否用于私有化部署、是否触发披露或开源义务。第一,研发资产管理不成熟。公司可能不知道自己的产品里用了哪些开源组件、哪些开源模型、哪些许可证。第二,后续风险不可控。投资人无法判断公司产品是否可以闭源商业化,是否可以向客户交付,是否可能被要求开放源代码或停止使用某些组件。开源合规不是要求企业不用开源,而是要求企业知道自己用了什么、在哪里用、怎么用、受什么限制、是否影响商业化。(二)开源风险主要影响商业化、闭源交付和退出交易
企业需要判断开源代码、开源模型和开源数据集是否允许商用,是否限制特定行业或用途,是否存在用户规模、收入规模、服务类型、地区范围、竞争性使用限制。有些开源模型或数据集可以研究使用,但不一定允许商业使用。有些允许商业使用,但要求遵守特定可接受使用政策。有些对大规模商业部署、特定行业、高风险用途设置限制。企业不能因为“网上可以下载”就认为“商业上可以随便用”。某些开源许可证可能在特定条件下触发源代码披露、相同许可证传播、修改说明、版权声明保留等义务。如果企业将相关组件嵌入商业产品并向客户分发或私有化部署,就要判断是否触发披露或开源义务。对AI企业来说,闭源交付尤其重要。很多客户要求私有化部署,很多投资人也会关注公司核心代码是否能保持闭源。如果某些高风险开源组件嵌入核心模块,可能影响客户合同、交付模式和商业谈判。并购交易中,买方会重点关注目标公司产品是否存在开源合规风险。高风险开源组件可能导致买方要求替换、重构、降低估值、设置赔偿、延后交割,甚至放弃交易。如果企业融资时没有清理开源问题,问题不会消失,只会在后续更大规模融资或并购时被重新放大。(三)“社区都在用”不能作为尽调答案
很多技术团队面对开源问题时,会习惯性回答:这个社区都在用,业内都这么用,暂时没有听说谁被追责。开源项目热度高,不代表许可证允许公司的当前业务模式。融资尽调要的是文件和判断,不是行业习惯和口头解释。AI企业至少应当准备开源清单、许可证文本或链接留存、使用位置说明、是否修改和分发说明、是否触发义务的判断记录、对高风险组件的替代方案。对于核心产品中的关键开源组件,最好由技术、法务和外部顾问共同完成审查。五、客户数据能否用于模型优化,是融资尽调敏感点
(一)客户项目数据不是天然可以沉淀为公司能力
AI企业在客户项目中经常能接触到真实业务数据,这些数据对产品优化非常有价值。常见内容包括客户文档、业务流程、问答记录、工单数据、客服对话、行业知识库、用户反馈、内部制度、接口数据、业务规则和场景样本。但客户提供这些数据的目的,通常是为了完成该客户项目,不一定同意AI企业拿去训练通用模型,更不一定同意用于服务其他客户或竞争对手。融资时,投资人会追问:公司所谓的行业能力,到底有多少来自客户项目沉淀?这些沉淀是否有合同依据?客户是否允许复用?是否进行了脱敏、去标识、去客户化处理?是否存在客户投诉或争议?如果公司无法回答,投资人会质疑公司能力的可复制性和合法性。这类问题在行业AI公司中特别常见。企业做了几个客户项目后,产品效果确实提升了,但这种提升到底来自公司通用研发能力,还是来自客户专有数据和业务经验,合同里没有写清。后续一旦公司拿这套能力服务同行业其他客户,原客户可能主张公司滥用客户资料、泄露商业秘密或违反合同约定。(二)客户合同要把不同用途拆开写
客户数据授权不能笼统写成“客户同意公司使用数据”。第一,为该客户提供服务。客户提供数据,AI企业在该项目范围内处理和使用,这是最基础用途。第二,为该客户优化系统。企业可以使用客户数据对该客户专属系统进行调优、测试、纠错和性能提升,但不一定可以用于其他客户。第三,用于公司通用模型优化。这涉及客户数据或项目经验是否进入公司通用能力,应当取得明确授权,并设置脱敏、去标识、去客户化和用途限制。第四,用于其他客户项目。这是客户最敏感的用途,应当谨慎约定。多数情况下,不宜直接使用客户原始资料,只能在不识别客户、不包含客户商业秘密、不还原客户业务细节的前提下,复用通用方法、工具和经验。第五,用于商业化训练和产品迭代。如果公司希望将客户项目中形成的数据、反馈、问答记录、标注结果用于商业化产品迭代,应当在合同中明确授权范围。第六,用于匿名化、统计化、聚合化分析。企业可以争取在严格处理后使用统计性、聚合性数据,但也要注意匿名化不能只是简单删除名称,而应达到无法识别特定客户或个人的效果。(三)客户数据授权不足,会影响公司可复制性
如果每个项目都只能使用客户专有数据,且项目成果不能沉淀,公司能力就很难复制。业务模式更接近定制开发或项目制交付,而不是标准化产品。如果公司声称已经形成行业通用模型,但客户合同并不允许复用客户资料、客户规则和客户知识库,投资人会质疑公司的模型能力是否真正可商用。如果公司对外宣传服务过某些客户,并将客户项目形成的行业经验作为核心卖点,但合同中没有客户授权,甚至存在严格保密条款,也可能引发客户关系风险。因此,AI企业融资前必须清理客户合同,至少回答三类问题。哪些能力可以对其他客户复用,复用前需要满足什么条件?这个清理结果,应当体现在客户合同、补充协议、数据台账、项目交付清单和内部权限管理中,而不是只停留在业务人员口头判断上。六、第三方API和云服务依赖,会影响核心能力独立性
(一)外部供应商依赖不是不能有,但必须说清边界
很多AI企业不是没有技术,而是核心能力高度依赖外部供应商。常见依赖包括闭源大模型API、云算力、向量数据库、语音识别服务、OCR服务、图像生成服务、嵌入模型、Agent工具框架、内容审核服务、知识库平台和数据标注平台。这些依赖本身不是问题。创业公司不可能什么都从零自建,合理使用成熟供应商能力,有助于提高效率、降低成本、加快交付。真正的问题在于,公司有没有说清楚依赖边界,有没有审查供应商条款,有没有替代方案,有没有把第三方能力包装成自有底层能力。投资人会问:如果供应商涨价怎么办?如果供应商停服怎么办?如果供应商限制转售怎么办?如果模型下线怎么办?如果API输出不能用于训练怎么办?如果供应商改变服务条款,公司客户合同如何继续履行?如果境外API涉及跨境传输或客户数据出境,公司是否合规?这些问题会直接影响公司成本结构、服务稳定性、客户交付能力和估值逻辑。(二)第三方API条款是融资尽调重点
第三方API和云服务条款,应当作为融资前重点审查对象。第一,是否允许商用。免费试用、开发者测试和商业交付不是同一概念。第二,是否允许集成到产品中向客户提供。某些服务允许企业内部使用,但对嵌入商业产品、SaaS服务或私有化交付有限制。第三,是否允许转售或再包装。如果公司将第三方API能力包装为自身服务向客户收费,应当看供应商是否允许转售、分销、代理或再包装。第四,是否允许保存输入输出。很多AI服务条款会限制输入、输出、日志和结果的保存期限及使用方式。第五,是否允许用输出结果训练模型。如果公司计划用第三方API输出进行蒸馏、再训练或模型优化,必须重点审查是否被禁止。第六,是否限制高风险场景。医疗、金融、法律、招聘、教育、公共安全、自动决策等场景,第三方服务条款中可能有特别限制。第七,是否可单方修改价格或停服。供应商如有较强单方调整权,公司应评估客户合同中的服务连续性责任。第八,是否提供企业级SLA。面向企业客户交付时,仅依赖无稳定服务承诺的第三方能力,会影响公司履约能力。第九,是否限制跨境使用。如果涉及境外API、跨境云服务、境外数据处理,需要结合个人信息保护、数据出境、客户合同和行业要求综合判断。(三)核心服务不可替代,会削弱估值逻辑
如果AI企业的核心能力不可替代地依赖某一个外部供应商,投资人会重新判断公司价值。投资人会问,公司到底是模型公司,还是应用层包装公司?公司真正的壁垒在哪里?客户为什么不直接采购底层供应商服务?如果供应商复制同类应用,公司如何防御?如果底层供应商涨价,公司毛利是否被压缩?如果API停服,公司是否无法履约?应用层公司可以有很强的价值,尤其是在垂直行业场景、客户资源、业务流程理解、数据治理、系统集成、交付服务、合规适配、工作流编排等方面形成壁垒。如果公司真正的壁垒在场景、数据、客户、流程和交付能力,就应当这样说明,并用客户合同、场景案例、流程资产、知识库结构、系统集成能力和交付效率证明价值。不要把第三方能力包装成自有底层能力。融资尽调最终会穿透到供应商合同、API调用记录、成本结构和技术架构。包装过度,反而会被反噬。七、输出内容风险不能只靠免责声明处理
(一)AI产品商用后,输出风险会成为投资人关注点
AI产品一旦商用,输出风险就会从理论风险变成真实业务风险。常见风险包括版权侵权、商标或品牌误用、肖像和声音权益侵害、虚假信息、歧视性内容、违法违规内容、专业建议错误、客户因依赖输出造成损失等。AI企业不能只用两句话处理这些风险:用户自行判断,AI输出仅供参考。免责声明有意义,但不是万能的。投资人会看公司是否建立了合理控制机制,而不是只看用户协议里有没有免责条款。如果产品是内部辅助工具,风险相对可控;如果产品帮助客户对外生成营销文案、图片、视频、报告、客服回复,版权和内容合规风险会上升;如果产品进入医疗、金融、法律、教育等专业场景,误导责任、资质限制和专业审查风险会更高;如果产品是Agent自动执行任务,例如自动发邮件、自动下单、自动审批、自动调用系统接口,风险就不只是内容错误,而可能升级为行为后果风险。投资人关注输出风险,并不是担心AI永远不出错,而是要看公司有没有识别高风险场景、设置人审机制、限制产品边界、保留日志、处理投诉和纠错下架的能力。(二)输出风险要结合产品场景判断
不同AI产品的输出风险差异很大,不能统一用一套免责声明处理。内部辅助工具主要服务公司内部人员,例如内部知识检索、代码助手、合同初筛、客服辅助、会议纪要整理。此类工具的关键是权限控制、数据隔离、内部提示、人工复核和日志留存。客户对外发布工具,例如营销文案生成、图片生成、视频生成、数字人、直播脚本、智能客服等,风险集中在版权、肖像、声音、商标、广告合规、虚假宣传、违禁内容和平台规则。企业应当设置素材授权审查、敏感词过滤、侵权投诉处理和发布前审核机制。医疗、金融、法律、教育等专业场景,风险集中在专业建议错误、用户误信、资质边界、监管要求和损害后果。企业应当避免将AI输出包装成最终专业意见,明确人工专业人员复核机制,并限制自动化决策或高风险结论输出。Agent自动执行场景,风险更进一步。系统不是只生成内容,而是可能调用工具、访问数据库、发送指令、修改记录、触发交易或执行操作。此时企业必须设计权限分级、操作确认、异常中止、回滚机制、日志审计和人工审批节点。(三)融资前应准备输出风险控制材料
第一,风险提示。针对不同产品场景设置清晰的用户提示和使用边界,不能让用户误以为AI输出就是最终结论。第二,用户协议。明确服务范围、用户责任、禁止用途、输出内容使用规则、侵权投诉处理、责任限制和争议处理。第三,人工复核机制。对高风险输出、对外发布内容、专业建议和自动执行操作,设置人工审核或确认机制。第四,高风险场景限制。明确禁止或限制将产品用于违法违规、侵权、欺诈、歧视、虚假宣传、高风险专业决策等场景。第五,模型评测记录。保留准确性、安全性、偏见、幻觉、鲁棒性、敏感内容等测试记录,证明公司不是完全放任风险。第六,投诉处理记录。建立客户投诉、用户投诉、侵权通知、错误反馈的受理、核查、处理和留痕机制。第七,输出日志留存。对关键业务场景中的输入、输出、版本、用户、时间、审核记录进行留存,以便发生争议后追溯。第八,侵权下架和纠错机制。对于可能侵权、错误、违法或不当的输出,应有快速下架、屏蔽、纠错、通知和复盘机制。这些材料会影响投资人对公司治理成熟度的判断。AI企业不需要承诺输出永远正确,但必须证明自己知道风险在哪里,并且已经建立合理控制措施。八、监管合规缺口,可能成为投资交割条件
(一)融资前要判断公司是否进入特定监管要求范围
AI企业融资前,需要判断自身业务是否已经进入特定监管要求范围。可能涉及的事项包括算法推荐服务备案、深度合成服务备案、生成式AI服务备案、AIGC标识义务、个人信息保护、数据出境、网络安全和等级保护、行业牌照或资质等。不是所有AI企业都同时适用全部规则。企业不能机械地把所有AI监管要求都套到自己身上,也不能简单说“我们只是技术公司,所以都不适用”。如果公司已经向公众提供生成式AI服务,生成式AI服务相关合规事项就会被追问。如果公司提供深度合成图片、音频、视频、数字人服务,深度合成和标识义务就会被追问。如果公司做推荐、排序、画像、分发,算法推荐规则就会被追问。如果公司处理大量个人信息、敏感个人信息或可能涉及重要数据,个人信息保护、数据安全、数据出境就会被追问。如果公司进入医疗、金融、教育、交通、公共安全等行业场景,还可能涉及行业资质、专业监管、审慎义务和客户侧合规要求。(二)投资人关注的是监管风险的确定性
投资人并不一定要求AI企业在融资前解决所有合规事项,但会要求公司能够识别适用规则、说明现有状态、列出整改路径和时间表。如果公司已经对公众提供生成式AI服务,但没有准备备案、内容安全、数据来源、个人信息保护、投诉处理、日志留存、标识等材料,投资人会认为监管风险不清。如果公司提供深度合成能力,却没有处理显著标识、隐式标识、用户身份管理、内容管理和投诉处理,投资人会担心平台责任和监管责任。如果公司处理客户数据和用户数据,却没有个人信息处理规则、隐私政策、委托处理协议、数据安全制度、权限控制和删除机制,投资人会担心客户投诉和行政风险。如果公司使用境外API或境外云服务处理客户数据,还要进一步判断是否存在数据出境、个人信息跨境提供、客户合同限制和行业监管限制。监管合规缺口越不确定,投资人越可能把问题写进投资文件。(三)监管缺口可能影响投资文件安排
监管问题如果没有处理清楚,可能直接影响投资交易安排。投资人可能要求公司在交割前完成整改,例如完成备案、补充用户协议和隐私政策、建立标识机制、完成客户数据隔离、关闭高风险功能。也可能要求公司在交割后一定期限内完成备案或整改,并将其作为创始人和公司的特别承诺。对于风险较高但短期无法完全解决的问题,投资人可能要求设置赔偿责任、创始人连带责任、保留部分投资款、设置里程碑付款、增加回购触发事项或在估值中折价。因此,AI企业融资前不应只准备商业计划书,也应准备一份监管适用性判断和整改清单。即使部分事项尚未完成,也要能向投资人说明现状、原因、风险等级和解决路径。九、融资前应准备的五类材料
(一)模型来源说明
至少应当包括底座模型、训练方式、微调路径、第三方API、模型权重控制、供应商依赖、是否存在蒸馏或再训练、模型版本迭代记录、评测记录和主要技术架构说明。如果公司调用第三方API,应附供应商协议、API条款、商用许可、价格和服务稳定性说明。如果公司自研或微调模型,应保留训练记录、算力采购记录、研发人员记录、训练数据清单、模型版本和评测结果。这份材料的目标不是炫技,而是让投资人能够判断公司模型能力的来源、边界、可控性和可持续性。(二)数据来源和授权材料
数据来源和授权材料至少应当包括数据清单、授权文件、用途说明、个人信息处理说明、客户数据边界、数据出境情况、数据删除和隔离机制。数据清单应当区分训练数据、微调数据、评测数据、RAG知识库数据、客户项目数据、用户交互数据和公开数据。授权文件应当对应到具体数据来源,不能只笼统写“公司拥有合法数据”。用途说明要写清数据是否可用于训练、微调、商用、客户交付、产品优化和跨客户复用。涉及个人信息的,应当说明处理目的、处理方式、告知同意或其他合法基础、去标识化或匿名化措施、保存期限、权限控制和删除机制。(三)开源合规材料
开源合规材料至少应当包括开源代码清单、开源模型清单、开源数据集清单、许可证审查记录、高风险组件替代方案和开源披露义务说明。清单中应当写明开源项目名称、版本、许可证类型、使用位置、是否修改、是否分发、是否用于核心产品、是否用于客户私有化部署、是否触发源代码披露或相同许可证传播义务。对于高风险开源组件,应当提出替代、重构、取得商业授权或调整交付方式的方案。这类材料越清楚,投资人越容易判断公司闭源商业化和客户交付是否存在障碍。(四)客户合同和数据条款
融资前应当梳理所有重要客户合同,尤其是试点协议、POC协议、联合开发协议、数据处理协议、保密协议和正式采购合同。第一,客户数据能否用于训练、微调、系统优化或产品迭代。第三,输出责任如何分配,客户是否需要人工复核,AI企业责任边界是否明确。第四,服务边界如何写,是否存在过度承诺准确率、替代专业判断、绝对安全或绝对合规的表述。第五,是否存在客户投诉、索赔、拒收、数据删除要求或项目争议。如果客户合同中没有数据和成果分层条款,融资前应评估是否需要补充协议或确认文件。(五)监管合规材料
第一,公司业务是否需要算法推荐、深度合成、生成式AI等备案或其他监管手续。第二,相关备案是否已经完成,未完成的原因、进度和计划是什么。第三,是否履行AIGC标识义务,是否具备显式标识、隐式标识、用户提示和内容追溯机制。第四,是否建立日志留存、权限管理、安全评估、内容审核和投诉处理机制。第五,是否涉及个人信息处理,是否有隐私政策、用户协议、委托处理协议、个人信息保护制度和删除响应机制。第六,是否涉及数据出境、重要数据、行业监管或客户侧合规要求。这类材料不是为了把公司包装成没有任何风险,而是为了证明公司对监管边界有判断、有动作、有计划。十、投资协议中,AI企业最容易被要求作出的陈述与保证
(一)模型权利陈述
投资协议中,投资人通常会要求公司和创始人对模型、算法、代码和技术成果作出陈述与保证。常见内容包括:公司合法拥有或有权使用相关模型、算法、代码、技术成果;公司核心产品不存在重大第三方权利限制;不存在未披露的模型许可限制;相关模型、算法和技术成果的使用、交付和商业化不会重大违反第三方合同或许可条件。如果公司存在开源模型、第三方API、外包开发或顾问成果,应当如实披露,并在例外事项中写清。不能为了顺利签约而作出过度承诺。陈述与保证一旦不实,后续可能触发赔偿、回购、估值调整或违约责任。(二)数据合法性陈述
数据合法性陈述通常包括:公司训练数据、客户数据、用户数据来源合法;使用范围覆盖当前业务和商业化用途;公司未侵犯个人信息权益、知识产权或第三方合同权益;公司已经履行必要的告知、同意、授权、保密、数据安全和删除义务。这类陈述风险较高,因为AI企业的数据来源通常比较复杂。如果某些数据只能内部测试,不能商业训练;某些客户数据只能用于特定项目,不能通用化;某些公开数据来源存在不确定性;某些个人信息处理措施尚不完善,都应当提前披露或整改。(三)开源合规陈述
开源合规陈述通常要求公司披露开源软件、开源模型和开源数据集使用情况,并保证不存在会对公司核心产品闭源商业化造成重大不利影响的开源义务。这里的重点不是“公司没有使用开源”。现实中,多数AI企业都会使用开源。重点是公司是否已经披露,是否已经审查,是否存在可能要求公司披露核心源代码、限制商用、限制分发、限制私有化部署或影响客户交付的义务。如果公司没有开源清单,却在投资协议中承诺不存在重大开源风险,后续一旦被发现高风险组件,责任会非常被动。(四)监管合规陈述
监管合规陈述通常包括:公司已取得或正在办理必要备案、许可或审批;公司业务符合适用的算法、生成式AI、深度合成、AIGC标识、个人信息保护、数据安全、网络安全和行业监管要求;不存在重大监管调查、处罚或未披露整改事项。对于尚未完成备案或整改的事项,不能简单承诺“全部合规”。更稳妥的方式是列明现状、整改计划和时间表,并在投资协议中合理设置交割后义务或特别承诺。(五)争议和投诉陈述
投资人还会关注公司是否存在重大侵权投诉、客户重大索赔、供应商纠纷、开源合规投诉、数据滥用争议、个人信息投诉、监管问询或可能影响核心模型、数据使用的争议。AI企业如果曾收到客户关于数据使用、输出错误、侵权内容、模型效果、保密义务的投诉,应当评估是否属于需要披露的重大事项。不披露并不等于问题不存在。后续如果争议扩大,投资人可能主张公司违反陈述与保证。(六)违反陈述后的后果不能轻视
一旦公司或创始人的陈述不真实、不准确、不完整,可能产生赔偿责任、估值调整、回购触发、创始人连带责任、后续融资受限、交割条件不成就等后果。如果创始人在投资协议中对模型、数据、开源、监管事项作出过强承诺,后续一旦出现第三方索赔、监管处罚或客户争议,投资人可能要求创始人承担责任。因此,融资前的模型和数据商用体检,不只是为了通过尽调,也是为了避免创始人在投资文件中作出无法承受的承诺。十一、融资前应完成一次模型和数据商用体检
(一)不要等投资人发尽调清单才开始回忆
AI企业融资前,最应该提前完成一次模型和数据商用体检。技术文档可以说明系统怎么实现,但不能自动证明模型和数据可以合法商用。法务、合规、产品、研发和业务团队应当共同完成一次穿透梳理,至少回答六个问题。这六个问题看起来简单,但每一个都可能延伸出一组合同、授权、合规和证据问题。(二)AI企业融资真正要证明的是可规模化经营
AI企业融资真正要证明的,不是“我们能做出一个AI产品”。更关键的是证明:这个产品背后的模型可以用,数据可以用,开源组件可以用,客户合同支撑商业化,监管风险可控,输出风险有治理机制。只有这样,投资人才会相信公司不是“能演示”,而是“能规模化经营”。模型效果可以继续迭代,客户数量可以继续扩展,场景能力可以继续打磨。但如果底层模型、数据和授权链条存在重大缺口,公司发展越快,风险越容易被放大。融资本质上不是一次宣传,而是一次穿透审查。AI企业越早把模型、数据、开源、客户、API和监管问题整理清楚,越容易在尽调中掌握主动权。(三)越早整理,融资越主动
尽调发现问题后再整改,通常会影响估值、交割和投资条款。对AI企业来说,比较现实的动作是建立一份融资前合规包,至少包括模型来源说明、数据来源和授权清单、开源合规清单、客户数据和成果分层说明、第三方API和云服务条款审查、输出风险控制材料、监管适用性判断和投资协议披露事项清单。这不是为了把企业包装成没有任何风险。创业公司很难没有风险,AI企业更不可能完全没有不确定性。关键是要让投资人看到:公司知道风险在哪里,已经完成了初步识别,有可执行的整改路径,重大风险没有被隐藏,核心商业化基础可以支撑公司继续发展。十二、AI企业融资,最怕的是模型和数据商业化基础说不清
效果可以迭代,客户可以扩展,场景可以打磨,产品可以重构。这些问题如果在融资前没有处理,进入尽调后就会集中暴露。投资人不会只看公司愿景,也不会只看产品演示,而是会追问模型、数据、合同、授权、监管和责任边界。对AI创业公司来说,融资前最值得做的一件事,就是把模型和数据商用基础从头梳理一遍。第三方能力依赖较重的,如实说明商业模式和替代方案。AI企业可以跑得快,但模型和数据的权利链条不能一直模糊。否则,公司越发展,客户越多,融资越近,风险越集中。到那时,问题就不再是补一份说明,而是会影响估值、交割、责任和公司未来商业化空间。第一时间获取AI领域合规解读、政策动态与实操指南,助您更高效地识别风险、理解规则、推动合规落地。也欢迎您转发、转载本文,让更多有需要的朋友及时看到。