AI资本边界·创刊号|AI训练数据IPO合规生死劫

CAPITAL × AI · 第 1 期

AI 训练数据IPO 合规生死劫

全球诉讼 × 中国判例 × 审核红线

大模型训练数据的不合规类似「毒树之果」，直接影响其生成内容的合规性，在 AI 企业 IPO 审核中可能成为否决项。OpenAI、Meta、Stability AI 正在全球法庭上为此付出天价代价，法官判决从「金钱赔偿」升级为「Model Cleanse」——销毁并重训模型。本文用三张硬核卡片，脱水萃取最核心的资本合规信号。

★ 三大核心信号

① 数据授权费用正成为大模型企业最大的隐性资本性支出（CapEx）

② 海外司法救济从「金钱赔偿」升级为「Model Cleanse」模型清洗

③ IPO审核问询聚焦训练数据「来源合法、确权清晰、持续可得」

1业界生态 — 巨头的「数据饥渴症」

业界动态

🎬 OpenAI 秘密转录 100 万小时 YouTube 视频

《纽约时报》披露 OpenAI 开发 Whisper 模型，在明知违反 YouTube 服务条款的情况下，秘密转录超过 100 万小时视频训练 GPT-4。Google 知情未阻止——因其自身也在用同样方法训练 Gemini。

📚 Meta「先污染后治理」策略实锤

Meta AI 团队在耗尽互联网可用英文书籍后，曾认真讨论收购 Simon & Schuster，也曾考虑直接抓取网络盗版图书。内部清醒认识到侵权风险，但在追赶 OpenAI 的压力下选择冒险。

💰 从「白嫖」到「天价授权」

OpenAI 与 News Corp 签下 $2.5 亿 / 5 年授权协议，随后密集签约 FT、AP 等。2026 年 3 月，Meta 也与 News Corp 签下 $1.5 亿 / 3 年。

律师锐评

许多人误以为只要模型是开源的，其训练数据集就天然合规。在资本市场非诉尽调中，开源仅代表技术分发形式，绝不代表权利人的商用授权。

AI 早期「先污染后治理」的野蛮生长时代已结束，随着全球各大版权方组团围剿，「数据授权费用」正成为大模型企业最大的隐性资本性支出（CapEx）。

没有正版数据授权长期协议（Data Licensing Agreement）支撑的 AI 企业，资产负债表里其实埋着一颗随时可能引发核心模型被「熔断、停用」的商誉地雷。

★ TAKEAWAY

开源 ≠ 商用授权。Data Licensing Agreement 是大模型企业新的核心资本支出，没有长期协议支撑的，估值模型里需要单独减计商誉风险。

2司法前沿 — 从合理使用到「Model Cleanse」

法院判例

🏛 美国判例

法官 Orrick：「模型即复制」理论成立

2024 年 8 月，北加州法官 William Orrick 在 Andersen v. Stability AI 案中作出关键裁定，首次认可「模型即复制」理论，推翻了 AI 公司「我们只是学习模式」的核心抗辩。

⚖ 法官观点

"模型以算法形式包含版权作品，不足以阻碍直接侵权认定。"

— Hon. William H. Orrick, N.D. Cal., 2024.08

法官 Bibas：推翻自己的裁定

2025 年 2 月，美国第三巡回上诉法院法官 Stephanos Bibas 推翻此前有利于 AI 公司的裁定。

⚖ 法官观点

"将版权文本转换为算法用于 AI 训练不构成合理使用；日益增长的授权市场证明未经授权复制确实影响了版权作品的授权市场。"

— Hon. Stephanos Bibas, 3rd Cir., 2025.02

🏛 杭州互联网法院：首次认定训练可构成「合理使用」

2024 年，杭州互联网法院在「奥特曼平台案」中首次正面回应训练数据合规：若生成式 AI 在数据训练阶段使用他人作品的目的是「学习风格而非复制表达」，且未影响权利作品正常使用，可认定为合理使用。

律师锐评

资本市场最关心的不是诉讼谁输谁赢，而是司法救济手段对企业持续经营能力的影响。在 IPO 过程中遭遇训练数据诉讼狙击，相当于给 IPO 企业打了一剂镇定，影响 IPO 进程，更影响企业在迭代过程中的领先优势。

过去一年，海外司法实践对 AI 侵权的惩罚正从传统的「金钱赔偿」演变为破坏力极大的「模型清洗（Model Cleanse）」——即法院有权判令被告不仅要删除侵权数据，还要直接销毁、重新训练受该数据影响的底层模型和参数。这意味着企业数亿美金的算力和研发成本可能在瞬间归零。

因此，在评估 AI 标的时，数据底座的「洁净度（Data Cleansing）」和留痕机制，比模型本身的跑分重要得多，大模型企业需要足够重视该问题。

★ TAKEAWAY

Model Cleanse 是 AI 标的最大尾部风险——一旦触发，算力研发投入瞬间归零。尽调阶段「数据洁净度 + 留痕」比模型跑分更值得关注。

3IPO 红线 — 交易所问询与底层资产确权

监管口径

🇺🇸 SEC：训练数据来源必须披露

SEC 将 AI 列为 2024 年度首要披露审查事项，明确要求生成式 AI 企业在 10-K 报告中披露：训练数据是否包含受版权保护内容？是否存在数据合规诉讼风险？数据溯源披露不足可能构成证券欺诈。

🇭🇰 港交所：训练数据来源合法性是 18C 章核心

港交所对 AI 企业审核已从「泛化提问」转向「精准穿透」，明确要求核查：大模型训练数据来源是否合法？是否存在未经授权使用他人数据、侵犯知识产权的情形？

🇨🇳 沪深交易所：问询均涉及「训练数据来源合法性」

汉坤律师事务所统计：AI 企业上市审核问询均涉及「训练数据的收集规模及来源合法性」。典型案例：

• 旷视科技：要求说明「数据收集方式及其合法合规性」

• 云从科技：二轮问询数据来源及合规性

• 智谱华章：追问「训练数据收集规模及来源合法性」

律师锐评 · 数据资产「三关」核查

无论是赴港 IPO 还是 A 股申报，保荐人和发行人律师在面对大模型相关标的时，对「数据资产」的核查必须过三关：

• 权利无瑕疵：网络爬取数据是否涉嫌违反反不正当竞争法？是否违反了 Robots 协议？

• 合规无红线：数据清洗过程中是否彻底隔离了《个保法》定义的敏感个人隐私？是否涉及《数安法》下的重要数据跨境流转？

• 替代风险：发行人是否过度依赖单一第三方的数据接口？

一句话总结：在交易所上市审核中，无法证明其训练数据「来源合法、确权清晰、持续可得」的 AI 企业，将面临 IPO 被否决的风险。

📍 不同阶段处理路径

早期｜天使轮 — A 轮

建立数据来源登记簿，每批数据入库须记录来源 URL、抓取时间、Robots 协议状态及授权情况。台账是后续「洗白」的唯一依据。

成长期｜B 轮 — C 轮

建立数据分级管理制度（已授权 / 待授权 / 未授权但可辩护 / 未授权且高风险），逐步替换高风险数据（影视 IP、新闻出版物、知名艺术家作品）。

Pre-IPO 阶段

聘请专业律所进行穿透核查，未获授权高风险数据进行必要的剔除；招股书中如实披露训练数据来源被诉风险，并准备 Model Cleanse 应急预案。

★ TAKEAWAY

数据合规不是 Pre-IPO 阶段一次性清洗的活——天使轮就该建台账，B 轮起做分级，IPO 阶段做穿透核查+Model Cleanse 应急预案。

◆ ◆ ◆

AI 资本边界

Capital Markets Legal Insights on AI

关注本公众号，获取更多 AI + 资本市场的深度分析