

训练大模型:下载盗版+切书
一、核心事件:两起AI版权诉讼案
1. Anthropic案(已完结)
项目 | 内容 |
|---|---|
起诉时间 | 2024年8月 |
原告 | 3位作家代表集体诉讼 |
侵权方式 | 从盗版图书站点批量下载约50万本书用于模型训练 |
裁决结果 | ① 下载盗版书行为 → 违法;② 用书籍内容训练AI → "合理使用",不违法 |
和解结果 | 2025年9月庭外和解,赔偿15亿美元,销毁全部下载资料 |
单本赔偿 | 约3000美元(仅为美国版权法上限15万美元的2%) |
2. Meta案(进行中)
项目 | 内容 |
|---|---|
侵权方式 | 使用BT下载工具,共下载81.7TB图书 |
严重性 | 因BT下载存在"分享"行为,法律性质更严重 |
预判 | 单本书赔偿金额可能高于Anthropic案 |
二、关键法律判例:AI训练的"合理使用"
核心裁决:用书籍内容训练AI模型属于**"合理使用"**(Fair Use),不违法
法律依据:源于2000年代谷歌搜索引擎时期的系列诉讼判例
行业影响:此判决为AI巨头大规模收集书籍扫清了法律障碍
三、AI巨头为何疯狂收集书籍?
1. 互联网数据质量堪忧
对比维度 | 互联网数据(Common Crawl/C4) | 书籍数据 |
|---|---|---|
数据来源 | 90年代至今所有可爬取网页 | 经三审四校、作者编辑把关的出版物 |
原始体量 | 9.5 PB(约几百亿网页) | 全球书籍上限约3万亿token |
清洗后质量 | 充斥着奇怪格式、无效填充、OCR错误、图表错乱 | 高质量、长篇幅、复杂逻辑结构 |
典型问题 | 网页导航文字("首页""联系我们")、SEO堆砌关键词、表格数据丢失二维关系 | 完整论证结构、递进逻辑、嵌套表达 |
2. 安德烈·卡帕西(Andrej Karpathy)的发现
OpenAI元老,曾查看GPT-4预训练数据
评价:"充斥着各种奇怪的格式、无效的填充、OCR的漏洞,以及图表与正文的错乱排布,标准非常低"
结论:哪怕是清洗后的数据,质量也只有"二三十分优化到五六十分"的水平
3. 下一代模型的数据需求
模型代际 | 预训练数据量级 |
|---|---|
GPT-4 / Llama 3 | 约15万亿token |
下一代基座模型 | 预计超100万亿token |
数据缺口分析:
全部维基百科:0.003万亿token
全球科研论文:约0.2万亿token
全球书籍理论上限:3万亿token
清洗后的网页数据:约5万亿token
缺口:还差30多倍
四、"巴拿马"项目:正版书的工业化处理
项目 | 内容 |
|---|---|
发起方 | Anthropic(2023年盗版被举报后转向) |
操作方式 | 全球收购新旧图书 → 液压设备切掉书脊 → 工业扫描仪扫描 → 当作垃圾处理 |
目标规模 | 6个月内完成50-200万册图书数字化 |
法律性质 | 合法购买后使用,属于"合理使用" |
五、核心观点与深远影响
1. 知识体系的重塑
"曾经固化和透明的知识,被拆碎了以后,隐藏在一个巨大的矩阵中。实体书就像柴火一样燃尽了自己。"
传统知识形态 | AI时代知识形态 |
|---|---|
有明确出处、可追溯 | 无出处的"能力"输出 |
作者-读者直接对话 | 知识成为模型"原料" |
完整论证结构 | 碎片化token |
情感、立场、责任载体 | 纯数据燃料 |
2. 创作者生态的变化
写作、研究、出版成为模型的"原料供给"
若回报机制跟不上,长期投入创作的人可能减少
社会对"原创"的理解将改变
3. 这可能是"最后一次提升"
"这个提升很可能就是由人类制造的训练数据,为AI模型贡献的最后一次提升了。"
原因:人类知识总量有限,书籍扫描完毕后,高质量数据源将枯竭
六、关键结论
数据质量决定模型上限:书籍质量远超互联网内容,是下一代模型突破的关键
法律已为AI铺路:"合理使用"原则使AI巨头可合法/半合法地席卷人类知识
实体书的命运:作为知识载体功能将衰退,可能转向情感交流形式
知识生产关系变革:创作者被排除在商业利益之外,价值分配机制待重建
人类知识的"最后一次":书籍数据耗尽后,AI文字能力提升将触及天花板

夜雨聆风