
Learn By Doing With Steven 数能生智
互联网上的真实人类数据正在耗尽。主要 LLM 厂商已经使用了几乎所有公开可用的高质量文本——预计整个互联网约有 10 万亿 token 的数据,大模型已经吃了个差不多。下一步怎么办?答案似乎是合成数据——用 AI 自己生成训练数据。但这引出了一个令人不安的问题:用 AI 喂养的数据来训练 AI,会不会让模型陷入一种缓慢的自我降解?
数据的马尔萨斯困境
托马斯·马尔萨斯在 18 世纪警告:人口增长是指数级的,但粮食生产是线性的,两者必将碰撞。今天,AI 领域面临着一个类似的困境:
模型对数据的需求,正在超越人类生产高质量数据的速度。
GPT-4 的训练集约 13 万亿 token Llama 3 的训练集约 15 万亿 token 下一代模型估计需要 100 万亿 token 以上
而可用的高质量互联网文本,估计只有 10-20 万亿 token。这个缺口,只能用合成数据来填补。
一、合成数据的正确用法
并非所有的合成数据都是有害的。它在某些场景下,是真正有价值的训练信号:
有效的合成数据应用
数学与代码:这两个领域有一个关键特性——输出可以被程序化验证。你可以生成一道数学题,让模型尝试解答,用程序检验答案是否正确。只有答案正确的数据,才被加入训练集。这就是 DeepSeek R1 和 OpenAI o 系列模型成功的秘密:自我博弈(Self-Play)+ 可验证奖励。
罕见知识的增强:对于训练数据中本来就稀少的领域(如古语翻译、特定专业知识),合成数据可以填补训练分布的空白。
对话风格的对齐:RLHF(基于人类反馈的强化学习)可以用 AI 生成候选回答,再由人类/强模型排序——这里的合成是"候选生成",而最终的偏好信号来自真实评估。
危险的合成数据应用
用弱模型的输出来训练弱模型:如果 A 模型的输出用来训练 B 模型,而 A模型的能力并不超过 B,那么 B 只是在学习 A 的局限,而非真正的提升。
无验证机制的大规模生成:在没有任何可验证的质量过滤的情况下,大规模生成文本并用于训练,是一种将错误锁定进模型参数的做法。
二、模型崩溃(Model Collapse):被证实的威胁
2024 年,牛津大学、剑桥大学等机构的研究人员发表了关于"模型崩溃(Model Collapse)"的研究:
当模型反复在合成数据(前代模型输出)上训练时,会发生什么?
实验结果揭示了一个令人担忧的模式:
- 第一代
在真实数据上训练,模型有良好的多样性和准确性 - 第二代
部分使用第一代模型的合成数据,输出多样性轻微下降 - 第五代
几乎完全使用合成数据,输出趋向单一化,罕见知识开始消失 - 第十代
输出质量严重退化,模型只会生成少数几种高频模式的变体
这个过程类似于近亲繁殖(Inbreeding)——每一代都在强化上一代的偏差,同时丢失多样性。
三、互联网的"AI 污染"问题
模型崩溃的风险,还有一个更隐蔽的维度:互联网正在被 AI 生成的内容大量填充。
2024 年,AI 生成内容占新发布网络内容的比例估计超过 30% 新闻聚合、博客、社交媒体,充斥着 AI 改写或生成的文章 下一代模型爬取互联网时,将有大量 AI 生成的数据混入训练集,而无法被完全识别和过滤
这意味着,即使模型公司努力避免使用合成数据,现实世界的训练数据本身,已经在被 AI 内容污染。
如果互联网变成一面镜子,只是反射上一代 AI 的偏见和局限,下一代 AI 从这面镜子里学到的,也只是偏见和局限的放大版。
四、解药:可验证性是核心
从成功的合成数据应用(数学、代码)中,我们可以提炼出一个关键原则:
有效的合成数据,必须有独立于生成过程之外的验证机制。
数学题:程序验算 代码:单元测试 / 运行时验证 化学分子:分子动力学模拟 棋类游戏:规则引擎验证
这些领域的合成数据是安全的,因为真理的最终仲裁者不是模型本身,而是外部的、形式化的验证系统。
自然语言领域的挑战,正在于它缺乏等价的验证机制——你如何程序化地验证一篇文章"写得好"?这个问题,尚无完美答案。
五、大厂的现实策略
各大实验室对这个问题的应对策略,正在趋于清晰:
没有一个完美的解决方案。但保持对真实数据的获取渠道,以及对合成数据的严格质量门控,是当前最可行的策略组合。
一个需要被认真对待的风险
合成数据不是 AI 训练的终极答案,但它也不是必然的毒药。它的效果,完全取决于如何使用它。
在有可验证性的领域,合成数据是真正的数据飞轮。在无法验证的领域,未经过滤的合成数据是一条通向模型退化的危险道路。
下一个十年,数据质量的重要性,将超越模型参数量的重要性。 谁拥有高质量、可验证、真实多样的数据,谁就拥有 AI 能力的下一个护城河。
你认为"模型崩溃"的风险是被高估了,还是被低估了?欢迎在评论区分享你的看法。
Learn By Doing With Steven 数能生智All my links: https://linktr.ee/learnbydoingwithsteven
夜雨聆风