当整个行业都在押注"更多数据=更强模型"时,一个令人不安的事实正在浮现:人类积累的高质量知识,可能撑不过下一次模型迭代。这不是远虑,是近忧。

一、Scaling Laws的"隐形壁垒"
过去五年,AI行业有一个近乎宗教般的信仰:Scaling Laws。这个由OpenAI研究团队在2020年系统阐述的规律告诉我们——模型参数量、训练数据量、计算量,三者按固定比例同步增长,就能持续获得性能提升。10倍算力、10倍数据、10倍参数,换来的是可预测、可复现的能力跃迁。
这个信仰造就了今天的一切。GPT-4、Claude 3、Gemini Ultra、Llama 3,这些模型的背后,是万亿级别的参数和数万亿token的训练数据。它让投资者相信,只要继续烧钱,智能就会源源不断地涌现。它让创业者相信,只要复制这条路径,就能做出下一个OpenAI。
但有一个问题被刻意忽略了,或者说,被选择性遗忘了:Scaling Laws假设数据是无限的、高质量的、多样化的。它假设这个世界上总有新的文本等着被爬取。
这个假设正在崩塌。而且崩塌的速度,比大多数人意识到的更快。
2023年底,研究机构Epoch AI发表了一份被严重低估的研究报告。他们通过系统性的数据池估算,得出了一个令人震惊的结论:
全球可公开获取的高质量文本数据总量约为300万亿token。听起来很多?但按当前大模型的训练消耗速度来看——GPT-4级别的模型一次训练就要消耗约13万亿token,而行业头部公司每年推出多个新版本,且每个版本的数据量都在指数级增长——人类积累的高质量文本数据将在2026-2028年间被完全耗尽。
Epoch AI的估算方法相当保守。他们只统计了"高质量"数据——书籍、学术论文、经过编辑的新闻、专业内容。如果把社交媒体上的低质量文本也算进去,总量当然更大,但训练价值也更低。问题在于,当前最前沿的模型已经在用高质量数据训练的边际收益递减了。你再给GPT-4o喂一万亿条推特,它的数学推理能力也不会提升半分;你给它十万亿条Reddit评论,它的编程水平也不会突破一个量级。
图像数据的情况更糟。
视觉Transformer的爆发式训练需求,已经让可用图像数据池缩水到了危险边缘。Meta在2024年训练Llama 3的多模态版本时,就公开承认遇到了"高质量图像-文本配对数据不足"的问题。Stable Diffusion 3的训练团队也曾私下抱怨,找到"既美观又语义准确"的图像-描述配对,比训练模型本身还难。视频数据?更是稀缺资源。YouTube上数十亿小时的视频,真正适合训练的、有清晰语义标注的片段,连总量的1%都不到。
这不是"未来可能会发生"的问题。这是正在发生的问题。数据壁垒不是远方的地平线,而是我们已经撞上的玻璃幕墙——还能前进几步,但每一步都在碎裂,都在发出不祥的声音。
二、合成数据的"救场"

面对数据墙,行业的解决方案出奇一致:既然人类数据不够了,那就让AI自己造数据。
合成数据不是新概念。计算机视觉领域早在2010年代就开始使用合成图像训练模型——游戏引擎生成的车辆、3D渲染的人脸、模拟的街景。但在大语言模型时代,合成数据的规模和重要性被推到了前所未有的高度。它不再是一个补充手段,而是正在变成主菜。
OpenAI在2024年的技术报告中首次承认,GPT-4o的后训练阶段使用了大量由GPT-4 Turbo生成的合成对话数据。Anthropic的Claude 3.5技术文档里,“synthetic data"这个词出现了17次。Google DeepMind更是直接表示,Gemini 1.5 Pro的部分长上下文能力来自于"大规模合成数据pipeline"的突破性进展。微软的Phi系列小模型,其核心竞争力之一就是"教科书级合成数据”——用模型生成高质量的教学文本,然后用来训练更小、更高效的模型。
合成数据的技术路径大致有三条,每条都有其特定的适用场景、优势和隐藏成本:
第一条,自我对弈(Self-Play)。 这是从游戏AI领域借鉴过来的思路。让模型自己与自己对弈,生成高质量的推理链条。AlphaGo到AlphaZero的进化就是这个逻辑——不再依赖人类棋谱,而是让AI自己探索围棋的可能性空间。现在这个方法被用到了语言模型的数学和代码训练上。DeepMind的AlphaProof系统,据说在合成数学证明数据上训练了数月,生成的证明路径远超人类数学家几个世纪的积累。Meta的Code Llama团队也使用了类似的自我对弈方法,让模型自己生成编程问题、自己编写解法、自己验证正确性。
但自我对弈有个前提,而且这个前提非常苛刻:目标必须是可验证的。围棋有明确的胜负规则,数学证明有严格的逻辑检验,代码有编译器和测试用例。但在开放域对话、创意写作、伦理判断、情感支持这些没有明确正确答案的领域,自我对弈很容易陷入"自我确认偏误"——模型不断生成它自己认为"好"的回答,而这个"好"的定义本身就在固化,在收窄,在趋同。
第二条,多智能体交互(Multi-Agent Simulation)。 这是目前最有前景也最复杂的路径。搭建多个模型角色,让它们互相辩论、提问、纠错。Anthropic的Constitutional AI就是早期版本——一个模型生成回答,另一个模型根据"宪法"原则评判,生成改进后的版本。现在这套方法已经被扩展到了更复杂的场景模拟:模拟法庭辩论、模拟科学讨论、模拟医患对话、模拟客服场景。
Meta的AI研究团队在2025年发表的一篇论文中展示了一个有趣的实验:他们让三个Llama模型分别扮演"物理学家"“生物学家"和"哲学家”,围绕一个跨学科问题展开辩论。结果显示,经过多轮交互生成的合成数据,在训练下游模型时,比单一模型生成的数据效果提升了约15%。但这个提升是有天花板的——当辩论轮数超过某个阈值后,模型们开始互相"迎合",输出趋同,创新性反而下降。论文作者称之为"共识陷阱"(Consensus Trap)——多智能体系统在缺乏外部真实信息输入的情况下,会自发收敛到一个平庸的共识。
第三条,蒸馏-放大(Distillation-Amplification)。 这是目前最实用的商业路径。用最强模型(比如GPT-4o或Claude Opus)生成高质量数据,然后用来训练更小、更便宜的模型。本质上是用算力换数据——如果你买不到足够多的真实数据,就用模型自己造。苹果训练Apple Intelligence的端侧模型时,就大量采用了这种策略:用云端大模型生成数据,然后蒸馏给本地小模型。微软的Phi-3也走了同样的路线,用GPT-4生成"教科书质量"的数据,然后训练出一个38亿参数但性能惊人的小模型。
这三种方法看起来很美,构成了一条完整的"替代路径"。它们让行业相信,数据墙不是什么大问题——造就是了。但问题是,它们都有一个致命的原罪,而且这个原罪是不可消除的:
合成数据不能创造新信息。它只能重组、变形、蒸馏、排列组合已有的信息。它是在已知的知识边界内跳舞,而不是拓展边界。
三、模型崩溃:系统性退化
2024年7月,《Nature》上发表了一篇题为"AI models collapse when trained on recursively generated data"的论文。研究团队来自牛津大学、剑桥大学和帝国理工。这篇论文的结论,用一句话概括就是:当模型反复在由其他模型生成的数据上训练时,会发生系统性退化,而且退化速度比直觉预期的快得多。
他们给这个现象起了个名字:“模型崩溃”(Model Collapse)。
论文中的核心实验设计得很巧妙。研究团队使用了一个高斯混合模型作为简化示例——这不是语言模型,但数学原理相通。他们让模型先生成一批合成数据,然后用这些合成数据训练下一代模型,如此循环。结果显示,经过仅9轮"合成-训练-再合成"循环后,模型输出的分布已经严重偏离原始数据。更具体地说,极端值完全消失,分布变得极度集中,模型逐渐退化为一个不断重复最"安全"、最"平均"答案的噪声机器。
换到语言模型的场景,这意味着什么?意味着模型会逐渐丧失处理罕见情况的能力。那些低频词汇、边缘概念、少数派观点、非主流文化表达、小众专业术语,会在一次次合成中被"平均"掉。模型会越来越擅长说"正确的废话",越来越不擅长处理真正新颖、反直觉、需要突破性思考的问题。它会变成一个巨大的回声室,不断放大主流声音,直到边缘声音完全消失。
这解释了为什么当前AI系统有一个共同特点:它们在处理主流、常见问题时表现惊艳,但在遇到真正边缘、新颖的问题时,会给出一种令人不安的"平庸化"回答。那不是谨慎,不是谦虚,是数据同质化的症状。是模型崩溃的早期表现。
更可怕的是,我们已经在不知不觉中进入了这个循环。当互联网上充斥着AI生成的内容——AI写的新闻稿、AI生成的评论、AI翻译的论文、AI总结的文档、AI生成的社交媒体帖子——而这些内容又被下一代模型爬取、训练时,整个互联网正在变成一个巨大的反馈回路。模型在吃自己的输出,然后输出更多供自己食用的内容。这个循环一旦启动,就很难停止。
Google Research在2025年的一份内部报告(后被泄露)中估计,到2026年底,互联网上超过50%的新文本内容可能由AI生成。如果这个数字是准确的,那么模型崩溃不再是理论风险,而是已经发生的工程现实。只是我们还没有足够敏锐的检测手段来量化它。我们还在用旧的评估基准测试模型,而这些基准本身可能已经被污染了——测试数据里混入了模型生成的内容,导致评估结果失真。
《Nature》那篇论文的作者之一,牛津大学的Ilia Shumailov在接受采访时说了一句话,让我印象深刻:“Model collapse is not a bug, it’s a feature of the system. The only way to avoid it is to keep feeding the model real human data.”(模型崩溃不是bug,是这个系统的固有特征。避免它的唯一方法,是持续给模型喂食真实的人类数据。)
但问题恰恰在于:我们没有那么多真实人类数据了。Epoch AI的估算摆在那里——300万亿token,按当前消耗速度,2028年见底。Ilia Shumailov的"唯一方法",在数据墙面前变成了一个不可能完成的任务。
四、混合路线:不是解药,是精致的拖延术
行业不是傻子。模型崩溃的研究出来之后,合成数据的使用策略已经发生了明显转变。从"大胆全面拥抱"变成了"谨慎地、有控制地使用"。
现在的主流做法是**“混合路线”(Hybrid Pipeline):保留一定比例的真实人类数据作为"锚点",其余用合成数据补充。具体比例各公司保密,但据行业内部人士透露,Anthropic在Claude 3.5的后期训练中,真实人类数据占比约为30-40%。Google的Gemini团队也在内部强调"human-in-the-loop"验证机制——所有合成数据在入池前,必须经过人类标注员的抽样质检。OpenAI则采取了分层策略:预训练阶段尽可能用真实数据,因为预训练需要模型学习语言的底层结构和世界的知识分布;后训练阶段(RLHF、指令微调)大量使用合成数据,因为这一阶段的目标更明确——教会模型遵循指令、保持安全、输出特定格式。
这些策略在工程上是合理的,但它们在理论上有一个根本性的矛盾:它们无法解决数据总量的瓶颈,只是把瓶颈推迟了几年。
如果真实数据只能占总训练数据的30-40%,那Scaling Laws的公式就得改写。模型性能的提升曲线会变平,因为合成数据的信息密度天然低于真实数据。你可以用10万亿token的合成数据来替代5万亿token的真实数据,但你无法获得5万亿真实数据能带来的全部能力——尤其是处理罕见模式、边缘案例和真正创新的能力。
这意味着什么?我认为,它意味着大模型的性能天花板正在从"算力"转移到"数据质量"。未来两到三年,我们可能会看到这样一个局面:拥有最好数据pipeline的公司,而不是拥有最多GPU的公司,会做出最好的模型。算力正在变成商品——Google租SpaceX算力这件事本身就是一个信号。但数据pipeline不是商品,它是知识工程的艺术。
而"最好的数据pipeline"不等于"最多的数据"。它等于"最精心设计的数据分布"——在真实数据的约束下,最大化合成数据的价值,同时最小化模型崩溃的风险。这是一道复杂的优化题,没有标准答案,没有现成公式。它要求你理解你的目标领域、理解信息分布、理解模型训练动力学,然后在三者之间找到平衡。
五、数据策略才是下一代护城河
如果我的判断是对的,那么AI行业的竞争逻辑正在发生一场静悄悄的变革。这场变革不会像ChatGPT发布那样引起轰动,但它的影响会更深远。
过去三年,护城河是算力。Nvidia的GPU、数据中心的规模、融资能力——这些决定了你能做多大的模型。但当算力变得商品化(Google甚至需要去租SpaceX的算力,这说明算力市场正在从卖方市场转向买方市场),数据策略就成为真正的差异化因素。而且,这是一个复利型的差异化——你今天积累的数据优势,会在明天、后天持续放大。
OpenAI的独家数据合作协议——从与Axel Springer的新闻版权协议,到与Reddit的数据授权,再到与各类专业出版机构的合作——这些动作的真正价值,不是"拿到了一些文本",而是拿到了人类知识分布的边缘部分。新闻中的罕见事件、Reddit上的小众讨论、专业领域的垂直知识、法律文档的精确表述、医学文献的严谨论证——这些才是对抗模型崩溃的关键。因为模型崩溃的本质,是"中间化"——消灭边缘、强化平均。要对抗它,就必须持续注入边缘数据,保持分布的"长尾"。
同样,Anthropic的"宪法AI"方法论之所以重要,不是因为它听起来很伦理,而是因为它提供了一种可控制的信息注入机制。通过设计不同的"宪法原则"来筛选和生成合成数据,本质上是在人工塑造数据的分布形状——这可以被理解为一种"数据工程学"。Anthropic在2025年的一篇技术博客中透露,他们使用超过50种不同的"宪法变体"来生成多样化的合成数据,目的就是避免输出分布的过度集中。这不是在做伦理研究,这是在做数据分布控制。
我预测,未来18个月内,我们会看到一个新的角色崛起:数据架构师(Data Architect)。
不是传统意义上的数据工程师,而是专门负责设计"数据配方"的人——多少真实数据、多少合成数据、什么生成策略、什么质量控制机制、什么分布形状、如何注入边缘信息。这个角色会比模型架构师更稀缺,因为好的数据pipeline需要领域知识、统计直觉和工程能力的结合。它要求你既懂信息论,又懂语言学,还要懂分布式系统,还要懂你所在领域的专业知识。
微软已经在组建这样的团队。据The Information报道,他们正在招募"训练数据策略专家",要求候选人"设计并执行大规模数据pipeline,优化模型能力的分布覆盖"。这个职位描述里没有提到模型架构,没有提到算法创新——只有数据。只有分布。只有质量。
六、结论:数据墙的后面是什么?
高质量训练数据的耗尽,不会杀死大模型行业。但它会改变这个行业的游戏规则。而且改变的方式,可能比大多数人预期的更剧烈。
合成数据是必需的,但它不是万能的。它更像是一种止痛药——能缓解症状,但治不了病根。真正的病根是:人类创造新知识的速度,远远赶不上AI模型吞噬知识的速度。人类每年产生的新文本数据,在数量级上已经无法支撑下一代模型的训练需求。这不是技术问题,是信息经济学问题。
这个矛盾没有简单的解决方案。你可以用更高效的模型架构来降低数据需求,可以用多模态数据来扩展数据池,可以用强化学习来从更少的数据中提取更多价值。但这些方法都只是延缓,不是解决。数据墙就在那里,而且它越来越高。
对于AI从业者,我的建议很具体:
第一,不要迷信规模。 如果你的应用场景需要处理边缘案例、罕见模式或专业领域知识,盲目扩大训练数据规模可能适得其反。一万亿token的同质化数据,不如一千亿token的多样化数据。先搞清楚你的数据分布,再决定训练策略。在数据墙时代,"少而精"比"多而杂"更有价值。
第二,投资数据质量基础设施。 数据清洗、去重、质量评分、来源追踪、版本控制——这些听起来很无聊的工作,正在成为模型性能的决定性因素。一个好的人类数据标注团队,比一堆A100更有价值。在数据墙时代,"数据质量"比"数据数量"的ROI高得多。而且,数据质量的提升是累积的——你今天做的清洗工作,会在未来每一次训练中得到回报。
第三,警惕反馈回路。 如果你正在构建AI产品,确保你的模型不是在吃自己生成的内容。建立内容来源追踪机制,区分人类生成和AI生成数据——这在技术上不难,但需要有意识地做。否则,你正在不知不觉中训练一个越来越平庸的系统。而且,这个平庸化过程是不可逆的——一旦模型崩溃开始,就很难恢复。
数据墙不是末日预言。它是行业从"野蛮生长"走向"精密工程"的转折点。能穿越这道墙的公司,不会是那些烧最多钱的,而是那些最懂得知识的价值的。它们会明白,AI的尽头不是算力,不是参数,不是架构创新——是信息本身。那些真实、多样、充满边缘和意外的,人类知识。
而人类知识的真正价值,恰恰在于它的不完美——它的偏见、它的矛盾、它的偏见、它的惊喜。这些不完美,是合成数据永远无法复制的。也是AI永远无法替代的。
这才是数据墙带给我们的,最深刻的启示。
夜雨聆风