AI前沿|AI 真的在＂撞墙＂吗:一场关于放缓的争论

导语：这两年你被"AI 要取代一切"轰炸得够呛。可最近硅谷在吵一件相反的事——AI 是不是开始变慢了？这篇咱们把"缩放定律""数据墙""撞墙论"几个词一次讲清楚，看完你大概能分清，哪些是真问题，哪些是吵架。

一、先说个反常识的事

你有没有发现，最近一年，AI 新模型发布会上的"哇"声，明显小了？

前几年不是这样。2023 年一个新模型出来，能把你看傻：会写代码、会做题、会画图，每隔几个月就上一个台阶。那种感觉，就像看着一个孩子，今天会爬、明天会走、后天就能跑了，你都来不及惊讶。

可到了 2025、2026 年，画风变了。新模型当然还在出，参数更大、跑分更高，但你心里那个"卧槽"越来越难被点着。更要命的是，2026 年 6 月，一篇题目就叫《AI 正在放缓》的评论文章，在程序员聚集的 Hacker News 上炸了锅——500 多分、500 多条评论，吵成一团。一派说"早就该慢了，泡沫要破"；另一派说"你们根本不懂，人家换赛道了"。

这就奇怪了。一边是各家公司天天喊"通用人工智能就在眼前"，一边是技术圈自己人开始唱"它快到顶了"。到底谁对？

要看懂这场架，得先搞清楚一个词：缩放定律 （Scaling Laws）。说白了，它是过去五年整个 AI 行业的"信仰"。这篇咱们就从这个信仰讲起，看看它现在为什么动摇了。

事件速览
• 争论引爆点 ：2026 年 6 月，评论文《AI is slowing down》登上 Hacker News 热榜（约 504 分、525 条评论），重新点燃"AI 进展是否在递减"的辩论。
• 核心概念 ：缩放定律——OpenAI 团队 2020 年（Kaplan 等）提出，DeepMind 2022 年用"Chinchilla"实验修正，大意是模型能力随"参数 + 数据 + 算力"的增加而可预测地变强。
• 关键裂痕 ：2024 年底，OpenAI 联合创始人 Ilya Sutskever 在 NeurIPS 公开说"我们所知的预训练将会终结"。
• 两派态度 ：Sam Altman 坚持"没有墙"（there is no wall）；Anthropic 的 Dario Amodei 认为缩放"大概率会继续"；怀疑派则认为收益已明显递减。

二、缩放定律：AI 行业信了五年的那条"曲线"

要理解今天的争论，得先回到 2020 年。

那一年，OpenAI 的研究者 Kaplan 等人发了一篇论文，干了件特别"理工男"的事：他们把模型做大、把数据喂多、把算力堆高，然后画了一条曲线。结果发现——模型的"损失"（可以粗暴理解成"犯错的程度"）随着这三样东西的增加，居然以一种相当规整、可预测的方式往下掉。

这是什么概念？等于说，AI 的进步第一次有了"配方"。 你不用靠灵感、靠运气，只要往里砸钱、砸数据、砸显卡，模型就会按一条曲线稳稳变强。这在科学上很罕见——大部分领域，你投入翻倍，产出根本不会乖乖跟着走。

2022 年，DeepMind 又用一组叫"Chinchilla"的实验把这个配方调精细了：他们指出，之前大家普遍"参数堆太多、数据喂太少"，最划算的练法，是参数和数据按一定比例一起涨。这就是著名的"Chinchilla 最优"。

打个比方，这就好比熬汤。Kaplan 告诉你"火越大、料越多、时间越长，汤越鲜"；Chinchilla 进一步告诉你"料和水得按比例放，光加料不加水，咸得没法喝"。

缩放定律示意：随着算力投入增加，模型“犯错程度”按一条可预测的曲线下降，但越往后越平

有了这个配方，过去五年整个行业的逻辑就清晰了：拼命变大。 谁的显卡多、谁的数据多、谁敢烧钱，谁的模型就强。于是你看到了那场疯狂的军备竞赛——英伟达的显卡被抢空，几百亿美元砸进数据中心，电力都快不够用了。

这条曲线，就是 AI 行业信了五年的"上帝公式"。问题来了——它，开始不灵了。

三、往下挖一层：曲线为什么会"压扁"

注意，没有人说曲线断了、反转了。争论的焦点是两个字：递减。

什么叫递减？还是看那条曲线。它从来不是一条 45 度的直线，而是一条"先陡后缓"的弧线。一开始，你投入翻一倍，能力蹭蹭涨；可越往后，同样翻一倍，涨幅越来越小。到了某个阶段，你花了双倍的钱，模型可能只在最难的推理题上好了 10% 到 20%。

这就是麻烦所在。早期，从"小学生"到"大学生"，投入不大、提升惊人；现在已经是"博士"了，想再往上拱一点点，得砸进去几倍的资源。投入是真金白银地翻番，体感进步却越来越不明显。

为什么必然会这样？至少有三道坎，咱们一道道看。

第一道坎，是数据墙。 这是最硬、也最容易被忽略的一条。前面说了，配方里有一项是"数据"。可数据不是无限的——高质量的人类文本，全互联网加起来，业内估算大概就在 10 万亿到 50 万亿 token 这个区间（token 你可以粗略理解成"词的碎片"）。听着很多？但一个万亿参数级别的模型，按 Chinchilla 的配方，胃口就得 20 万亿 token 上下。

换句话说，人类几千年攒下的文字，快不够 AI 吃了。 这就好比一个学霸，把图书馆所有书都背完了，你让他再聪明一点，他上哪儿找新书？剩下的，要么是低质量的网络垃圾，要么是 AI 自己生成的内容——可拿 AI 的输出再喂 AI，容易"近亲繁殖"，越练越蠢。这道坎，光靠钱是推不动的。

第二道坎，是成本墙。 缩放定律有个残酷的隐含前提：你想要线性的能力提升，往往得指数级地加投入。结果就是训练成本坐了火箭。业内估算，如今训一个前沿模型，单是算力就要约 5 亿美元；下一代的数字，被一些分析摆到了 10 亿乃至 100 亿美元。

钱能解决的问题都不是问题？可当账单大到这个程度，它本身就成了问题。因为商业是要算回报的。 你花 100 亿训出来的模型，如果只比上一代好那么一点点，用户感知不强、愿意多付的钱也有限，这笔买卖就开始亏。资本不是慈善，递减的不只是技术曲线，还有投资回报曲线。

第三道坎，是体感墙。 这条最微妙。模型在跑分榜上还在涨，可普通用户的"哇"声为什么小了？因为人对"聪明"的感知，本身就是非线性的。一个能答对 80% 问题的助手和一个能答对 90% 的，你日常用起来，差别没有数字看上去那么大；但要把那 10% 啃下来，研发难度是地狱级的。跑分还在涨，惊艳已封顶——这是递减最直观的样子。

把这三道坎叠一块儿你就明白了：所谓"放缓"，不是 AI 不行了，而是"光靠把预训练做大"这条最好走的路，越来越贵、越来越挤、越来越不划算。

四、再往下：行业其实早就在换路了

那是不是 AI 就到头了？这正是吵架的另一方要反驳的地方。他们说：你们盯着的是一条已经走得差不多的老路，可人家早换赛道了。

这话有依据。2024 年底，连"缩放定律"的旗手之一、OpenAI 联合创始人 Ilya Sutskever，都在 NeurIPS 大会上公开说了一句分量很重的话——"我们所知的预训练，将会终结。" 他还说，2010 年代是"缩放的时代"，而现在，我们重新回到了"探索和发现的时代"。

请注意，他说的是"我们所知的预训练"终结，不是"AI"终结。这中间差着十万八千里。意思是：单纯把模型练大这一招，红利快吃完了，但故事换了主角。

新主角是谁？现在业内大致把"缩放"拆成了三条不同的轴，预训练只是其中一条：

第一条，预训练（pre-training）。 就是前面说的老路——把海量文本喂给模型，让它先把世界"读"一遍。这条遇到了数据墙，红利在收窄。

第二条，后训练（post-training）。 模型"读"完书之后，再用人类反馈、强化学习去"调教"它，教它怎么把知识用得更对、更合人意。这就像一个读完万卷书的学生，还得有人带他实习、纠正他的毛病。这条路这两年长得很快。

第三条，推理时计算（test-time compute）。 这是最近最热的方向，也是 o 系列这类"推理模型"的核心。说白了，就是不在训练时死磕，而是让模型在回答你问题的时候，多想一会儿。 以前模型是"脱口而出"，现在是"先在草稿纸上演算，再给你答案"。同一个模型，让它多花点时间思考，难题的正确率能明显上去。

打个比方你就懂了。预训练，像是让学生把所有教材背熟；这条路上，书快背完了。但你还有两招：一招是请名师给他开小灶、改错题（后训练）；另一招是考试时别让他抢答，给他足够时间打草稿（推理时计算）。书背到头了，不代表分数到头了。 这就是反驳派的底气。

所以你看，"AI 放缓"这个说法本身就有点偷换概念。准确的说法是：预训练这条特定的路在放缓，但 AI 整体还在沿着另外两条路往前拱。 至于那两条新路能拱多远，老实说，现在谁也不敢打包票——这恰恰是 Sutskever 说"回到探索时代"的意思：配方失灵了，又得靠真本事去蒙、去试了。

五、对照：这一幕，像极了"摩尔定律"

如果你觉得这套"曲线压扁"的故事似曾相识，那是因为——它在科技史上演过太多回了。

最经典的对照，是摩尔定律。半个多世纪里，芯片上的晶体管数量每隔约两年翻一番，电脑一年比一年快，跟现在 AI 的剧本一模一样。可到了这十几年，物理极限逼近，晶体管小到不能再小，"摩尔定律要死了"的讣告每年都有人写。

结果呢？芯片确实没法靠"单纯做小"接着狂飙了，但行业换了打法：多核、堆叠、专用芯片、先进封装……性能照样在涨，只是不再是当年那条又陡又爽的直线。一条路走到头，从来不等于终点，而是逼着你去找新路。

AI 现在就站在这个路口。预训练这条"等比例放大"的高速公路快到尽头了，但这不意味着 AI 停车，只意味着它得下高速、走国道，速度和姿势都得变。

还有个更日常的例子：飞机。上世纪民航速度一路狂飙，大家以为很快人人都能坐上超音速客机。结果协和飞机退役，几十年来民航的巡航速度几乎没再涨——因为再快一点，油耗、噪音、成本就压不住了，性价比划不来。但航空业停滞了吗？没有，它只是不在"速度"这一个指标上死磕，转头在省油、安全、航程、舒适上接着进步。这跟 AI 是同一个剧本 ：当一个最显眼的指标（飞机的速度、AI 预训练的规模）涨不动了，行业不会原地等死，而是把发力点挪到别的维度去。所以盯着"模型有没有更大"喊完蛋的人，很可能正好错过了它在"更会想、更便宜、更好用"上正在发生的事。

这里多说一句，也是这场争论里最容易被情绪带跑的地方。技术圈有个老毛病：要么神化，要么唱衰。前几年是无脑神化——"明年就 AGI、后年就失业潮"；现在风向一转，又有人无脑唱衰——"泡沫破了、AI 完蛋"。这两种都是偷懒。 真实的情况往往最不性感：它既没那么神，也没那么衰，就是一个具体的技术，在一条具体的曲线上，遇到了一个具体的瓶颈，然后想办法绕过去。

六、那咱们普通人，该信谁？

吵了半天，落到你我身上，到底有啥用？我觉得有三条特别实在。

第一，对"AGI 明年就来"这种话，可以放轻松了。 当一个行业最好走的路开始递减、最关键的人都在说"老办法要终结"，你就该明白，那种"指数级起飞、很快超越人类"的剧本，至少没有宣传的那么近。进步还在，但更像爬坡，不像起飞。这对天天被"AI 焦虑"轰炸的普通人，其实是个解压的消息。

第二，也别急着信"AI 是泡沫、马上完蛋"。 唱衰的人忽略了后训练和推理时计算这两条新路，也忽略了一个事实：哪怕 AI 今天就停在原地不再变强，光是把现有能力用透、铺到各行各业，红利就够吃很多年了。技术成熟和技术扩散，是两件事。 电早就发明完了，可把电用到每个角落，花了上百年。

第三，看 AI 新闻，学会问一个问题：你说的"进步"，是哪条轴上的？ 是预训练做得更大（红利在减），还是推理能力更强、用起来更顺、更便宜（这些恰恰还在快速变好）？分清这个，你就不会被任何一方的标题党带着走。说白了，别问"AI 还行不行"，要问"AI 在哪方面行、在哪方面卡住了"。 前者是站队，后者才是判断。

七、说到底

缩放定律给了 AI 行业五年的好日子：只要够有钱、够大胆，进步几乎是"买"得到的。现在这条捷径变窄了，大家被迫重新回到"动脑子"的状态——这未必是坏事。

历史上每一次"定律失灵"，事后看都不是终点，而是换挡。摩尔定律如此，今天的缩放定律大概也如此。真正的危险从来不是曲线压扁，而是你只会沿着一条曲线思考。

所以下回再看到"AI 撞墙了"或者"AGI 要来了"这种大标题，你不妨先笑一笑，然后问一句：你说的，到底是哪条轴？

参考来源

• TechCrunch：《Current AI scaling laws are showing diminishing returns, forcing AI labs to change course》（2024-11-20）
• DeepLearning.AI The Batch：《AI Giants Rethink Model Training Strategy as Scaling Laws Break Down》
• Kaplan et al.（OpenAI, 2020）缩放定律原始论文；DeepMind "Chinchilla" 计算最优论文（2022）
• Ilya Sutskever 在 NeurIPS 2024 的公开发言（"pretraining as we know it will end"）转述，见多家科技媒体报道
• 数据墙与训练成本估算：综合 buildfastwithai、aimultiple 等行业综述（数字为业内估算区间）
• 引爆点：评论文《AI is slowing down》（Where's Your Ed At）及 Hacker News 讨论（2026-06）
• 本文涉及人物公开言论均为转述其已报道的观点，非直接引语原文

配图来源

• AI放缓-封面/01/02/03.png ：自制示意图（缩放曲线、数据墙、三条缩放轴），为概念示意，非精确数据图
• AI放缓-网络1.jpg ：数据中心服务器机柜，来自 Wikimedia Commons 文件页 Datacenter Server Racks (22370909788).jpg，授权 CC BY 2.0（授权以 Commons 文件页为准）