AI 的「毕业典礼」:推理数据首次超过训练数据,一个时代的转折点来了-夜雨聆风

AI 的「毕业典礼」:推理数据首次超过训练数据,一个时代的转折点来了

AI 一直被认为是”永远在学习的实习生”——它学得很多，但真正干活的时间不多。

今年 4 月，这个状态被彻底打破了。

国家数据局局长刘烈宏在数字中国建设峰会上公布了一组数据：2025 年全国 AI 推理数据量达到 101.34 EB，首次超过了训练数据量。 全国 AI 训练和推理数据总量达到 199.48 EB，同比增长 42.86%。

用大白话翻译一下：AI 一生中，第一次”工作”的时间超过了”学习”的时间。

与此同时，黄仁勋在 GTC 2026 上宣告：”训练模型的竞赛已经结束，推理时代已经到来。”他预测 NVIDIA 未来两年的收入机会将翻倍到 1 万亿美元——全部押注在推理侧。

这两件事指向同一个方向：AI 正在经历一场从”训练时代”到”推理时代”的历史性转折。

这到底意味着什么

先把这个数据讲透。

刘烈宏拿”上课”和”工作”来比喻训练和推理的区别：

训练 = 上课学习。 你给 AI 喂海量数据，让它从中学习规律。这个过程极其昂贵——一次 GPT-5 级别的训练，可能要烧掉数亿美元的电费和算力。
推理 = 毕业工作。 你把学到的 AI 模型部署到实际场景中，让它回答问题、生成内容、执行任务。每一次你用 ChatGPT、让它分析文档、生成图片，都是在消耗推理算力。

2025 年之前，AI 一直在”上课”——全球的算力和资源主要投在训练更大更好的模型。但从 2025 年开始，情况变了：

全国的推理数据量（101.34 EB）第一次超过了训练数据量。

同期还有一个更惊人的数据：全国日均 Token 调用量从 2025 年初的 1 万亿 增长到年末的 100 万亿，2026 年 3 月进一步攀升到 140 万亿。一年多时间增长了 140 倍。

你说的每一句”帮我写个文案””帮我分析这份报告””帮我总结这篇文章”——每一个指令背后都在消耗推理算力。这 140 倍的增长，就是 AI 从”实验室玩物”变成”日常工具”的最好证据。

为什么 2026 年成为转折点

推理超过训练，不是偶然发生的。几个关键因素同时在起作用。

第一，AI 产品真正进入大规模使用阶段。 ChatGPT 的周活跃用户已经突破 10 亿，中国本土的 AI 应用也在爆发——豆包、Kimi、通义千问等月活用户都以亿计。当十亿人在日常使用 AI 时，推理算力的消耗自然超过训练。

第二，Agentic AI（智能体）把推理消耗推高了一个数量级。 传统的 AI 对话是一问一答，消耗的 token 有限。但 AI 智能体不是这样工作的——它要理解任务、拆解步骤、调用工具、检查结果、修正错误。一个智能体工作流生成的 token 量，是简单对话的 20-30 倍。

举个例子：OpenClaw 这个开源 AI 智能体框架，GitHub 星标在 4 个月内突破了 25 万，超过了 React 和 Linux 内核，成为 GitHub 开源软件项目历史第一。它的用户不是拿 AI 聊天的，而是让 AI 帮自己干活——订餐、发邮件、管理日程、自动回复。每一个任务背后都是几十倍的推理消耗。

另一个例子：Manus AI（被 Meta 以 20 亿美元收购）年化收入在 2025 年底突破了 1 亿美元，处理了超过 147 万亿个 token，创建了超过 8000 万个虚拟电脑。黄仁勋在 GTC 上甚至说，硅谷公司已经开始在工程师的薪酬包里加入”Token 预算”，相当于 base salary 的一半。

第三，训练数据快挖完了。 互联网上的高质量公开数据已经被用得差不多了。行业正在转向合成数据和私有数据，但训练侧的增速已经放缓。推理侧的爆发还在加速。

DigitalOcean 的调研显示，44% 的企业已经把大部分 AI 预算（76-100%）花在了推理上而不是训练上。Deloitte 预测，到 2026 年底推理算力将占到全部 AI 算力的 三分之二。

三个行业正在被重塑

推理时代的到来，正在改变几个关键行业的游戏规则。

NVIDIA：从”卖铲子”到”开工厂”

黄仁勋的 GTC 2026 演讲揭示了一个根本性的转变：NVIDIA 不再只是想当”卖铲子的人”（卖 GPU 给训练模型的公司），而是想成为 “AI 工厂”的基础设施提供商。

他提出的核心概念是”Disaggregated Inference”——把推理过程拆成”预处理”和”生成”两个阶段，分别用不同的芯片处理。NVIDIA 的 Vera Rubin GPU 做预处理，Groq 的 LPU 做生成。这种架构可以把推理效率提升 35 倍。

最疯狂的是他的预测：对于一个 1GW 的数据中心，下一代架构可以把 token 输出从每秒 200 万个提升到 7 亿个——350 倍的提升。

本质上，NVIDIA 认为未来最大的生意不是卖芯片，而是卖”Token”——就像卖电一样，按用量收费。

企业软件：从 SaaS 到 GaaS（Agent as a Service）

黄仁勋还说了另一句很有意思的话：“每一家 SaaS 公司最终都会变成 GaaS 公司——Agent-as-a-Service。”

传统的企业软件是”你操作，它执行”。AI 智能体时代的软件是”你下达目标，它自己完成”。Salesforce 推出了 Agentforce Operations 来自动化库存管理和合规流程；SAS Viya 推出了受管控的自主 AI 决策系统；微软在 Copilot+ 应用竞赛中获奖的”My Teams”方案，让 AI Agent 代替不在岗的同事回答问题。

Cisco AI 峰会的结论是：AI 正在从”能不能用”转向”谁在用、如何审计”——企业级 AI 已经进入了治理阶段。

芯片设计：从训练为王到推理为王

训练时代的王者是拥有最大算力的芯片（NVIDIA H100/B200）。推理时代则完全不同——成本、延迟、能效比变得比绝对算力更重要。

这就解释了为什么 Qualcomm 的 NPU 在拼命堆到 80 TOPS，为什么 Apple 的 M4 能把能效比做到对手的两倍，为什么 Intel 要把 AI 芯片拉到 400 美元的价位。它们押注的不是训练市场（这个市场属于 NVIDIA），而是推理市场——这个市场要的是”便宜、快、省电”。

Gartner 预测，到 2027 年企业在特定任务中使用小模型的频率将是通用大模型的 3 倍——推理市场对算力的要求不是”越大越好”，而是”刚刚好”。

这对普通人意味着什么

说几个比较实际的结论：

第一，AI 产品会越来越便宜。 推理效率的提升速度远快于训练。黄仁勋展示的 350 倍效率提升，意味着同样一个 AI 任务一年后可能只需要现在的几分之一成本。这个成本下降最终会传递到消费者——更便宜的 API、更多的免费服务、更低价的订阅。

第二，AI 会从”聊天”变成”干活”。 推理时代的真正催化剂不是更好的对话模型，而是能替你执行任务的智能体。2026 年你会发现 AI 能做的事情从”回答问题”变成了”帮你搞定一件事”——订行程、管理账单、自动回复客户。

第三，你的”个人 AI”会越来越强。 因为推理成本在快速下降，未来每个人都可以拥有一个”专属 AI 助手”，长期记住你的偏好、习惯、工作方式。这不是科幻——OpenClaw 已经在做这件事，Manus 也在做，Apple 和 Google 都在做。

第四，但要注意两个隐忧。 一是安全和隐私——OpenClaw 就被发现存在 341 个恶意 skills，超过 24 万个暴露实例存在安全隐患。AI 智能体能替你做事，也可能替黑客做事。二是能源——推理时代的算力消耗可能比训练时代更大，因为推理是持续的、7×24 小时的。这跟之前那篇 AI 能源危机的文章讲的是同一个问题。

训练证明了 AI 能学得多好，推理在证明 AI 能用得多广。 当推理数据超过训练数据的那一刻，AI 完成了它的”毕业典礼”——从实验室走进了每个人的日常生活。