AI 的「毕业典礼」:推理数据首次超过训练数据,一个时代的转折点来了
AI 一直被认为是”永远在学习的实习生”——它学得很多,但真正干活的时间不多。
今年 4 月,这个状态被彻底打破了。
国家数据局局长刘烈宏在数字中国建设峰会上公布了一组数据:2025 年全国 AI 推理数据量达到 101.34 EB,首次超过了训练数据量。 全国 AI 训练和推理数据总量达到 199.48 EB,同比增长 42.86%。
用大白话翻译一下:AI 一生中,第一次”工作”的时间超过了”学习”的时间。
与此同时,黄仁勋在 GTC 2026 上宣告:”训练模型的竞赛已经结束,推理时代已经到来。”他预测 NVIDIA 未来两年的收入机会将翻倍到 1 万亿美元——全部押注在推理侧。
这两件事指向同一个方向:AI 正在经历一场从”训练时代”到”推理时代”的历史性转折。
这到底意味着什么
先把这个数据讲透。
刘烈宏拿”上课”和”工作”来比喻训练和推理的区别:
-
训练 = 上课学习。 你给 AI 喂海量数据,让它从中学习规律。这个过程极其昂贵——一次 GPT-5 级别的训练,可能要烧掉数亿美元的电费和算力。 -
推理 = 毕业工作。 你把学到的 AI 模型部署到实际场景中,让它回答问题、生成内容、执行任务。每一次你用 ChatGPT、让它分析文档、生成图片,都是在消耗推理算力。
2025 年之前,AI 一直在”上课”——全球的算力和资源主要投在训练更大更好的模型。但从 2025 年开始,情况变了:
全国的推理数据量(101.34 EB)第一次超过了训练数据量。
同期还有一个更惊人的数据:全国日均 Token 调用量从 2025 年初的 1 万亿 增长到年末的 100 万亿,2026 年 3 月进一步攀升到 140 万亿。一年多时间增长了 140 倍。
你说的每一句”帮我写个文案””帮我分析这份报告””帮我总结这篇文章”——每一个指令背后都在消耗推理算力。这 140 倍的增长,就是 AI 从”实验室玩物”变成”日常工具”的最好证据。

为什么 2026 年成为转折点
推理超过训练,不是偶然发生的。几个关键因素同时在起作用。
第一,AI 产品真正进入大规模使用阶段。 ChatGPT 的周活跃用户已经突破 10 亿,中国本土的 AI 应用也在爆发——豆包、Kimi、通义千问等月活用户都以亿计。当十亿人在日常使用 AI 时,推理算力的消耗自然超过训练。
第二,Agentic AI(智能体)把推理消耗推高了一个数量级。 传统的 AI 对话是一问一答,消耗的 token 有限。但 AI 智能体不是这样工作的——它要理解任务、拆解步骤、调用工具、检查结果、修正错误。一个智能体工作流生成的 token 量,是简单对话的 20-30 倍。
举个例子:OpenClaw 这个开源 AI 智能体框架,GitHub 星标在 4 个月内突破了 25 万,超过了 React 和 Linux 内核,成为 GitHub 开源软件项目历史第一。它的用户不是拿 AI 聊天的,而是让 AI 帮自己干活——订餐、发邮件、管理日程、自动回复。每一个任务背后都是几十倍的推理消耗。
另一个例子:Manus AI(被 Meta 以 20 亿美元收购)年化收入在 2025 年底突破了 1 亿美元,处理了超过 147 万亿个 token,创建了超过 8000 万个虚拟电脑。黄仁勋在 GTC 上甚至说,硅谷公司已经开始在工程师的薪酬包里加入”Token 预算”,相当于 base salary 的一半。
第三,训练数据快挖完了。 互联网上的高质量公开数据已经被用得差不多了。行业正在转向合成数据和私有数据,但训练侧的增速已经放缓。推理侧的爆发还在加速。
DigitalOcean 的调研显示,44% 的企业已经把大部分 AI 预算(76-100%)花在了推理上而不是训练上。Deloitte 预测,到 2026 年底推理算力将占到全部 AI 算力的 三分之二。
三个行业正在被重塑
推理时代的到来,正在改变几个关键行业的游戏规则。
NVIDIA:从”卖铲子”到”开工厂”
黄仁勋的 GTC 2026 演讲揭示了一个根本性的转变:NVIDIA 不再只是想当”卖铲子的人”(卖 GPU 给训练模型的公司),而是想成为 “AI 工厂”的基础设施提供商。
他提出的核心概念是”Disaggregated Inference”——把推理过程拆成”预处理”和”生成”两个阶段,分别用不同的芯片处理。NVIDIA 的 Vera Rubin GPU 做预处理,Groq 的 LPU 做生成。这种架构可以把推理效率提升 35 倍。
最疯狂的是他的预测:对于一个 1GW 的数据中心,下一代架构可以把 token 输出从每秒 200 万个提升到 7 亿个——350 倍的提升。
本质上,NVIDIA 认为未来最大的生意不是卖芯片,而是卖”Token”——就像卖电一样,按用量收费。
企业软件:从 SaaS 到 GaaS(Agent as a Service)
黄仁勋还说了另一句很有意思的话:“每一家 SaaS 公司最终都会变成 GaaS 公司——Agent-as-a-Service。”
传统的企业软件是”你操作,它执行”。AI 智能体时代的软件是”你下达目标,它自己完成”。Salesforce 推出了 Agentforce Operations 来自动化库存管理和合规流程;SAS Viya 推出了受管控的自主 AI 决策系统;微软在 Copilot+ 应用竞赛中获奖的”My Teams”方案,让 AI Agent 代替不在岗的同事回答问题。
Cisco AI 峰会的结论是:AI 正在从”能不能用”转向”谁在用、如何审计”——企业级 AI 已经进入了治理阶段。
芯片设计:从训练为王到推理为王
训练时代的王者是拥有最大算力的芯片(NVIDIA H100/B200)。推理时代则完全不同——成本、延迟、能效比变得比绝对算力更重要。
这就解释了为什么 Qualcomm 的 NPU 在拼命堆到 80 TOPS,为什么 Apple 的 M4 能把能效比做到对手的两倍,为什么 Intel 要把 AI 芯片拉到 400 美元的价位。它们押注的不是训练市场(这个市场属于 NVIDIA),而是推理市场——这个市场要的是”便宜、快、省电”。
Gartner 预测,到 2027 年企业在特定任务中使用小模型的频率将是通用大模型的 3 倍——推理市场对算力的要求不是”越大越好”,而是”刚刚好”。
这对普通人意味着什么
说几个比较实际的结论:
第一,AI 产品会越来越便宜。 推理效率的提升速度远快于训练。黄仁勋展示的 350 倍效率提升,意味着同样一个 AI 任务一年后可能只需要现在的几分之一成本。这个成本下降最终会传递到消费者——更便宜的 API、更多的免费服务、更低价的订阅。
第二,AI 会从”聊天”变成”干活”。 推理时代的真正催化剂不是更好的对话模型,而是能替你执行任务的智能体。2026 年你会发现 AI 能做的事情从”回答问题”变成了”帮你搞定一件事”——订行程、管理账单、自动回复客户。
第三,你的”个人 AI”会越来越强。 因为推理成本在快速下降,未来每个人都可以拥有一个”专属 AI 助手”,长期记住你的偏好、习惯、工作方式。这不是科幻——OpenClaw 已经在做这件事,Manus 也在做,Apple 和 Google 都在做。
第四,但要注意两个隐忧。 一是安全和隐私——OpenClaw 就被发现存在 341 个恶意 skills,超过 24 万个暴露实例存在安全隐患。AI 智能体能替你做事,也可能替黑客做事。二是能源——推理时代的算力消耗可能比训练时代更大,因为推理是持续的、7×24 小时的。这跟之前那篇 AI 能源危机的文章讲的是同一个问题。
训练证明了 AI 能学得多好,推理在证明 AI 能用得多广。 当推理数据超过训练数据的那一刻,AI 完成了它的”毕业典礼”——从实验室走进了每个人的日常生活。
接下来的问题是:我们准备好跟一个”毕业了”的 AI 一起工作和生活了吗?
夜雨聆风