《AI大模型技术革命全景叙事》03:推理模型的觉醒:从o1到DeepSeek-R1

渔者投研 · AI大模型技术革命全景叙事

第 03 篇 / 共 18 篇

推理模型的觉醒：从o1到DeepSeek-R1

AI从"快速直觉"转向"慢速推理"，测试时计算成为新的扩展维度。DeepSeek用极低成本开源R1，动摇了"算力即一切"的逻辑

约 3500 字 · 阅读约 10 分钟 · 模块一：技术演进史

核心问题

推理模型到底改变了什么？为什么DeepSeek-R1能让英伟达单日蒸发5900亿美元市值？

2024年9月12日：o1与"慢思考"的诞生

2024年9月12日，OpenAI发布了一个新模型。它不叫GPT-5，也不叫GPT-4.5，而是一个全新的代号——o1。"o"代表Orion（猎户座），一个全新的模型系列。此时距离GPT-4o发布（2024年5月13日）仅四个月，但o1与GPT-4o的差别不是参数量大小，而是思考方式。

诺贝尔奖得主丹尼尔·卡尼曼在《思考，快与慢》中将人类思维分为两个系统：系统1快速、直觉、自动化；系统2缓慢、审慎、逻辑推理。在此之前的所有大语言模型——从GPT-1到GPT-4o——都是"系统1"模型：它们接收输入，立即输出，中间没有"思考"步骤。o1引入了一个全新的机制——推理令牌（Reasoning Tokens）。模型在给出最终答案前，先生成一条隐藏的推理链，进行多步骤逻辑推演，然后再输出答案。

这听起来像是一个简单的改动，但效果惊人。在AIME 2024数学竞赛上，GPT-4o的正确率是12%（1.8/15），o1-preview飙升到74%（11.1/15）。在Codeforces竞赛编程中，GPT-4o排在第23.6百分位，o1-preview冲到第89百分位。在博士级科学问答GPQA Diamond上，GPT-4o是49.9%，o1-preview是60.0%。

基准测试	GPT-4o	o1-preview	o1正式版
AIME 2024（数学竞赛）	12%	74%	79.2%
MATH-500	74.6%	90.0%	96.4%
Codeforces（百分位）	23.6	89	96.6
GPQA Diamond（博士级科学）	49.9%	60.0%	75.7%

o1的本质是思维链（Chain of Thought）的自动化。通过将复杂问题拆解为若干简单步骤，模型能解决此前无法触及的推理任务。这不是"更大的模型"，而是"会思考的模型"。

o1还引入了一个全新的概念——测试时计算（Test-Time Compute）。传统模型对每个问题分配大致相同的计算量，o1会根据问题复杂度动态调整"思考"深度。简单问题快速回答，复杂问题深入推理。这意味着同一模型可以通过"思考更久"来解决更难的问题——相当于用推理算力换取更高的准确率。

2024年12月：o3与ARC-AGI突破

2024年12月20日，OpenAI在"12 Days of OpenAI"活动的最后一天宣布了o3模型（跳过o2以规避商标冲突）。同一天，Google DeepMind首席科学家Jeff Dean宣布推出Gemini 2.0 Flash Thinking实验性推理模型——推理模型赛道正式进入多方竞争。

o3最引人注目的成绩在ARC-AGI基准测试上。ARC-AGI由François Chollet设计，被视为评估AI"通用智能"的试金石，此前所有模型表现都不理想。o1大约得32%，而o3在低算力设置下达到75.7%，在高算力设置下达到87.5%——超越了人类表现的约85%。

但这个成绩的代价令人咋舌。据报道，o3-high在ARC-AGI上的单任务成本约3500美元，比o1-high高出约1000倍。这就是推理模型的"推理税"——更强的推理能力意味着更多的推理算力消耗，每次查询的成本远高于传统模型。

2025年1月31日，OpenAI发布o3-mini，定位为"最具成本效益的推理模型"。它支持三种推理强度（low/medium/high），medium强度下性能匹配o1但响应速度更快，且首次向ChatGPT免费用户开放推理模型。o3-mini的发布标志着推理模型从"高端实验"走向"大众可用"。

2025年1月20日：DeepSeek-R1的"顿悟时刻"

如果说o1和o3展示了推理模型的能力上限，那么DeepSeek-R1则用一种出人意料的方式，动摇了整个行业的成本假设。

2025年1月20日，中国AI公司深度求索（DeepSeek）发布DeepSeek-R1，采用MIT许可证完全开源——包括模型权重、推理数据和技术论文。基础模型是DeepSeek-V3-Base，MoE架构，总参数671B，激活参数37B，上下文长度128K。

纯强化学习训练：不需要人类示范

DeepSeek-R1最重要的技术贡献在于训练方法。他们发布了两个版本：R1-Zero和R1。R1-Zero直接在基础模型上应用大规模强化学习，不经过监督微调（SFT）作为前置步骤。这是首个公开研究验证LLM的推理能力可以纯粹通过RL激励获得，无需人类编写的推理示范。

他们自研了GRPO算法（Group Relative Policy Optimization），核心思路是对同一问题采样多条回答，在组内进行相对排名来计算优势函数，无需单独训练Critic网络，降低了训练成本和不稳定性。

"Aha Moment"：AI自己学会了反思

Aha Moment（顿悟时刻）

引用："Wait, wait. Let me re-evaluate..."（等等，让我重新评估一下）

说明：DeepSeek-R1-Zero在强化学习训练中自发涌现的自我纠错行为。这种行为并非通过人工标注的推理轨迹训练获得，而是模型在RL奖励信号压力下自然学会的——它发现"先检查、再纠错"的推理策略能提高正确率。

这个"顿悟时刻"是DeepSeek-R1论文中最引人注目的发现。在R1-Zero的RL训练过程中，模型自发涌现出类似人类的自我反思和策略调整能力。它开始表现出自我验证、反思和生成长思维链的行为——这些行为没有人教它，是纯粹在奖励信号压力下自然涌现的。复旦大学知识工场实验室后续用仅200多行代码成功复现了这一现象。

成本：557万美元训练，29万美元强化学习

557万

美元（V3基础模型训练成本）

29万

美元（R1强化学习训练成本）

H800

使用芯片（H100中国降级版）

DeepSeek-V3的训练成本约557.6万美元（约278.8万H800 GPU小时），在14.8万亿token上预训练，采用FP8混合精度训练。R1的强化学习训练成本约29.4万美元。使用的芯片是英伟达H800——H100的中国降级版，符合美国2022年10月出口管制要求。西方AI公司训练前沿模型通常花费数千万至数亿美元，DeepSeek的成本仅为零头。

性能：与o1正式版相当

基准测试	GPT-4o	OpenAI o1	DeepSeek-R1
AIME 2024	9.3%	79.2%	79.8%
MATH-500	74.6%	96.4%	97.3%
Codeforces（Rating）	759	2061	2029
GPQA Diamond	49.9%	75.7%	71.5%
LiveCodeBench	34.2%	63.4%	65.9%

DeepSeek-R1在多项基准上达到与OpenAI o1正式版相当的水平——AIME 2024和MATH-500甚至略超o1。考虑到训练成本的巨大差距，这个结果令市场震惊。此外，DeepSeek-R1-Distill-Qwen-32B（蒸馏版小模型）在多项基准上超越o1-mini，意味着推理能力可以被"蒸馏"到更小的模型中。

2025年1月27日：英伟达的"黑色星期一"

2025年1月27日，DeepSeek-R1发布一周后，市场做出了剧烈反应。英伟达股价暴跌约17%（收盘下跌16.97%），单日市值蒸发约5900亿美元，创下美国上市公司单日市值损失的历史纪录。其他芯片股同步大跌：博通下跌17.4%，AMD下跌6%。

市场的逻辑很简单：如果DeepSeek能用557万美元训练出媲美o1的模型，那AI行业是否还需要那么多高端GPU？英伟达发言人回应称"DeepSeek是AI领域的卓越进步"，并强调"推理需要大量GPU"——这句话后来被证明是正确的。

DeepSeek应用一度登顶苹果App Store，超越ChatGPT。2025年9月17日，DeepSeek-R1论文登上《自然》（Nature）杂志封面，成为首个经过同行评审的主要大语言模型，通讯作者为梁文锋。

范式转变：第四个扩展维度

传统AI扩展依赖三个维度：更多数据、更大参数、更多训练算力。推理模型引入了第四个维度——测试时计算（Test-Time Compute）。模型在推理阶段根据任务复杂度动态分配计算资源，而非对所有问题使用固定计算量。

这个新维度改变了AI的算力经济学。传统模式下，大部分算力投入训练；推理模型模式下，每次查询的推理算力大幅增加。o1的API价格约为GPT-4o的3-6倍。这意味着AI芯片的需求结构正在变化——从"训练密集型"向"推理密集型"转变。英伟达股价暴跌后的反弹也验证了这一点：推理模型实际上增加了对推理算力的需求，每个查询需要更多token生成、更多前向传播。

竞争格局也在快速演变。2025年2月24日，Anthropic发布Claude 3.7 Sonnet，号称全球首个混合推理模型——将普通语言处理和推理能力集成在一个模型中，用户可选择快速响应或扩展推理。Google的Gemini 2.0 Flash Thinking、阿里巴巴的QwQ-32B-Preview也相继加入赛道。DeepSeek-R1的开源策略使推理模型技术民主化，全球开发者可以基于其蒸馏模型构建自己的推理能力，打破了OpenAI在推理模型领域的技术垄断。

关键时间线

2024年9月12日 · OpenAI发布o1

推理令牌+测试时计算，AI从"系统1"跨入"系统2"。数学竞赛正确率从12%飙升至74%。

2024年12月20日 · o3与ARC-AGI突破

o3高算力设置在ARC-AGI上达87.5%，超越人类。但单任务成本约3500美元。

2025年1月20日 · DeepSeek-R1开源发布

MIT许可证，纯RL训练，"Aha Moment"涌现。557万美元训练成本媲美o1。

2025年1月27日 · 英伟达单日蒸发5900亿美元

市场质疑AI算力需求，芯片股集体暴跌。但推理模型实际增加了推理算力需求。

2025年2月24日 · Claude 3.7 Sonnet混合推理

Anthropic推出首个混合推理模型，推理赛道进入多方竞争。

核心判断：新维度的开启

认知增量

推理模型不是"更大的模型"，而是"会思考的模型"。它引入了测试时计算作为第四个扩展维度——模型可以通过"思考更久"来解决更难的问题，而不只是通过"训练更大"来提升能力。这个维度此前从未被系统性地开发过。

DeepSeek-R1的意义不在于它比o1便宜多少，而在于它证明了两件事：第一，推理能力可以纯粹通过强化学习获得，不需要人类示范；第二，AI的"智能"不一定来自堆算力，也可以来自训练方法的创新。这两点对"算力即一切"的叙事构成了真正的挑战。

对投资者而言，推理模型改变了算力经济学的结构：训练算力的需求增速可能放缓，但推理算力的需求将大幅增长。每一次AI查询消耗的算力从"固定"变成"弹性"——复杂问题消耗更多推理算力。这意味着推理芯片（而非训练芯片）可能成为下一个投资焦点。英伟达股价暴跌后的反弹，本质上就是市场对这个逻辑的重新定价。

思考题

如果推理能力可以纯粹通过强化学习获得，那么"数据"在AI训练中的地位是否会被重新定义？当模型可以自己生成推理数据来训练自己，人类数据的稀缺性还重要吗？

下篇预告

第04篇：从模型到智能体——AI Agent与具身智能的2026。三足鼎立格局持续迭代，中国大模型快速崛起形成"第二极"。原生多模态成为标配，世界模型让AI开始理解物理规律，具身智能打开从数字世界到物理世界的大门。