推理模型的觉醒:从o1到DeepSeek-R1
AI从"快速直觉"转向"慢速推理",测试时计算成为新的扩展维度。DeepSeek用极低成本开源R1,动摇了"算力即一切"的逻辑
2024年9月12日:o1与"慢思考"的诞生
2024年9月12日,OpenAI发布了一个新模型。它不叫GPT-5,也不叫GPT-4.5,而是一个全新的代号——o1。"o"代表Orion(猎户座),一个全新的模型系列。此时距离GPT-4o发布(2024年5月13日)仅四个月,但o1与GPT-4o的差别不是参数量大小,而是思考方式。
诺贝尔奖得主丹尼尔·卡尼曼在《思考,快与慢》中将人类思维分为两个系统:系统1快速、直觉、自动化;系统2缓慢、审慎、逻辑推理。在此之前的所有大语言模型——从GPT-1到GPT-4o——都是"系统1"模型:它们接收输入,立即输出,中间没有"思考"步骤。o1引入了一个全新的机制——推理令牌(Reasoning Tokens)。模型在给出最终答案前,先生成一条隐藏的推理链,进行多步骤逻辑推演,然后再输出答案。
这听起来像是一个简单的改动,但效果惊人。在AIME 2024数学竞赛上,GPT-4o的正确率是12%(1.8/15),o1-preview飙升到74%(11.1/15)。在Codeforces竞赛编程中,GPT-4o排在第23.6百分位,o1-preview冲到第89百分位。在博士级科学问答GPQA Diamond上,GPT-4o是49.9%,o1-preview是60.0%。
o1还引入了一个全新的概念——测试时计算(Test-Time Compute)。传统模型对每个问题分配大致相同的计算量,o1会根据问题复杂度动态调整"思考"深度。简单问题快速回答,复杂问题深入推理。这意味着同一模型可以通过"思考更久"来解决更难的问题——相当于用推理算力换取更高的准确率。
2024年12月:o3与ARC-AGI突破
2024年12月20日,OpenAI在"12 Days of OpenAI"活动的最后一天宣布了o3模型(跳过o2以规避商标冲突)。同一天,Google DeepMind首席科学家Jeff Dean宣布推出Gemini 2.0 Flash Thinking实验性推理模型——推理模型赛道正式进入多方竞争。
o3最引人注目的成绩在ARC-AGI基准测试上。ARC-AGI由François Chollet设计,被视为评估AI"通用智能"的试金石,此前所有模型表现都不理想。o1大约得32%,而o3在低算力设置下达到75.7%,在高算力设置下达到87.5%——超越了人类表现的约85%。
但这个成绩的代价令人咋舌。据报道,o3-high在ARC-AGI上的单任务成本约3500美元,比o1-high高出约1000倍。这就是推理模型的"推理税"——更强的推理能力意味着更多的推理算力消耗,每次查询的成本远高于传统模型。
2025年1月31日,OpenAI发布o3-mini,定位为"最具成本效益的推理模型"。它支持三种推理强度(low/medium/high),medium强度下性能匹配o1但响应速度更快,且首次向ChatGPT免费用户开放推理模型。o3-mini的发布标志着推理模型从"高端实验"走向"大众可用"。
2025年1月20日:DeepSeek-R1的"顿悟时刻"
如果说o1和o3展示了推理模型的能力上限,那么DeepSeek-R1则用一种出人意料的方式,动摇了整个行业的成本假设。
2025年1月20日,中国AI公司深度求索(DeepSeek)发布DeepSeek-R1,采用MIT许可证完全开源——包括模型权重、推理数据和技术论文。基础模型是DeepSeek-V3-Base,MoE架构,总参数671B,激活参数37B,上下文长度128K。
纯强化学习训练:不需要人类示范
DeepSeek-R1最重要的技术贡献在于训练方法。他们发布了两个版本:R1-Zero和R1。R1-Zero直接在基础模型上应用大规模强化学习,不经过监督微调(SFT)作为前置步骤。这是首个公开研究验证LLM的推理能力可以纯粹通过RL激励获得,无需人类编写的推理示范。
他们自研了GRPO算法(Group Relative Policy Optimization),核心思路是对同一问题采样多条回答,在组内进行相对排名来计算优势函数,无需单独训练Critic网络,降低了训练成本和不稳定性。
"Aha Moment":AI自己学会了反思
这个"顿悟时刻"是DeepSeek-R1论文中最引人注目的发现。在R1-Zero的RL训练过程中,模型自发涌现出类似人类的自我反思和策略调整能力。它开始表现出自我验证、反思和生成长思维链的行为——这些行为没有人教它,是纯粹在奖励信号压力下自然涌现的。复旦大学知识工场实验室后续用仅200多行代码成功复现了这一现象。
成本:557万美元训练,29万美元强化学习
DeepSeek-V3的训练成本约557.6万美元(约278.8万H800 GPU小时),在14.8万亿token上预训练,采用FP8混合精度训练。R1的强化学习训练成本约29.4万美元。使用的芯片是英伟达H800——H100的中国降级版,符合美国2022年10月出口管制要求。西方AI公司训练前沿模型通常花费数千万至数亿美元,DeepSeek的成本仅为零头。
性能:与o1正式版相当
DeepSeek-R1在多项基准上达到与OpenAI o1正式版相当的水平——AIME 2024和MATH-500甚至略超o1。考虑到训练成本的巨大差距,这个结果令市场震惊。此外,DeepSeek-R1-Distill-Qwen-32B(蒸馏版小模型)在多项基准上超越o1-mini,意味着推理能力可以被"蒸馏"到更小的模型中。
2025年1月27日:英伟达的"黑色星期一"
2025年1月27日,DeepSeek-R1发布一周后,市场做出了剧烈反应。英伟达股价暴跌约17%(收盘下跌16.97%),单日市值蒸发约5900亿美元,创下美国上市公司单日市值损失的历史纪录。其他芯片股同步大跌:博通下跌17.4%,AMD下跌6%。
市场的逻辑很简单:如果DeepSeek能用557万美元训练出媲美o1的模型,那AI行业是否还需要那么多高端GPU?英伟达发言人回应称"DeepSeek是AI领域的卓越进步",并强调"推理需要大量GPU"——这句话后来被证明是正确的。
DeepSeek应用一度登顶苹果App Store,超越ChatGPT。2025年9月17日,DeepSeek-R1论文登上《自然》(Nature)杂志封面,成为首个经过同行评审的主要大语言模型,通讯作者为梁文锋。
范式转变:第四个扩展维度
传统AI扩展依赖三个维度:更多数据、更大参数、更多训练算力。推理模型引入了第四个维度——测试时计算(Test-Time Compute)。模型在推理阶段根据任务复杂度动态分配计算资源,而非对所有问题使用固定计算量。
这个新维度改变了AI的算力经济学。传统模式下,大部分算力投入训练;推理模型模式下,每次查询的推理算力大幅增加。o1的API价格约为GPT-4o的3-6倍。这意味着AI芯片的需求结构正在变化——从"训练密集型"向"推理密集型"转变。英伟达股价暴跌后的反弹也验证了这一点:推理模型实际上增加了对推理算力的需求,每个查询需要更多token生成、更多前向传播。
竞争格局也在快速演变。2025年2月24日,Anthropic发布Claude 3.7 Sonnet,号称全球首个混合推理模型——将普通语言处理和推理能力集成在一个模型中,用户可选择快速响应或扩展推理。Google的Gemini 2.0 Flash Thinking、阿里巴巴的QwQ-32B-Preview也相继加入赛道。DeepSeek-R1的开源策略使推理模型技术民主化,全球开发者可以基于其蒸馏模型构建自己的推理能力,打破了OpenAI在推理模型领域的技术垄断。
核心判断:新维度的开启
推理模型不是"更大的模型",而是"会思考的模型"。它引入了测试时计算作为第四个扩展维度——模型可以通过"思考更久"来解决更难的问题,而不只是通过"训练更大"来提升能力。这个维度此前从未被系统性地开发过。
DeepSeek-R1的意义不在于它比o1便宜多少,而在于它证明了两件事:第一,推理能力可以纯粹通过强化学习获得,不需要人类示范;第二,AI的"智能"不一定来自堆算力,也可以来自训练方法的创新。这两点对"算力即一切"的叙事构成了真正的挑战。
对投资者而言,推理模型改变了算力经济学的结构:训练算力的需求增速可能放缓,但推理算力的需求将大幅增长。每一次AI查询消耗的算力从"固定"变成"弹性"——复杂问题消耗更多推理算力。这意味着推理芯片(而非训练芯片)可能成为下一个投资焦点。英伟达股价暴跌后的反弹,本质上就是市场对这个逻辑的重新定价。
夜雨聆风