AI深一度 第15期|DeepSeek V4:百万Token上下文不再需要指数级代价
4月24日,DeepSeek发布V4系列预览版,包含Pro(1.6T/49B激活)和Flash(284B/13B激活)两个MoE模型,均原生支持100万Token上下文窗口。这不是单纯的大规模堆叠——V4的核心突破在于一套被称为CSA/HCA的混合注意力架构,将百万Token下的单Token推理FLOPs降至前代V3.2的27%,KV缓存降至10%。与GQA-8注意力相比,DeepSeek V4仅需约2%的缓存容量,MIT协议开源。这不是一份追赶跑分的发布——V4-Pro-Max在SWE Verified上80.6%、Codeforces评分3206超越GPT-5.4-xHigh,但它真正要做的事情是:让Agent在百万Token上下文中真正跑得起来。
一、CSA与HCA:两层压缩如何拆解百万Token的注意力墙
标准Transformer注意力的计算量随序列长度二次增长——上下文翻倍,注意力的计算量和内存就翻四倍。在100万Token的Agent轨迹中,每次工具调用结果都被追加到上下文中,每一个后续Token都要对之前的所有内容做注意力计算。V4的核心创新是将注意力拆成两个不等权重的压缩流,交替部署在不同层。
压缩稀疏注意力(CSA)是第一层:每m个Token的KV条目通过一个带softmax门控和可学习位置偏置的池化器压缩为一个条目,实现4倍序列维度压缩。压缩后,一个称为”闪电索引器”(Lightning Indexer)的组件对压缩后的KV块做打分和Top-k选择——它使用FP4精度的ReLU评分多头点积运算,仅挑出与当前查询最相关的压缩块进行注意力计算。没有被选中的块直接跳过,大幅减少无效计算。CSA还保留了一个滑动窗口分支,覆盖最近的nwin个未压缩Token,确保局部依赖不被丢失。
重度压缩注意力(HCA)是第二层:将每m’个Token(m’ ≫ m)压缩为一个条目,实现128倍序列维度压缩。压缩比本身就足够激进,因此HCA不再需要稀疏选择步骤——压缩后的序列短到足以用全注意力计算。与CSA一样,HCA也保留滑动窗口分支处理最近Token。两层压缩的关键在于”交替”:在V4-Pro的61层堆叠中,第0-1层使用HCA,第2-60层交替使用CSA和HCA,最终的MTP(多Token预测)块仅使用滑动窗口。这种设计背后的洞察是:不同层自然承载不同的注意力模式——浅层倾向捕捉全局粗粒度信息(适合HCA的密集低分辨率覆盖),深层需要更精细的选择性注意力(适合CSA的带索引稀疏检索)。如果强制所有层使用同一机制,要么浪费浅层容量,要么损失深层精度。
关键信号:CSA/HCA的交替部署标志着注意力机制从”一刀切”进入”分层异构”时代——不同深度的注意力模式本就不同,让每层用自己的压缩策略,是长上下文效率的工程最优解。
二、FP4闪电索引与混合精度KV缓存:2%缓存背后的精度工程
混合注意力架构的效率增益不仅来自压缩比本身,还来自一套精心设计的混合精度存储策略。在V4中,绝大多数KV条目使用FP8存储,仅在旋转位置编码(RoPE)维度上保留BF16——因为位置编码对精度更敏感,而FP8在表示注意力Key-Value时已经足够。闪电索引器更进一步,使用FP4(MXFP4格式)进行打分运算。
这些精度选择与压缩比形成了乘法效应:CSA的4倍压缩叠加FP8存储带来约8倍节省(相比标准BF16 KV缓存);HCA的128倍压缩叠加FP8则带来约256倍节省。两者交替后的综合效果,最终使得V4与标准GQA-8注意力(8组查询头共享KV)相比仅需约2%的KV缓存。在部署层面,V4的推理权重还使用了FP4量化感知训练(QAT)——MoE专家权重和闪电索引器的QK路径在训练时就以FP4精度运行,推理时直接使用真实FP4权重而非模拟量化,同步减少内存带宽占用和采样延迟。
V4-Flash则更为极致:在百万Token设定下仅需V3.2的10%推理FLOPs和7% KV缓存。这意味着一个284B总参数、13B激活的轻量模型,可以在同等硬件上跑10倍以上的上下文长度——对API服务商而言,Flash版的$0.28/M output tokens定价有了明确的工程基础。
关键信号:V4证明了精度不是”越高越好”,而是”该高则高、该低则低”——位置编码用BF16,注意力KV用FP8,索引打分用FP4,每一层的精度选择都与该层对数值误差的容忍度精确匹配。
三、Engram条件记忆与mHC流形约束:V4看不见的两次架构手术
CSA/HCA是V4最外显的架构变更,但二者之外还有两项来自DeepSeek前期论文的底层创新被整合进了V4。第一项是Engram条件记忆模块(arXiv:2601.07372)。MoE通过条件计算扩展了模型容量,但Transformer仍缺乏原生知识检索原语——它被迫用计算来模拟查找。Engram将经典N-gram embedding现代化为条件记忆模块:一种O(1)复杂度的哈希查找机制,从DRAM中直接读取静态知识,不经过推理计算。
论文发现了一个U形稀疏分配律:在MoE计算和Engram记忆之间存在最优的资源分配比例——约20-25%稀疏参数应分配给记忆查找,其余分配给MoE计算。在V4-Pro中,Engram被扩展到270亿参数。效果出人意料:虽然设计初衷是增强知识检索(MMLU +3.4、CMMLU +4.0),但更大的收益出现在通用推理(BBH +5.0、ARC-Challenge +3.7)和代码/数学领域(HumanEval +3.0、MATH +2.4)。机制分析揭示了原因——Engram将骨干网络的早期层从静态知识重建中解放出来,相当于”加深了网络”,让它专注于复杂推理;同时,局部依赖被委托给查找机制后,注意力层的容量被释放给全局上下文建模,长上下文检索能力显著增强(Multi-Query NIAH从84.2提升至97.0)。
第二项是流形约束超连接(mHC)。标准残差连接在61层深度下面临信号传播退化问题。mHC将残差流宽度扩展4倍(nhc=4),引入可学习的输入映射、残差映射和输出映射矩阵,但将残差映射约束在Birkhoff多面体(双向随机矩阵流形)上——所有行和列之和为1,所有元素非负。这一约束将映射矩阵的谱范数限制为1,在正向传播和反向传播中同时防止信号放大。约束通过Sinkhorn-Knopp算法(20次迭代)实现,映射参数根据输入动态生成。与此同时,训练中还引入了Anticipatory Routing(解耦骨干与路由网络更新,破坏MoE层中路由决策强化异常值的循环)和SwiGLU Clamping(线性分量限制在[-10,10],门控上限为10)两项稳定技术。
关键信号:Engram揭示了一个反直觉结论——将静态知识从推理计算中剥离后,模型反而更擅长推理。这暗示Transformer的”万能注意力”在同时处理记忆和推理时存在内在冲突。
四、策略蒸馏取代混合强化学习:十个专家如何合为一体
V4的后训练管线彻底重构了V3.2的范式。旧方案是将所有领域的强化学习混合在一起训练,不同领域之间互相干扰。V4则将后训练分为两个阶段:第一阶段是”专家独立培养”——数学、代码、Agent任务、指令遵循各领域独立通过SFT加GRPO组相对策略优化进行强化学习训练,每个领域各得其法、互不干扰。第二阶段是”策略蒸馏”(On-Policy Distillation, OPD)——十多个训练好的领域教师模型,同时向一个统一的学生模型蒸馏。
OPD的关键设计在于”学生轨迹上的教师指导”。学生模型用自己的策略生成轨迹,教师模型在这些轨迹上提供输出分布信号——通过最小化学生与每个教师之间的反向KL散度实现。使用全vocabulary logits蒸馏(而非仅Top-k采样)提供更稳定的梯度估计。这一设计的核心直觉是:如果学生在教师生成的高质量样本上学习,会遇到分布偏移问题(训练和推理时的分布不一致);如果学生在自己生成的样本上接受教师的概率分布指导,则始终在自己的能力边界附近优化,避免了降低到教师水平的退化风险。
最终模型支持三种推理模式:非思考模式(快速直觉响应)、思考高级模式(显式推理链)和思考极限模式(最大推理努力,使用专用系统提示词和RL训练中降低的长度惩罚)。极限模式要求至少384K Token的上下文窗口——这恰好回到了CSA/HCA混合注意力要解决的核心问题。
关键信号:“先分训后蒸馏”范式替代”混合强化学习”,解决了多领域互相干扰的老问题。学生模型在自身轨迹上接受教师指导,理论上保证了beyond-teacher的可能性。
五、Agent原生架构:交错思维、|DSML|和DSec沙箱
V4的技术报告中,约三分之一篇幅在讨论Agent——这不是例行公事的评估,而是架构层面的原生设计。第一个设计是跨工具调用的交错思维保持。V3.2在工具调用回合之间保留推理链,但每次新用户消息到达时就丢弃先前推理。对于多轮Agent工作流——用户在Agent已经链接了多个工具调用后发送补充指令——模型丢失了全部推理积累,必须重建状态。V4在包含工具调用的对话中跨用户回合保持完整推理历史;在纯对话场景(无工具)中,则保持旧行为(每轮清空推理)以节省上下文。
第二个设计是专用工具调用词元|DSML|和基于XML的调用格式。XML格式减少了JSON-in-string模式中常见的转义失败——当模型在嵌套引号内容中输出工具参数时,JSON格式频繁触发解析错误。V4的新格式将字符串参数(string=”true”)和结构化参数(string=”false”)分离,消除了数字和布尔值的解析歧义。第三个设计是DSec(DeepSeek Elastic Compute),一个用Rust编写的沙箱平台,暴露四种执行基底——函数调用、容器、microVM(Firecracker)和完整VM(QEMU)——统一在同一个Python SDK之后。单集群运行数十万并发沙盒,通过分层3FS存储实现快速镜像加载,通过可抢占的安全轨迹重放避免中断的训练步骤回滚工具调用。
在Agent基准上的表现验证了这些设计的实际效果。V4-Pro-Max在Terminal Bench 2.0上得67.9(GLM-5.1 63.5、K2.6 66.7,GPT-5.4-xHigh 75.1),SWE Verified 80.6(Opus-4.6-Max 80.8),MCPAtlas Public 73.6(Opus-4.6-Max 73.8),Toolathlon 51.8(领先K2.6的50.0和Gemini-3.1-Pro的48.8)。在DeepSeek内部R&D编码基准(30个PyTorch/CUDA/Rust/C++工程任务)上,V4-Pro-Max达到67%通过率,Claude Sonnet 4.5为47%。85名DeepSeek开发者调研中,52%表示V4-Pro已准备好替代其当前主力编码模型。长上下文检索方面,MRCR 8-needle在256K内保持0.82以上精度,在1M处仍维持0.59。
关键信号:V4的Agent设计不是”训练好模型再适配工具”,而是从训练基础设施(DSec沙箱)到模型接口(|DSML|)到推理保持(交错思维)的全栈原生设计——Agent不再是后训练附加能力,而是与架构共同演化。
写在最后
DeepSeek V4的技术报告用58页篇幅讲述的,不是一个”更大更好”的故事,而是一个”如何让百万上下文真正可用”的工程方案。CSA/HCA交替注意力的核心洞察很简单:不同层需要不同粒度的注意力,4倍压缩配稀疏选择用于精准检索,128倍压缩配全注意力用于全局覆盖,滑动窗口兜底局部依赖。三层策略叠加混合精度存储,最终将KV缓存压到GQA-8的2%。
从工程哲学上看,V4延续了中国AI团队”不追求单项SOTA,追求工程最优解”的传统——Codeforces 3206超过GPT-5.4-xHigh,但MMLU-Pro 87.5低于Gemini-3.1-Pro的91.0;SWE Verified 80.6持平但Terminal-Bench 67.9落后于GPT-5.4的75.1。然而,把这些数字放在1M上下文、MIT开源和$0.28/M output tokens的背景下,它们的含义完全不同。V4不是要与闭源旗舰对标跑分上限,而是要在”足够好”的性能基线上,把长上下文Agent的部署成本打下来一个数量级。正如HuggingFace博客的标题所言——”a million-token context that agents can actually use”。
Engram的条件记忆设计也提出了一个值得长期关注的研究方向:如果将静态知识通过O(1)查找从推理中移除能让模型更强,那么”通用注意力”是否从一开始就是知识存储和推理计算的次优混合?当模型从数十亿参数走向万亿参数,分离”记忆什么”和”推理什么”可能是下一个架构革命的起点。DeepSeek用V4给出了一份初步答卷——真正的考试才刚刚开始。
编辑:潜变量校对:AI深一度编辑部信源:DeepSeek V4技术报告(HuggingFace)、DeepSeek官方模型卡(deepseek-ai/DeepSeek-V4-Pro)、Engram论文(arXiv:2601.07372)、HuggingFace技术博客、MarkTechPost技术分析
夜雨聆风