AI深一度第15期|DeepSeek V4:百万Token上下文不再需要指数级代价-夜雨聆风

AI深一度第15期|DeepSeek V4:百万Token上下文不再需要指数级代价

4月24日，DeepSeek发布V4系列预览版，包含Pro（1.6T/49B激活）和Flash（284B/13B激活）两个MoE模型，均原生支持100万Token上下文窗口。这不是单纯的大规模堆叠——V4的核心突破在于一套被称为CSA/HCA的混合注意力架构，将百万Token下的单Token推理FLOPs降至前代V3.2的27%，KV缓存降至10%。与GQA-8注意力相比，DeepSeek V4仅需约2%的缓存容量，MIT协议开源。这不是一份追赶跑分的发布——V4-Pro-Max在SWE Verified上80.6%、Codeforces评分3206超越GPT-5.4-xHigh，但它真正要做的事情是：让Agent在百万Token上下文中真正跑得起来。

一、CSA与HCA：两层压缩如何拆解百万Token的注意力墙

标准Transformer注意力的计算量随序列长度二次增长——上下文翻倍，注意力的计算量和内存就翻四倍。在100万Token的Agent轨迹中，每次工具调用结果都被追加到上下文中，每一个后续Token都要对之前的所有内容做注意力计算。V4的核心创新是将注意力拆成两个不等权重的压缩流，交替部署在不同层。

压缩稀疏注意力（CSA）是第一层：每m个Token的KV条目通过一个带softmax门控和可学习位置偏置的池化器压缩为一个条目，实现4倍序列维度压缩。压缩后，一个称为”闪电索引器”（Lightning Indexer）的组件对压缩后的KV块做打分和Top-k选择——它使用FP4精度的ReLU评分多头点积运算，仅挑出与当前查询最相关的压缩块进行注意力计算。没有被选中的块直接跳过，大幅减少无效计算。CSA还保留了一个滑动窗口分支，覆盖最近的nwin个未压缩Token，确保局部依赖不被丢失。

重度压缩注意力（HCA）是第二层：将每m’个Token（m’ ≫ m）压缩为一个条目，实现128倍序列维度压缩。压缩比本身就足够激进，因此HCA不再需要稀疏选择步骤——压缩后的序列短到足以用全注意力计算。与CSA一样，HCA也保留滑动窗口分支处理最近Token。两层压缩的关键在于”交替”：在V4-Pro的61层堆叠中，第0-1层使用HCA，第2-60层交替使用CSA和HCA，最终的MTP（多Token预测）块仅使用滑动窗口。这种设计背后的洞察是：不同层自然承载不同的注意力模式——浅层倾向捕捉全局粗粒度信息（适合HCA的密集低分辨率覆盖），深层需要更精细的选择性注意力（适合CSA的带索引稀疏检索）。如果强制所有层使用同一机制，要么浪费浅层容量，要么损失深层精度。

关键信号：CSA/HCA的交替部署标志着注意力机制从”一刀切”进入”分层异构”时代——不同深度的注意力模式本就不同，让每层用自己的压缩策略，是长上下文效率的工程最优解。

二、FP4闪电索引与混合精度KV缓存：2%缓存背后的精度工程

混合注意力架构的效率增益不仅来自压缩比本身，还来自一套精心设计的混合精度存储策略。在V4中，绝大多数KV条目使用FP8存储，仅在旋转位置编码（RoPE）维度上保留BF16——因为位置编码对精度更敏感，而FP8在表示注意力Key-Value时已经足够。闪电索引器更进一步，使用FP4（MXFP4格式）进行打分运算。

这些精度选择与压缩比形成了乘法效应：CSA的4倍压缩叠加FP8存储带来约8倍节省（相比标准BF16 KV缓存）；HCA的128倍压缩叠加FP8则带来约256倍节省。两者交替后的综合效果，最终使得V4与标准GQA-8注意力（8组查询头共享KV）相比仅需约2%的KV缓存。在部署层面，V4的推理权重还使用了FP4量化感知训练（QAT）——MoE专家权重和闪电索引器的QK路径在训练时就以FP4精度运行，推理时直接使用真实FP4权重而非模拟量化，同步减少内存带宽占用和采样延迟。

V4-Flash则更为极致：在百万Token设定下仅需V3.2的10%推理FLOPs和7% KV缓存。这意味着一个284B总参数、13B激活的轻量模型，可以在同等硬件上跑10倍以上的上下文长度——对API服务商而言，Flash版的$0.28/M output tokens定价有了明确的工程基础。

关键信号：V4证明了精度不是”越高越好”，而是”该高则高、该低则低”——位置编码用BF16，注意力KV用FP8，索引打分用FP4，每一层的精度选择都与该层对数值误差的容忍度精确匹配。

三、Engram条件记忆与mHC流形约束：V4看不见的两次架构手术

CSA/HCA是V4最外显的架构变更，但二者之外还有两项来自DeepSeek前期论文的底层创新被整合进了V4。第一项是Engram条件记忆模块（arXiv:2601.07372）。MoE通过条件计算扩展了模型容量，但Transformer仍缺乏原生知识检索原语——它被迫用计算来模拟查找。Engram将经典N-gram embedding现代化为条件记忆模块：一种O(1)复杂度的哈希查找机制，从DRAM中直接读取静态知识，不经过推理计算。

论文发现了一个U形稀疏分配律：在MoE计算和Engram记忆之间存在最优的资源分配比例——约20-25%稀疏参数应分配给记忆查找，其余分配给MoE计算。在V4-Pro中，Engram被扩展到270亿参数。效果出人意料：虽然设计初衷是增强知识检索（MMLU +3.4、CMMLU +4.0），但更大的收益出现在通用推理（BBH +5.0、ARC-Challenge +3.7）和代码/数学领域（HumanEval +3.0、MATH +2.4）。机制分析揭示了原因——Engram将骨干网络的早期层从静态知识重建中解放出来，相当于”加深了网络”，让它专注于复杂推理；同时，局部依赖被委托给查找机制后，注意力层的容量被释放给全局上下文建模，长上下文检索能力显著增强（Multi-Query NIAH从84.2提升至97.0）。

第二项是流形约束超连接（mHC）。标准残差连接在61层深度下面临信号传播退化问题。mHC将残差流宽度扩展4倍（nhc=4），引入可学习的输入映射、残差映射和输出映射矩阵，但将残差映射约束在Birkhoff多面体（双向随机矩阵流形）上——所有行和列之和为1，所有元素非负。这一约束将映射矩阵的谱范数限制为1，在正向传播和反向传播中同时防止信号放大。约束通过Sinkhorn-Knopp算法（20次迭代）实现，映射参数根据输入动态生成。与此同时，训练中还引入了Anticipatory Routing（解耦骨干与路由网络更新，破坏MoE层中路由决策强化异常值的循环）和SwiGLU Clamping（线性分量限制在[-10,10]，门控上限为10）两项稳定技术。

关键信号：Engram揭示了一个反直觉结论——将静态知识从推理计算中剥离后，模型反而更擅长推理。这暗示Transformer的”万能注意力”在同时处理记忆和推理时存在内在冲突。

四、策略蒸馏取代混合强化学习：十个专家如何合为一体

V4的后训练管线彻底重构了V3.2的范式。旧方案是将所有领域的强化学习混合在一起训练，不同领域之间互相干扰。V4则将后训练分为两个阶段：第一阶段是”专家独立培养”——数学、代码、Agent任务、指令遵循各领域独立通过SFT加GRPO组相对策略优化进行强化学习训练，每个领域各得其法、互不干扰。第二阶段是”策略蒸馏”（On-Policy Distillation, OPD）——十多个训练好的领域教师模型，同时向一个统一的学生模型蒸馏。

OPD的关键设计在于”学生轨迹上的教师指导”。学生模型用自己的策略生成轨迹，教师模型在这些轨迹上提供输出分布信号——通过最小化学生与每个教师之间的反向KL散度实现。使用全vocabulary logits蒸馏（而非仅Top-k采样）提供更稳定的梯度估计。这一设计的核心直觉是：如果学生在教师生成的高质量样本上学习，会遇到分布偏移问题（训练和推理时的分布不一致）；如果学生在自己生成的样本上接受教师的概率分布指导，则始终在自己的能力边界附近优化，避免了降低到教师水平的退化风险。

最终模型支持三种推理模式：非思考模式（快速直觉响应）、思考高级模式（显式推理链）和思考极限模式（最大推理努力，使用专用系统提示词和RL训练中降低的长度惩罚）。极限模式要求至少384K Token的上下文窗口——这恰好回到了CSA/HCA混合注意力要解决的核心问题。

关键信号：“先分训后蒸馏”范式替代”混合强化学习”，解决了多领域互相干扰的老问题。学生模型在自身轨迹上接受教师指导，理论上保证了beyond-teacher的可能性。

五、Agent原生架构：交错思维、|DSML|和DSec沙箱

V4的技术报告中，约三分之一篇幅在讨论Agent——这不是例行公事的评估，而是架构层面的原生设计。第一个设计是跨工具调用的交错思维保持。V3.2在工具调用回合之间保留推理链，但每次新用户消息到达时就丢弃先前推理。对于多轮Agent工作流——用户在Agent已经链接了多个工具调用后发送补充指令——模型丢失了全部推理积累，必须重建状态。V4在包含工具调用的对话中跨用户回合保持完整推理历史；在纯对话场景（无工具）中，则保持旧行为（每轮清空推理）以节省上下文。

第二个设计是专用工具调用词元|DSML|和基于XML的调用格式。XML格式减少了JSON-in-string模式中常见的转义失败——当模型在嵌套引号内容中输出工具参数时，JSON格式频繁触发解析错误。V4的新格式将字符串参数（string=”true”）和结构化参数（string=”false”）分离，消除了数字和布尔值的解析歧义。第三个设计是DSec（DeepSeek Elastic Compute），一个用Rust编写的沙箱平台，暴露四种执行基底——函数调用、容器、microVM（Firecracker）和完整VM（QEMU）——统一在同一个Python SDK之后。单集群运行数十万并发沙盒，通过分层3FS存储实现快速镜像加载，通过可抢占的安全轨迹重放避免中断的训练步骤回滚工具调用。

在Agent基准上的表现验证了这些设计的实际效果。V4-Pro-Max在Terminal Bench 2.0上得67.9（GLM-5.1 63.5、K2.6 66.7，GPT-5.4-xHigh 75.1），SWE Verified 80.6（Opus-4.6-Max 80.8），MCPAtlas Public 73.6（Opus-4.6-Max 73.8），Toolathlon 51.8（领先K2.6的50.0和Gemini-3.1-Pro的48.8）。在DeepSeek内部R&D编码基准（30个PyTorch/CUDA/Rust/C++工程任务）上，V4-Pro-Max达到67%通过率，Claude Sonnet 4.5为47%。85名DeepSeek开发者调研中，52%表示V4-Pro已准备好替代其当前主力编码模型。长上下文检索方面，MRCR 8-needle在256K内保持0.82以上精度，在1M处仍维持0.59。

关键信号：V4的Agent设计不是”训练好模型再适配工具”，而是从训练基础设施（DSec沙箱）到模型接口（|DSML|）到推理保持（交错思维）的全栈原生设计——Agent不再是后训练附加能力，而是与架构共同演化。

写在最后

DeepSeek V4的技术报告用58页篇幅讲述的，不是一个”更大更好”的故事，而是一个”如何让百万上下文真正可用”的工程方案。CSA/HCA交替注意力的核心洞察很简单：不同层需要不同粒度的注意力，4倍压缩配稀疏选择用于精准检索，128倍压缩配全注意力用于全局覆盖，滑动窗口兜底局部依赖。三层策略叠加混合精度存储，最终将KV缓存压到GQA-8的2%。

从工程哲学上看，V4延续了中国AI团队”不追求单项SOTA，追求工程最优解”的传统——Codeforces 3206超过GPT-5.4-xHigh，但MMLU-Pro 87.5低于Gemini-3.1-Pro的91.0；SWE Verified 80.6持平但Terminal-Bench 67.9落后于GPT-5.4的75.1。然而，把这些数字放在1M上下文、MIT开源和$0.28/M output tokens的背景下，它们的含义完全不同。V4不是要与闭源旗舰对标跑分上限，而是要在”足够好”的性能基线上，把长上下文Agent的部署成本打下来一个数量级。正如HuggingFace博客的标题所言——”a million-token context that agents can actually use”。

Engram的条件记忆设计也提出了一个值得长期关注的研究方向：如果将静态知识通过O(1)查找从推理中移除能让模型更强，那么”通用注意力”是否从一开始就是知识存储和推理计算的次优混合？当模型从数十亿参数走向万亿参数，分离”记忆什么”和”推理什么”可能是下一个架构革命的起点。DeepSeek用V4给出了一份初步答卷——真正的考试才刚刚开始。

编辑：潜变量校对：AI深一度编辑部信源：DeepSeek V4技术报告（HuggingFace）、DeepSeek官方模型卡（deepseek-ai/DeepSeek-V4-Pro）、Engram论文（arXiv:2601.07372）、HuggingFace技术博客、MarkTechPost技术分析