DeepSeek-V4 文档精华总结

来源：DeepSeek-V4 官方技术报告 · 2026年4月

💡 一句话结论

DeepSeek-V4 的核心价值，不只是模型能力继续提升，而是把 百万 token 上下文 从"可展示的能力"推进到"可常规使用的能力"，并在开放模型中继续逼近顶级闭源模型的推理、代码与 Agent 水平。

📐 模型规格

版本	总参数	激活参数	层数	训练量
V4-Pro	1.6T	49B	61层	33T tokens
V4-Flash	284B	13B	43层	32T tokens

✅ 两个版本均支持 1M token 上下文

🔬 三大核心技术创新

① Hybrid Attention：CSA + HCA（全文最核心创新）

CSA（Compressed Sparse Attention）：先把 KV cache 按序列维度压缩，再在压缩后的表示上做 sparse attention，兼顾长上下文效率和有效检索。HCA（Heavily Compressed Attention）：对 KV 做更激进压缩，保留 dense attention，极限压缩下仍维持全局建模。二者交错使用：CSA 负责"压缩后还能挑重点"，HCA 负责"极限压缩下仍能维持全局建模"。

② mHC：流形约束超级连接

不再把 residual 看作简单恒等映射，而是引入更强表达能力的 Hyper-Connections，同时对残差映射加流形约束，使训练过程更稳定，有效降低深层训练的信号放大和失稳风险。

③ Muon 优化器

大部分模块采用 Muon 优化器（而非常规 AdamW），实现更快收敛、更稳训练，是 V4 能稳定完成大规模训练的重要组成部分，并非边角优化。

⚡ 百万上下文的效率数据

在 1M token context 场景下，相比 DeepSeek-V3.2：

指标	V4-Pro	V4-Flash
单 token 推理 FLOPs	仅 27%	仅 10%
KV cache 占用	仅 10%	仅 7%

💡 相比常见 BF16 GQA 配置，V4 在 1M 上下文下 KV cache 可压缩至约 2% 的量级

📊 评测成绩亮点（Pro-Max）

评测基准	得分
GPQA Diamond	90.1
SWE Verified	80.6
Codeforces Rating	3206
Terminal Bench 2.0	67.9
Chinese-SimpleQA	84.4
Toolathlon	51.8

🏆 内部 R&D coding benchmark：67% pass rate，明显强于 Claude Sonnet 4.5（47%），接近 Claude Opus 4.5（70%）

🛠️ 系统工程亮点

DeepSeek-V4 在系统工程上投入很大，关键基础设施包括：

▸ 基于 TileLang 的高效 kernel 开发
▸ FP4 量化感知训练
▸ batch-invariant、deterministic kernel library（bitwise reproducibility）
▸ 推理期 KV cache 结构优化与磁盘级 KV 存储
▸ Expert Parallelism 细粒度通信与计算重叠
▸ 面向 Agentic AI 的大规模 sandbox 基础设施

⚠️ 论文自承的不足

架构较复杂：为追求极致长上下文效率保留了较多有效但不够简洁的组件，尚非终局架构。

稳定性技巧偏经验主义：Anticipatory Routing 和 SwiGLU Clamping 实战有效，但理论机制尚未完全厘清。

用户体验仍有提升空间：极复杂指令跟随略逊于 Claude Opus 4.5；超长内容高度压缩总结有短板；格式美观性待提升。

🎯 最终提炼：三个关键点

CSA + HCA 把百万上下文成本打下来——这是全文最核心突破，推理FLOPs降至10-27%，KV cache降至7-10%

mHC + Muon + 稳定训练技巧——把超大规模MoE训练做得更稳、更快

训练/推理/KV cache/sandbox 一整套基础设施——把模型能力推进到接近真实工作流的层面

整理自 DeepSeek-V4 官方技术报告 · 2026年4月 · 如有勘误以官方文档为准