DEEPSEEK · TECHNICAL BRIEFING
DeepSeek-V4 文档精华总结
来源:DeepSeek-V4 官方技术报告 · 2026年4月
💡 一句话结论
DeepSeek-V4 的核心价值,不只是模型能力继续提升,而是把 百万 token 上下文 从"可展示的能力"推进到"可常规使用的能力",并在开放模型中继续逼近顶级闭源模型的推理、代码与 Agent 水平。
📐 模型规格
✅ 两个版本均支持 1M token 上下文
🔬 三大核心技术创新
① Hybrid Attention:CSA + HCA(全文最核心创新)
CSA(Compressed Sparse Attention):先把 KV cache 按序列维度压缩,再在压缩后的表示上做 sparse attention,兼顾长上下文效率和有效检索。HCA(Heavily Compressed Attention):对 KV 做更激进压缩,保留 dense attention,极限压缩下仍维持全局建模。二者交错使用:CSA 负责"压缩后还能挑重点",HCA 负责"极限压缩下仍能维持全局建模"。
② mHC:流形约束超级连接
不再把 residual 看作简单恒等映射,而是引入更强表达能力的 Hyper-Connections,同时对残差映射加流形约束,使训练过程更稳定,有效降低深层训练的信号放大和失稳风险。
③ Muon 优化器
大部分模块采用 Muon 优化器(而非常规 AdamW),实现更快收敛、更稳训练,是 V4 能稳定完成大规模训练的重要组成部分,并非边角优化。
⚡ 百万上下文的效率数据
在 1M token context 场景下,相比 DeepSeek-V3.2:
| 仅 27% | 仅 10% | |
| 仅 10% | 仅 7% |
💡 相比常见 BF16 GQA 配置,V4 在 1M 上下文下 KV cache 可压缩至约 2% 的量级
📊 评测成绩亮点(Pro-Max)
| 90.1 | |
| 80.6 | |
| 3206 | |
| 67.9 | |
| 84.4 | |
| 51.8 |
🏆 内部 R&D coding benchmark:67% pass rate,明显强于 Claude Sonnet 4.5(47%),接近 Claude Opus 4.5(70%)
🛠️ 系统工程亮点
DeepSeek-V4 在系统工程上投入很大,关键基础设施包括:
▸ 基于 TileLang 的高效 kernel 开发 ▸ FP4 量化感知训练 ▸ batch-invariant、deterministic kernel library(bitwise reproducibility) ▸ 推理期 KV cache 结构优化与磁盘级 KV 存储 ▸ Expert Parallelism 细粒度通信与计算重叠 ▸ 面向 Agentic AI 的大规模 sandbox 基础设施
⚠️ 论文自承的不足
架构较复杂:为追求极致长上下文效率保留了较多有效但不够简洁的组件,尚非终局架构。
稳定性技巧偏经验主义:Anticipatory Routing 和 SwiGLU Clamping 实战有效,但理论机制尚未完全厘清。
用户体验仍有提升空间:极复杂指令跟随略逊于 Claude Opus 4.5;超长内容高度压缩总结有短板;格式美观性待提升。
🎯 最终提炼:三个关键点
1
CSA + HCA 把百万上下文成本打下来——这是全文最核心突破,推理FLOPs降至10-27%,KV cache降至7-10%
2
mHC + Muon + 稳定训练技巧——把超大规模MoE训练做得更稳、更快
3
训练/推理/KV cache/sandbox 一整套基础设施——把模型能力推进到接近真实工作流的层面
整理自 DeepSeek-V4 官方技术报告 · 2026年4月 · 如有勘误以官方文档为准
夜雨聆风