DeepSeek-V4炸场,OpenClaw被官方点名!
昨天凌晨,DeepSeek发布了V4。
没有盛大的发布会,没有提前预热,就是一个官方公告,加一篇公众号文章,但内容却把整个模型圈炸了。
一句话定性:DeepSeek-V4-Pro,开源最强编程模型,没有之一。
MoE架构:参数量大,不等于贵
先说架构。
V4用的还是MoE(混合专家架构)。这东西出来有段时间了,但很多人对它的理解还停留在”参数量大”这个层面。
但其实这个季节是错的,MoE的核心不是大,是省。
传统Dense模型,每次推理要激活全部参数。100B的模型,推理一次就跑100B的计算量,我们的钱就是这样烧掉的。
但是MoE不一样。它有多个”专家”网络,每次推理只根据需要激活其中一部分。
V4总参数量671B,听起来吓人。但每次推理只激活49B的计算量。
看清楚了,仅仅是49B,不是671B,就是49B。
这意味着DeepSeek可以用比其他671B模型低得多的成本,跑出接近甚至持平的效果。
官方原话:”每次推理只消耗49B的计算量,效率大幅提升。”
如果真如官方所说,那这能帮我们这些重度AI用户省下不少的token费用。
mHC:1M上下文,计算量只增加27%
DeepSeek-V4 拥有百万字超长上下文。
100万个token,是什么含义呢?相当于可以丢一整本《战争与和平》进去,让模型基于整本书回答问题。代码库再大,塞进去也没压力。
但是我们都知道上下文越长,计算量越大。标准Attention的计算复杂度是O(n²),上下文翻倍,计算量不是翻倍,是平方倍增长。
DeepSeek怎么解决的?DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。
他的核心思路是token压缩+稀疏注意力——不是每个token都去计算全局Attention,而是通过潜空间压缩,把冗余信息干掉。
根据官方的数据:实现1M上下文,对比V3.2,计算量只增加27%。
这是什么意思呢?相对于用传统Attention,1M上下文相对于128K,计算量增长将是天文数字。DeepSeek用mHC,硬生生的把这个数字压到了27%。
这直接是是架构层面的重新设计了,不仅仅是微调优化。

Muon优化器:二阶武器,DeepSeek第一个跑通
优化器是训练环节最容易被忽略的组件。平时大家都关注参数规模、上下文长度,优化器这种”幕后角色”很少被讨论。
但DeepSeek在V4里用了一个新东西:Muon。
Muon是二阶优化器。Adam系列是一阶的,靠梯度方向做更新。听起来差不多,但二阶优化器考虑的是梯度的梯度——更精准的方向,更快的收敛速度。
好处很明显,但是代价也很突出:更难训练。二阶的计算量比一阶大得多,调参也更加复杂。因此即使业界都知道Muon好,但一直没人真正把它跑通在大规模训练上。
但是DeepSeek偏偏就这么干了。
官方说:用Muon优化器,把32T tokens跑完了。3.2万亿个token。行业里很多模型训练到1T tokens就开始收敛,DeepSeek跑了32T。
这不是堆数据,这是工程能力的体现。
编程能力:开源最强,但还有差距
理论和数据说了那么多,但是大家最关心的部分是实用效果。
官方对V4-Pro编程能力的定位:
• 开源最强,没有之一
• 内部使用体验:优于Sonnet 4.5
• 交付质量:接近Opus 4.6非思考模式
• 差距:仍落后Opus 4.6思考模式
拆开看:
“优于Sonnet 4.5″,Sonnet 4.5是Anthropic面向编程场景的主力模型,在开发者社区有很高口碑。V4-Pro能在体验层面超过它,开源模型里是第一次。
“接近Opus 4.6非思考模式”,Opus 4.6是OpenAI的通用旗舰,非思考模式就是直接输出,不走CoT推理。V4-Pro交付的代码质量,和Opus 4.6直接输出相当。
“仍落后Opus 4.6思考模式”——Opus 4.6开启思考模式后,推理能力再上一个台阶。V4-Pro在这个维度还有差距。
注意这里的技术细节:V4-Pro对标的是Opus 4.6的非思考模式,不是Sonnet 4.5。Sonnet是编程专用模型,Opus是通用旗舰。把编程能力做到接近通用旗舰的非思考模式输出,这个高度之前没有开源模型达到过。
OpenClaw被官方点名:不是套路,是工程级适配
官方在公告里点名适配了四款工具:OpenClaw、Claude Code、OpenCode、CodeBuddy。在代码任务、文档生成任务等方面表现均有显著提升。
这意味着DeepSeek针对这些工具的调用模式、上下文处理、输出格式做了定向调优。用这些工具调用V4 API,响应速度、流式输出的稳定性、工具调用的准确性,都会比通用接口更好。
举例来说,对OpenClaw🦞用户来说:你在OpenClaw里配置DeepSeek-V4-Pro作为模型,Agent模式下的代码生成、工具调用、任务拆解,都会比之前用V3更顺,影响时间更短,质量更高!
题外话:OpenClaw被官方点名,说明它在国内AI开发者里的渗透率已经到了DeepSeek愿意做专项适配的程度。这个信号也是值得我们关注的
API迁移:现在就开始,别等到七月
官方透露了一个容易被忽略但很重要的事:旧接口在2026年7月24日停用。
旧接口是 deepseek-chat 和 deepseek-reasoner。V4用的是新的接口格式。
还有四个月倒计时,听起来还有不少时间。但考虑到官方建议现在就开始迁移、很多项目里deepseek调用是硬编码的、接口格式变化可能涉及代码改造——现在就动手,总比七月临时抱佛脚强。
HuggingFace和ModelScope的权重已经放出来了,有能力的可以直接跑本地部署。不想折腾的,可以直接切API也没问题,V4的接口设计比V3更规范,对接更便捷。
最后
DeepSeek V4为什么又一次登上了热搜?因为它炸了开源模型的天花板。
利用MoE把推理成本打下来,mHC把上下文长度打上去,Muon把训练效率打上去。三件事同时发生,把开源和闭源的边界又往开源那边推了一截。
😀期待国产模型再一次发光发热!
夜雨聆风