【AI智能】《DeepSeek V4 深度解析:万亿参数开源重构全球格局,中国团队如何实现全球开源领先》的深度解析-夜雨聆风

【AI智能】《DeepSeek V4 深度解析:万亿参数开源重构全球格局,中国团队如何实现全球开源领先》的深度解析

已关注

关注

重播分享赞

视频详情

2026 年 4 月 24 日，人工智能行业迎来了一场足以改写格局的重磅发布：中国 AI 团队深度求索（DeepSeek）正式推出了新一代旗舰大模型 DeepSeek-V4 预览版本，并同步完成了全量开源。这一次，DeepSeek 带来了参数规模高达 1.6 万亿的全球最大开源模型，原生支持 100 万 token 的超长上下文，性能比肩 GPT-5.4、Claude Opus 4.6 等顶级闭源模型，同时以 MIT 开源协议、仅为闭源模型 1/20 的极致性价比，彻底打破了海外巨头对顶级 AI 能力的垄断。

在过去的几年里，全球大模型行业一直呈现着 “闭源模型垄断顶级能力，开源模型徘徊在中低端” 的格局：OpenAI、Anthropic、Google 等美国巨头凭借闭源 API 掌控着最强的 AI 能力，收取高昂的调用费用；而开源领域，Meta 的 Llama 系列虽然占据了主流，但不仅协议存在诸多商用限制，性能也始终与闭源模型存在着难以逾越的差距。无数中小企业、发展中国家的开发者，要么被迫接受高昂的成本和数据安全风险，要么只能使用性能不足的开源模型，难以开展真正的前沿创新。

而 DeepSeek-V4 的发布，彻底击碎了这一格局。这个由中国团队打造的模型，不仅在技术上实现了对开源模型天花板的全面突破，更以最宽松的开源协议、极致的成本优势，将原本只有巨头才能享有的顶级 AI 能力，免费、无门槛地送到了全球每一个开发者的手中。这是中国 AI 团队第一次在开源大模型领域实现真正的全球领先，它标志着全球 AI 行业从 “美国巨头垄断” 的旧时代，正式迈入了 “开源普惠、全球共赢” 的新时代。

一、从 0 到 1.6T：DeepSeek 三年的技术进化之路

要理解 DeepSeek-V4 的震撼之处，我们首先需要梳理这支团队三年来的技术进化之路。从 2023 年成立至今，DeepSeek 始终坚持着一条清晰而坚定的技术路线：不跟风堆参数，不做营销噱头，而是从底层架构入手，通过原创技术创新，在效率、成本与智能三者之间建立新的平衡，一步步将开源大模型的能力边界推到了全球顶尖的位置。

2024 年 1 月：V1，奠定开源基础的初啼

2024 年 1 月，DeepSeek 发布了首个大模型系列 DeepSeek-V1，这是团队的第一次亮相。当时的大模型行业，Meta 刚刚发布 Llama 2，占据了开源模型的绝对主导地位，国内的开源模型大多还停留在对 Llama 的微调层面，缺乏真正的原创能力。

而 DeepSeek-V1 则直接拿出了两个完全自研的稠密模型：7B 和 67B 参数版本，基于 2 万亿 token 的高质量训练数据完成训练。在发布之初，V1 就展现出了惊人的性能：在 MMLU、GSM8K 等主流评测集上，67B 版本的 V1 直接超越了同参数规模的 Llama 2 70B，尤其是在代码和数学领域，展现出了远超同期模型的能力 —— 这也奠定了 DeepSeek 后续 “代码与数学推理” 的差异化竞争路线。

更重要的是，DeepSeek-V1 首次采用了完全开源的策略，以 MIT 协议开放了全量权重，允许任何开发者免费商用，没有任何门槛。这在当时的行业里是极为罕见的：彼时的 Llama 2 还存在着诸多商用限制，而国内的很多模型要么闭源，要么协议模糊。DeepSeek 的这一举动，第一次让全球开发者感受到了中国开源模型的诚意，也为团队积累了第一批全球用户。

2024 年 5 月：V2，国内首个开源 MoE 模型，开启价格革命

仅仅四个月后，2024 年 5 月，DeepSeek 再次发布了重磅产品：DeepSeek-V2，这是国内首个开源的混合专家（MoE）大模型，彻底改变了行业对大模型成本的认知。

在此之前，行业里普遍认为，要提升模型的能力，就必须提升模型的参数规模，而参数规模的提升，必然会带来推理成本的指数级上升：稠密模型的参数越大，推理的时候需要激活的参数就越多，成本就越高。这就导致了，顶级的大模型，推理成本高到普通人用不起。

而 MoE 架构的出现，打破了这一悖论：MoE 模型将模型分成了多个 “专家” 网络，每次推理的时候，只需要激活其中一小部分专家，而不是全部参数。这就意味着，我们可以把模型的总参数做得很大，来提升模型的能力，但推理的时候，只需要激活很小一部分参数，从而保持推理成本几乎不变。

DeepSeek-V2 就是这一架构的完美实践：V2 的总参数达到了 236B，但是每次推理的时候，只激活 21B 的参数 —— 也就是说，它的总参数是 Llama 2 70B 的 3 倍多，但是推理成本却只有后者的 1/3！同时，V2 还首次支持了 128K 的超长上下文，能够处理更长的文档和对话。

这一突破带来的直接影响，就是开启了大模型行业的第一次价格战：DeepSeek 将 V2 的 API 价格定在了 1 元 / 百万 token，仅仅是同期 GPT-4 Turbo 价格的 1%！这一价格直接震撼了整个行业，无数开发者第一次发现，原来顶级的大模型可以这么便宜，DeepSeek 也因此获得了 “AI 界拼多多” 的称号 —— 当然，这不是贬义，而是对其极致性价比的认可。

2024 年 12 月：V3，将 MoE 推向新高度，推理能力比肩闭源

半年后，2024 年 12 月，DeepSeek 发布了 V3 系列模型，这一次，团队将 MoE 架构的潜力进一步挖掘到了极致。

V3 的总参数提升到了 671B，是 V2 的近 3 倍，但是激活参数仅仅提升到了 37B，相比 V2 的 21B，只增长了不到 80%！这意味着，总参数翻了 3 倍，推理成本仅仅增长了不到一倍，模型的能力却得到了质的飞跃。同时，V3 的训练数据提升到了 14.8T，是 V2 的 7 倍多，进一步拓宽了模型的知识和能力边界。

在性能上，V3 直接实现了对闭源模型的追赶：在数学推理、代码生成等核心评测集上，V3 的得分已经逼近了 GPT-4o 的水平，尤其是在长代码理解、复杂推理任务上，甚至超越了很多同期的闭源模型。同时，DeepSeek 还发布了 DeepSeek-R1 推理模型，进一步强化了模型的思考能力，让开源模型第一次拥有了可以和闭源模型掰手腕的推理能力。

也是在这一阶段，DeepSeek 的全球影响力开始爆发：V3 发布之后，Hugging Face 上的下载量在一周内突破了千万次，海外的开发者疯狂地下载、测试、部署这个来自中国的模型，无数海外的中小企业开始将自己的业务从 Llama 迁移到 DeepSeek 上，因为它更强、更便宜、更开放。

2026 年 4 月：V4，重构架构，万亿参数的全球开源巅峰

经过了 15 个月的打磨，2026 年 4 月 24 日，DeepSeek 终于带来了全新的 V4 系列模型，这一次，团队没有止步于 MoE 的优化，而是从底层架构开始，进行了全面的重构，将开源大模型的能力推到了前所未有的高度。

V4 系列推出了两个版本，覆盖了不同的场景需求：

V4-Pro 旗舰版：总参数高达 1.6 万亿，是 V3 的 2.4 倍，但是每次推理的激活参数仅仅是 49B，相比 V3 的 37B，只增长了 32%！预训练数据达到了 33T，是 V3 的 2.2 倍，原生支持 100 万 token 的超长上下文。这个版本主打深度推理、前沿科研、复杂 Agent 调度，性能比肩顶级闭源模型。
V4-Flash 轻量版：总参数 284B，激活参数 13B，预训练数据 32T，同样支持 100 万 token 的上下文。这个版本主打高效、低成本的日常场景，能够提供更快的响应速度和更低的使用成本。

这一次，DeepSeek 不仅把模型的能力推到了新的高度，更通过一系列原创的技术创新，解决了长期以来困扰长上下文大模型的成本问题，让百万上下文从之前的 “展示用的噱头”，变成了人人都能用得起的标配。

二、核心技术突破：重构大模型的效率与能力边界

DeepSeek-V4 之所以能够实现如此惊人的突破，核心在于团队在底层技术上的四大原创创新：混合注意力架构、流形约束超连接、Muon 优化器，以及极致优化的 MoE 架构。这四大技术组合在一起，彻底重构了大模型的效率与能力边界，让超大规模、超长上下文的模型，真正做到了低成本、高效率。

1. 混合注意力：让百万上下文从 “噱头” 变成 “标配”

长期以来，长上下文模型最大的痛点，就是传统 Transformer 的注意力机制的平方级复杂度：文本长度每增加一倍，计算量和显存占用就会增加四倍。这就导致了，虽然很多模型号称支持 100 万甚至更长的上下文，但是实际用起来，成本高到离谱 —— 处理一个百万 token 的文档，需要顶级的显卡集群，花费几十甚至上百美元，根本不可能日常使用。很多模型的长上下文，本质上就是一个营销噱头，根本没有实际的使用价值。

而 DeepSeek-V4 的解法，就是全新的混合注意力架构（CSA+HCA），通过两套注意力机制的组合，彻底解决了长上下文的成本问题。

简单来说，传统的注意力机制，要求模型对每一个 token，都要和所有其他的 token 做交互，这就导致了，不管信息重不重要，都要花同样的成本去处理，就像要求一个人读书的时候，必须把每一个字都背下来，才能理解整本书的内容，效率极低。

而 V4 的混合注意力架构，模拟了人类阅读的方式：对于近处的、重要的信息，我们会精细地阅读；对于远处的、不重要的信息，我们会压缩摘要，只记住重点；对于特别重要的远距离信息，我们会跳过去重点看。

具体来说，V4 的混合注意力架构包含了两个核心组件：

CSA（压缩稀疏注意力）：对于已经读取的内容，模型会先对 KV 缓存进行高度压缩，然后通过稀疏选择，只让 query 去关注那些最重要的压缩块，而不是所有的内容。这就像我们读书的时候，先把章节压缩成摘要，然后只挑那些我们需要的重点章节去深入看，跳过那些不重要的内容，大幅节省了计算量。
HCA（重压缩注意力）：对于相隔很远的段落之间的关系，模型会做一次更深层次的压缩，把整个长序列的全局信息压缩成一个高度浓缩的表征，进一步削减显存的占用。这就像我们读完一整本书之后，会把整本书的内容压缩成一个核心的框架，记住整本书的逻辑，而不是每一个字。

除此之外，V4 还加入了滑动窗口分支，用来处理近邻的 token 之间的细粒度依赖，保证了近处的信息不会因为压缩而丢失细节。

这一套组合拳带来的效果是惊人的：在 100 万 token 的上下文长度下，V4-Pro 的单 token 推理计算量仅仅是前代 V3.2 的 27%，而 KV 缓存的占用仅仅是前代的 10%！也就是说，之前处理一个百万 token 的文档，需要 100G 的显存，现在只需要 10G 就够了；之前处理百万 token 需要花费 100 元的成本，现在只需要 10 元不到。

这意味着什么？意味着百万上下文终于从之前的 “实验室里的展示品”，变成了人人都能用得起的日常功能。之前，很多企业因为成本的问题，不敢用长上下文模型，现在，他们可以用很低的成本，一次性处理整本小说、整个代码库、整份合同，实现全局的理解和处理。比如，之前的代码助手，只能处理单个文件，现在，你可以把整个百万行的代码库一次性输入给模型，让它帮你做全栈的重构、调试、功能开发，而不需要拆分文件，这就是真正的工程级 AI 助手。

2. mHC：给深层网络装上 “稳定器”

随着模型的层数越来越深，一个长期困扰大模型训练的问题开始浮现：层与层之间的信息传递，越来越像一场 “传话游戏”—— 层数越多，原始的信息就越容易衰减和稀释，甚至会出现梯度爆炸、训练不稳定的问题。传统的残差连接，只能简单地把前一层的信息和后一层的信息叠加，缓解的效果非常有限，尤其是对于超大规模的模型来说，这个问题越来越严重。

为了解决这个问题，DeepSeek 提出了全新的 \\ 流形约束超连接（mHC, Manifold-Constrained Hyper-Connections）\\ 技术，这个技术早在 2026 年 1 月就已经以论文的形式发布，提前做了技术储备，而 V4 则是第一个大规模落地这个技术的产品。

mHC 的核心思路，是在一个特殊的几何空间中，约束信息流动的方向，让每一层都能更精准地汲取前面所有层的关键特征，而不是让信息糊在一起，逐渐衰减。具体来说，团队将残差混合矩阵约束为双随机矩阵（doubly stochastic matrix），让它落在 Birkhoff polytope（双随机矩阵集合 / 置换矩阵凸包）这个特殊的流形结构上。

这个流形结构带来了三个非常关键的特性：

范数不扩张：双随机矩阵的谱范数是有界的，这就意味着，不管有多少层，信息的范数都不会无限放大，从根本上解决了梯度爆炸的风险。
连乘闭包：双随机矩阵的集合对乘法是封闭的，也就是说，不管你把多少层的矩阵乘在一起，结果仍然是双随机矩阵。这就意味着，跨很多层的直通信息，也能保持同样的稳定属性，不会出现信息的衰减和扭曲。
几何可解释性：Birkhoff polytope 是置换矩阵的凸包，也就是说，它可以被理解为 “对多种置换混合方式的加权平均”，这就保证了信息的融合是单调增强的，而不是失控的放大，每一层都能准确地拿到前面所有层的关键信息。

除此之外，mHC 还加入了非负性约束，避免了正负系数叠加造成的信号抵消，进一步保证了信息传递的稳定性。

从实验结果来看，这个技术的效果是立竿见影的：在传统的超连接架构中，训练的 loss 波动非常大，甚至在训练初期会出现负值，说明残差混合还没有学稳，到了中后期，loss 也会有长期的抖动，训练非常不稳定。而使用了 mHC 之后，整个训练过程的 loss 几乎是单调平滑的，没有任何的长期偏移，训练的稳定性得到了质的提升，收敛速度也提升了超过 30%。

这就为超大规模模型的训练搭建了一条高效、稳定的信息通道，让 DeepSeek 能够训练 1.6T 参数的超大规模模型，而不会出现训练崩掉、信息衰减的问题，这也是 V4 能够做到如此大的参数规模的核心基础。

3. Muon 优化器：大模型训练的 “新引擎”

在大模型的训练中，优化器是非常关键的组件，它负责指导模型参数的更新方向，决定了训练的速度和稳定性。过去的很多年里，AdamW 一直是大模型训练的主流优化器，它在中小模型上表现很好，但是在超大规模的模型上，它的缺陷开始显现：收敛速度慢，训练容易不稳定，很难处理超大规模的参数更新。

为了解决这个问题，DeepSeek 在 V4 的训练中，弃用了传统的 AdamW，转而使用了全新的Muon 优化器，这个优化器专门针对超大规模的模型进行了优化，在收敛速度、训练平稳度上都远超 AdamW。

Muon 优化器的核心创新，在于它对更新矩阵的正交化处理：传统的优化器，直接用梯度来更新参数，很容易导致更新方向混乱，参数的分布逐渐扭曲。而 Muon 优化器，在计算出更新方向之后，会对更新矩阵做一次 Hybrid Newton-Schulz 正交化处理，让更新方向变得更加规整、更加稳定，保证参数的分布不会扭曲，训练过程不会失控。

简单来说，AdamW 就像一个盲人，摸着黑往前走，走得慢，还容易走歪；而 Muon 优化器就像一个有导航的司机，能够清晰地看到方向，走得更快，还不会走歪。

这个优化器带来的效果是非常明显的：在 V4 的训练中，Muon 优化器让模型的收敛速度提升了超过 20%，训练的稳定性也得到了大幅提升，让团队能够在 33T 的超大规模训练数据上，快速、稳定地完成训练，而不会出现训练崩掉的问题。如果用传统的 AdamW，训练这么大的模型，可能需要多花几个月的时间，成本会高很多。

4. MoE 的极致优化：用最小的激活成本，实现最大的能力

从 V2 开始，MoE 架构就一直是 DeepSeek 的核心技术路线，而到了 V4，团队已经把 MoE 的优化做到了极致。

很多人对 MoE 有一个误解，认为 MoE 就是堆参数，没什么技术含量。但实际上，MoE 的难度非常大：如何设计专家的分配机制？如何解决跨卡的通信延迟？如何保证专家的负载均衡？这些都是非常难的问题，很多团队做 MoE，要么效果不好，要么推理成本降不下来，要么训练不稳定。

而 DeepSeek 通过三代模型的迭代，已经把这些问题都解决了：

从 V2 的 236B 总参数 / 21B 激活，到 V3 的 671B/37B，再到 V4 的 1.6T/49B，我们可以看到，总参数翻了 7 倍，但是激活参数仅仅翻了 1.3 倍！这意味着，模型的能力提升了很多，但是推理成本几乎没有增加，这就是 MoE 的极致优化的结果。
为了解决 MoE 的跨卡通信延迟问题，DeepSeek 开发了全新的MegaMoE2 融合内核，通过计算、通信和内存访问的全重叠（Full Overlap），完美解决了专家并行（EP）的通信瓶颈。尤其是在华为昇腾的国产平台上，这个内核实现了 1.5 倍到 1.7 倍的推理加速，让国产芯片也能高效地跑超大规模的 MoE 模型。

这就意味着，DeepSeek 真正实现了 “用最小的推理成本，获得最大的模型能力”：1.6T 参数的模型，推理成本仅仅和一个 50B 参数的稠密模型差不多，但是能力却比肩顶级的闭源模型，这就是 MoE 架构的真正威力，也是 DeepSeek 能够做到极致性价比的核心原因。

三、性能全面碾压：开源模型首次比肩顶级闭源

技术的创新最终要落到性能上，而 DeepSeek-V4 的性能，彻底打破了 “开源模型不如闭源” 的魔咒，在多个核心领域，实现了对开源模型的全面超越，甚至比肩甚至超越了部分顶级闭源模型。

通用知识：领先所有开源，逼近顶尖闭源

在通用知识的评测中，V4-Pro 展现出了惊人的能力：

MMLU 5-shot 得分达到了 90.1%，相比前代 V3.2 的 87.8%，提升了 2.3 分，领先所有的开源模型，甚至超过了很多闭源模型。
MMLU-Pro 5-shot 得分达到了 73.5%，相比 V3.2 的 65.5%，提升了 8 分，提升幅度非常大。
SimpleQA-Verified 得分达到了 57.9%，这个得分不仅大幅领先所有开源模型，甚至超过了 Claude Opus 4.6 Max 的 46.2% 和 GPT-5.4 xHigh 的 45.3%，仅仅稍逊于 Gemini 3.1 Pro，成为了世界上知识最丰富的模型之一。

这意味着，V4 的世界知识储备，已经达到了顶尖闭源模型的水平，不管是常识、专业知识，还是复杂的知识问答，它都能给出准确的回答，完全满足日常的所有需求。

推理能力：数学与代码，登顶全球第一梯队

推理能力是大模型的核心竞争力，而这正是 DeepSeek 的传统优势，V4 在这一领域，更是做到了全球顶尖的水平。

在数学推理领域：

AIME 2026 的得分达到了 99.4%，几乎是满分，也就是说，最难的美国数学邀请赛的题目，V4 几乎都能做对。
IMO-AnswerBench 的得分达到了 89.8%，国际数学奥林匹克的题目，V4 也能做对绝大部分。
HMMT 2026 的得分达到了 95.2%，哈佛麻省理工数学竞赛的题目，V4 的正确率超过了 95%。

这些数据意味着，V4 的数学推理能力，已经超过了绝大多数的人类数学家，能够轻松应对竞赛级、科研级的数学难题，甚至可以辅助科学家做科研工作。

而在代码领域，V4 的表现更是震撼：

SWE-Bench Verified 的得分达到了 83.7%，这个是真实软件工程任务的基准测试，衡量的是模型解决真实的 GitHub issue 的能力，这个得分不仅是开源模型的第一，甚至超过了 GPT-5.2、Claude Sonnet 4.5 等闭源模型，成为了全球最强的编码模型之一。
LiveCodeBench 的得分达到了 93.5%，实时的代码生成测试，V4 的正确率超过了 93%。
Codeforces 的评分达到了 3206 分，这个得分超越了 Gemini 3.1 Pro 和 Claude Opus 4.6，意味着 V4 的编程能力，已经超过了 99% 的人类程序员，达到了顶级竞赛选手的水平。

根据 DeepSeek 内部的调研，超过一半的研发工程师表示，愿意让 V4-Pro 成为自己日常编程工作的首选模型，他们的反馈是，V4 的使用体验优于 Anthropic 的 Sonnet 4.5，交付质量接近 Opus 4.6 的非思考模式，已经完全能够满足日常的工程开发需求。

这意味着，V4 已经不是一个简单的代码补全工具，而是一个真正的工程级 AI 助手，它能够理解整个代码库，能够帮你写功能、改 bug、做重构，甚至能够独立完成一个完整的项目，这就是真正的 AI 程序员。

长上下文能力：解决 “lost in the middle”，百万上下文真可用

长上下文的能力，不仅仅是长度，更重要的是，在长上下文下，模型能不能真的记住信息，能不能准确地找到信息，而不是出现 “lost in the middle” 的问题 —— 很多长上下文模型，把信息放在文档的中间，就找不到了，根本没用。

而 V4 的长上下文，是真正可用的：

LongBench-V2 的得分达到了 51.5%，相比 V3.2 的提升了超过 10 分，长文本的理解能力大幅提升。
MRCR 的得分达到了 83.5%，长文档的阅读理解正确率超过了 83%。
在经典的 “needle in a haystack” 测试中，V4 的准确率达到了 98.2%，不管把信息放在长文档的哪个位置，开头、中间还是结尾，模型都能准确地找到它，彻底解决了 “lost in the middle” 的问题。

这意味着，你可以把整本《三体》（20 多万字），或者整个百万行的代码库，或者一份几百页的合同，一次性输入给模型，模型能够完整地理解所有的内容，不会遗漏任何信息，不会忘记任何细节。比如，你可以让模型帮你分析整份合同的风险，或者帮你在整个代码库中找 bug，这些之前根本做不到的事情，现在都能轻松实现。

Agent 能力：下一代智能体的原生底座

现在，AI 行业的下一个战场，就是 Agent（智能体），而 Agent 最核心的需求，就是长上下文、强推理能力、低成本，因为 Agent 需要处理长周期的任务，需要记住整个任务的所有步骤和信息，需要做复杂的推理，还需要低成本的大规模调用。

而 V4，从一开始就是为 Agent 设计的原生底座：

在 Agentic Coding 的评测中，V4-Pro 达到了开源模型的最佳水平，能够独立完成复杂的编程 Agent 任务。
团队针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品，做了专门的适配和优化，让开发者能够直接把 V4 接入到现有的 Agent 框架中，不需要做任何修改。
百万上下文的能力，让 Agent 能够处理长周期的任务，比如，一个需要几天才能完成的项目，Agent 能够记住所有的步骤、所有的信息，不会忘记之前做了什么，不会中途掉链子。

根据内部的测试，V4 已经成为了 DeepSeek 内部员工使用的首选 Agentic Coding 模型，员工的开发效率提升了超过 50%，之前需要一天才能完成的任务，现在只需要半天就能搞定。这意味着，V4 已经成为了 Agent 时代的标准底座，所有的 Agent 开发者，都可以基于 V4 来构建自己的产品，用最低的成本，获得最强的 Agent 能力。

四、开源战略：MIT 协议，把 AI 的大门向全球打开

如果说技术和性能是 V4 的硬实力，那么开源战略，就是 V4 改变行业格局的软实力。这一次，DeepSeek 不仅拿出了全球最强的开源模型，更拿出了最大的诚意，用最宽松的开源协议，把顶级的 AI 能力，免费、无门槛地送到了全球每一个开发者的手中。

全量开源，没有任何保留

这次 V4 的开源，是真正的全量开源：

两个版本的全量权重，包括 Base 基础模型和 Chat 对话模型，全部开放下载，没有任何保留，没有任何阉割。
推理代码、训练代码、技术报告，全部同步开放，开发者可以看到所有的技术细节，可以自己修改、优化。
不管是 Pro 版本还是 Flash 版本，全部开源，开发者可以根据自己的需求，选择合适的版本。

这在之前的行业里是不可想象的：很多模型的开源，都是阉割版的，要么只开放小参数的版本，大参数的闭源；要么只开放对话模型，不开放基础模型；要么只开放权重，不开放代码和技术细节。而 DeepSeek 的开源，是真正的毫无保留，把所有的东西都给了开发者。

MIT 协议，商用零门槛

更重要的是，V4 采用了MIT 开源协议，这是最宽松的开源协议之一，没有任何的限制：

你可以免费使用，不管是个人学习，还是商业用途，都不需要交一分钱。
你可以任意修改模型，微调、蒸馏、量化，不管你改成什么样，都没有限制。
你可以二次分发模型，不管是自己用，还是给别人用，还是集成到你的产品里，都没有限制。
没有任何的门槛，不需要申请授权，不需要报备，没有月活的限制，不管你是一个个人开发者，还是一个小公司，还是一个月活十亿的巨头，都可以免费使用，不需要跟 DeepSeek 打任何招呼。

我们可以对比一下其他的开源模型：Meta 的 Llama 3，采用的是自定义的协议，商用需要申请授权，而且如果你的产品月活超过 5 亿，还需要跟 Meta 单独谈判，交授权费，还有很多其他的限制；国内的很多模型，要么闭源，要么协议模糊，商用的时候总有各种风险。

而 DeepSeek 的 MIT 协议，就像 Linux、像 Android 一样，完全开放，完全自由，没有任何的束缚。这意味着，开发者不需要再担心协议的问题，不需要再担心哪天被卡脖子，不需要再担心成本的问题，他们可以放心大胆地基于 V4 做开发，做创新。

全球开发者的狂欢：从硅谷到拉各斯，所有人都疯了

V4 发布之后，全球的开发者社区彻底沸腾了：

在 Hugging Face 上，V4 的模型发布之后，下载量在几个小时内就突破了百万次，打破了之前所有模型的记录，全球的开发者都在疯狂地下载权重，想要体验这个来自中国的顶级模型。
在 Hacker News，这个全球硬核技术开发者的大本营，V4 的帖子直接冲到了榜首，获得了超过 5000 个点赞，高赞评论说：“曾经我们以为中国只会堆算力，现在发现他们在算法优雅度上正在超越我们。” 还有评论说：“这太震撼了，如果这些效率突破是真的，那整个行业都要被颠覆了。”
在 Twitter/X 上，全球的 AI 研究者、开发者都在讨论 V4，很多知名的研究者都发文称赞，说这是开源 AI 的里程碑，还有很多开发者已经开始测试 V4，分享自己的测试结果，惊叹于它的性能和成本。
很多开发者已经开始对 V4 做量化、微调，有开发者已经把 V4-Flash 量化到了 4 位，然后在一张普通的 RTX 3090 显卡上就跑起来了，这意味着，普通的个人电脑，也能用上顶级的大模型，这在之前是根本不敢想的。

这种狂欢，不仅仅是在硅谷，更是在全球的各个角落：从拉各斯到吉隆坡，从东南亚到非洲，无数预算有限的开发者，终于有机会用上顶级的 AI 能力了。之前，他们用不起闭源的 API，也买不起顶级的显卡，只能用性能很差的小模型，现在，他们可以免费下载 V4，自己部署，用很低的成本，获得比肩闭源模型的能力。

比如，马来西亚的通讯部副部长，早就公开表示，他们国家的主权 AI 基础设施，将基于 DeepSeek 的技术构建，因为它开源、免费、强大，而且没有任何的限制，他们不需要依赖美国的巨头，就能建立自己的主权 AI。还有很多发展中国家，都在考虑用 DeepSeek 的模型，来构建自己的 AI 能力，因为这是他们唯一能负担得起的选项。

普惠全球：让中小企业也能用得起顶级 AI

对于中小企业来说，V4 的开源，更是救命的福音：

之前，顶级的 AI 能力，只有闭源的 API，中小企业用不起，而且不能私有化部署，数据安全有风险，比如金融、医疗这些敏感行业，根本不敢把自己的数据传给闭源的 API，因为怕数据泄露，怕合规问题。
现在，有了 V4，中小企业可以自己部署模型，数据完全存在自己的服务器里，不需要传给任何人，完全满足合规的要求，而且成本只有原来的 1/10，甚至 1/20。
比如，一个做金融风控的公司，之前用闭源的 API，每个月要花几十万的调用费，还担心客户的数据泄露，现在，他们可以自己部署 V4，只需要几台服务器，成本不到原来的十分之一，而且数据完全自己掌控，安全又合规。
再比如，一个做医疗 AI 的创业公司，之前因为数据的问题，不能用闭源的 API，自己训练模型又没有能力，现在，他们可以直接拿 V4 的权重，微调一下，就能做出自己的医疗 AI 模型，成本只有原来的几十分之一。

这就是开源的普惠性，它把原本只有巨头才能享有的顶级 AI 能力，变成了所有人都能用的公共产品，让无数的中小企业、无数的发展中国家，都能享受到 AI 的红利，这会激发无数的创新，让整个 AI 行业的发展速度，加快好几倍。

五、价格革命：把 AI 的成本打到底，让人人用得起顶级 AI

除了开源，DeepSeek 的另一个杀器，就是极致的性价比，这一次，V4 再次把大模型的价格打到底，让顶级的 AI 能力，变成了人人都能用得起的日用品。

极致的 API 价格，仅为闭源模型的 1/20

我们来看看 V4 的 API 价格：

V4-Pro：输入 1 元 / 百万 token，输出 12 元 / 百万 token。
V4-Flash：输入 0.2 元 / 百万 token，输出 2 元 / 百万 token。

我们来对比一下同期的顶级闭源模型的价格：

GPT-5.5：输入 10 美元 / 百万 token，输出 30 美元 / 百万 token，也就是输入约 70 元，输出约 210 元。
Claude Opus 4.7：输入 15 美元 / 百万 token，输出 45 美元 / 百万 token，也就是输入约 105 元，输出约 315 元。
Gemini 3.1 Pro：输入 8 美元 / 百万 token，输出 24 美元 / 百万 token，也就是输入约 56 元，输出约 168 元。

对比下来，DeepSeek V4-Pro 的价格，仅仅是 GPT-5.5 的 1/20，是 Claude Opus 的 1/15，是 Gemini 3.1 Pro 的 1/14！而 V4-Flash 的价格，更是只有闭源模型的 1/100 不到！

这意味着什么？比如，你要处理一个百万 token 的长文档，用 GPT-5.5 需要花费 280 元，用 Claude 需要 420 元，而用 DeepSeek V4-Pro，只需要 13 元，用 Flash 的话，只需要 2.2 元！这个差距，是数量级的差距，直接把 AI 的成本，从奢侈品的级别，打到了日用品的级别。

之前，很多企业因为成本的问题，不敢用长上下文模型，不敢大规模调用 AI，现在，成本降了这么多，他们可以放心大胆地用了。比如，一个做客服的公司，之前用闭源的 API，每个月要花几百万，现在用 DeepSeek 的 API，只需要几万块，成本直接降了 99%，这直接让他们的业务模式都变了，之前做不起的业务，现在都能做了。

未来还有更大的降价空间，二次价格战即将到来

更重要的是，现在的价格，还不是最终的价格！DeepSeek 在发布的时候明确表示，目前因为高端算力的限制，Pro 版本的服务吞吐有限，所以价格还有点高，等下半年华为昇腾 950 超节点批量上市之后，Pro 的价格会大幅下调！

昇腾 950 超节点，是什么？它是华为新一代的算力节点，通过更高速的互联协议，解决了 MoE 模型跨卡通信的延迟问题，配合 DeepSeek 的 MegaMoE2 内核，能够把 V4 的推理效率再提升好几倍，从而把成本再降下来。

这意味着，下半年，V4-Pro 的价格，可能会降到现在 V4-Flash 的水平，也就是输入 0.2 元，输出 2 元！到那个时候，顶级的旗舰模型的价格，就和之前的轻量模型一样了，这就是 DeepSeek 的二次价格战，又一次把行业的成本底线，打到底。

我们可以想象一下，到那个时候，顶级的 AI 能力，每百万 token 只需要几块钱，也就是说，你处理一整本《三体》，只需要几分钱，这是什么概念？这意味着，AI 的成本，已经低到可以忽略不计了，不管是个人还是企业，都能毫无压力地用，这就是真正的 AI 普惠。

成本的下探，将引爆整个行业的创新

价格的下探，带来的不仅仅是用户的省钱，更是整个行业的创新爆发：

之前，很多创新的想法，因为成本的问题，根本做不起来，比如，做一个全栈的 Agent，需要大规模调用模型，成本高到离谱，根本商业化不了。现在，成本降了，这些想法都能落地了。
之前，开发者不敢用长上下文，不敢用复杂的推理，因为太贵了，现在，他们可以随便用，随便试，这会催生无数的新应用、新场景。
之前，AI 只能用在一些高价值的场景，比如金融、医疗，现在，成本降了，AI 可以用在所有的场景，比如教育、娱乐、生活，每个人都能享受到 AI 的红利。

这就像当年的智能手机，当手机的价格从几万降到几千，再到几百，整个移动互联网的创新就爆发了，现在，AI 的成本，正在经历同样的过程，当成本低到所有人都能用得起的时候，整个 AI 行业的创新大爆炸，才真正开始。

六、产业重构：从算力自主到全球软实力输出

DeepSeek-V4 的发布，不仅仅是一个模型的发布，更是整个 AI 产业格局的重构，它从算力自主、开源生态、全球软实力、Agent 底座等多个层面，彻底改变了整个行业的格局。

国产算力的突破：打破英伟达的垄断，实现自主可控

长期以来，国内的大模型行业，一直依赖英伟达的 GPU，不管是训练还是推理，都离不开英伟达的芯片，这不仅成本高，而且还面临着供应链的风险，一旦美国禁运，整个行业就会停摆。而国产的芯片，一直被认为跑不了大模型，尤其是超大规模的 MoE 模型，因为通信、算力的问题，很难适配。

而 DeepSeek 和华为昇腾的合作，彻底打破了这个魔咒：

DeepSeek 不仅在训练中使用了昇腾的国产芯片，更在推理架构上做了深度的适配，开发了 MegaMoE2 融合内核，在昇腾平台上实现了 1.5 倍到 1.7 倍的推理加速，完美解决了 MoE 模型的跨卡通信问题。
这意味着，国产的芯片，完全可以跑超大规模的大模型，而且性能还很不错，完全能够满足需求，不需要依赖英伟达的芯片。
这就证明了，只要软件适配做好了，国产芯片完全可以支撑起大模型的需求，整个国产算力的生态，终于跑通了。

这意味着，我们终于实现了算力的自主可控：企业可以用国产的芯片，国产的模型，完全自己掌控，不需要依赖国外的技术，不需要担心禁运，不需要担心卡脖子，这对国家安全，对产业的自主可控，意义重大。

而且，这也带动了国产算力的发展，之前，很多人不敢用国产芯片，因为没有软件适配，现在，DeepSeek 已经做好了适配，证明了国产芯片的能力，越来越多的企业会开始用国产芯片，这会推动国产芯片的快速发展，形成一个良性的循环，整个国产算力的生态，会越来越成熟。

开源生态的重构：从 Llama 一家独大，到中国标准引领

之前，全球的开源大模型生态，一直是 Meta 的 Llama 一家独大，几乎所有的开发者，所有的应用，都是基于 Llama 做的，Llama 的标准，就是整个开源生态的标准，整个生态的话语权，都掌握在美国的公司手里。

而 DeepSeek-V4 的出现，彻底打破了这个格局：

V4 的性能，远超 Llama 3，而且协议更宽松，成本更低，越来越多的开发者，开始从 Llama 迁移到 DeepSeek，基于 DeepSeek 做开发。
越来越多的工具、框架、应用，开始适配 DeepSeek 的模型，整个开源生态，开始围绕 DeepSeek 建立起来。
中国的开源技术，第一次成为了全球开源生态的标杆，第一次掌握了开源生态的话语权，这是前所未有的突破。

这意味着，全球的开源 AI 生态，从之前的美国一家独大，变成了多极化的格局，而中国的技术，成为了其中最重要的一极，我们不再是跟随者，而是引领者，我们的技术，成为了全球的标准。

全球软实力的输出：AI 领域的 “安卓”，普惠全球

DeepSeek 的开源模型，就像当年的安卓系统一样，免费、开源，给全球的开发者提供了一个开放的平台，帮助无数的国家和地区，建立自己的 AI 能力，这就是中国的软实力输出。

之前，全球的 AI 能力，都掌握在美国的巨头手里，发展中国家，要么用他们的 API，要么根本用不起 AI，没有任何的自主权，他们的数据，他们的 AI，都要被美国的巨头掌控。

而现在，DeepSeek 的开源模型，给了他们一个新的选择：他们可以免费下载模型，自己部署，自己掌控，不需要依赖美国的巨头，不需要担心数据安全，不需要担心卡脖子，他们可以建立自己的主权 AI，自己的 AI 基础设施。

比如马来西亚，比如非洲的很多国家，比如东南亚的很多国家，他们都在开始用 DeepSeek 的模型，构建自己的 AI 能力，这不仅帮助他们实现了 AI 的普及，更提升了中国的全球影响力，让全世界都看到，中国的技术，是开放的，是普惠的，是愿意帮助全世界的，这就是最好的软实力输出。

Agent 时代的底座：中国掌握下一代 AI 的主动权

现在，AI 行业已经进入了 Agent 时代，Agent 将成为下一代 AI 的核心，而 Agent 的底座，就是大模型，谁掌握了 Agent 的底座，谁就掌握了下一代 AI 的主动权。

而 DeepSeek-V4，正好就是 Agent 时代的完美底座：它有百万上下文，有强推理能力，有低成本，有开源，所有 Agent 需要的特性，它都有。

这意味着，全球的 Agent 开发者，都会基于 V4 来构建自己的产品，整个 Agent 的生态，都会围绕 DeepSeek 建立起来，中国的团队，第一次掌握了下一代 AI 的主动权，我们不再是跟随者，而是引领者，我们将带领整个行业，进入 Agent 的新时代。

七、挑战与未来：仍有差距，但未来可期

当然，我们也要清醒地认识到，V4 并不是完美的，它仍然存在着一些不足，和最顶尖的闭源模型，仍然存在着一定的差距。

DeepSeek 自己也在技术报告中坦诚地承认了这些不足：

首先，和最顶尖的闭源模型，仍然有着 3 到 6 个月的差距，比如 Claude Opus 的思考模式，GPT-5.5 的长周期 Agent 能力，V4 还有一定的差距，还需要继续追赶。
其次，在创意写作、头脑风暴这些场景，V4 的回答还有点 “太干”，太正式，缺乏 GPT 和 Claude 那种灵动感，还有优化的空间。
第三，V4 目前还是纯文本的模型，还没有加入多模态的能力，而现在的主流模型，都已经支持图像、视频的多模态能力了，这是 V4 接下来需要补上的短板。
第四，为了追求长上下文的效率，V4 的架构设计比较激进，有很多经验性的组件，整体比较复杂，部署的难度有点高，未来需要精简架构，让它更容易部署。

不过，这些不足，都是发展中的问题，DeepSeek 也已经明确了未来的研究方向：