沉寂 15 个月,DeepSeek 用一份接口文档,把整个 AI 行业的定价逻辑重新打了一遍。
等了 15 个月,终于等来了
4 月 24 日凌晨,就在 OpenAI 刚刚发布 GPT-5.5 几个小时后,DeepSeek 把一个憋了整整 15 个月的东西甩了出来——
DeepSeek-V4 预览版,正式上线,同步开源。
两个版本,Pro 和 Flash,全系标配 100 万 Token 超长上下文,API 同步开放调用,技术报告一并公开,模型权重已在 HuggingFace 和 ModelScope 完整上线。
开发者群里的第一条消息是:
“看到定价我以为我眼睛花了。”
不是夸张。真的。
先看接口:改一行代码,全面升级
对于已经在用 DeepSeek API 的开发者,这次迁移的成本极低——官方把接入门槛设计到了极致。
base_url 不变,只改 model 参数:
# 旧版调用(将于 2026-07-24 停服)model = "deepseek-chat"# 非思考模式model = "deepseek-reasoner"# 思考模式# 新版调用(即日生效)model = "deepseek-v4-flash"# 经济版model = "deepseek-v4-pro"# 旗舰版兼容 OpenAI ChatCompletions 接口与 Anthropic 接口两套协议,Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 工具无需任何改造,零成本切换。
⚠️ 重要截止日期:
旧有模型名 deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日 正式停止使用,距今整整 90 天。所有线上业务必须在此之前完成迁移,这是一个硬截止,请认真对待。
再看定价:真的把行业打懵了
这是所有开发者看到之后第一个反应是"等等,我重新算一遍"的数字。
官方 API 定价(每百万 Token):
| V4-Flash | 0.2 元 | 1 元 | 2 元 |
| V4-Pro | 1 元 | 12 元 | 24 元 |
这个价格意味着什么,拿 Flash 版本对比一下:
• GPT-5.5:输入约 35 元,输出约 210 元 / 百万 Token • Claude Opus 4.6:旗舰闭源,价格同量级 • DeepSeek V4-Flash:输入 1 元,输出 2 元
Flash 的输出价格,是 GPT-5.5 的约 1/100。
对于做 Agent 产品、需要大量 API 调用的开发者来说,这意味着月账单可能从"烧钱"直接变成"能跑出正毛利"。
而且,DeepSeek 在定价表备注里还写了一句话,透露出更大的降价空间:
“受限于高端算力,目前 Pro 的服务吞吐十分有限。预计下半年昇腾 950 超节点批量上市并部署之后,Pro 版本的价格也会大幅度下调。”
也就是说,现在看到的 Pro 价格,还不是终态。
两个版本,各有分工
🔵 V4-Pro:1.6 万亿参数,激活 49B
这是 DeepSeek 拿来正面硬杠顶级闭源模型的旗舰。
官方对它的 Agent 能力定位是:“使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。” 这已经是开源模型有史以来最强的 Agent 能力表现——而且 DeepSeek 团队在技术文档里直接写明,内部已经在日常编码工作中用 V4 替换了 Claude。
在数学、STEM、竞赛型代码评测中,V4-Pro 超越了当前所有已公开评测的开源模型,数学和推理评分比肩 Gemini Pro 3.1 等世界顶级闭源模型。
架构上,V4-Pro 采用了 MoE(混合专家)结构,总参数 1.6T,但每次推理只激活 49B 参数——比 V3.2 增加了约 2.4 倍的总参数规模,但激活参数的增幅远小于此,意味着推理效率并没有线性增长的算力成本。
🟡 V4-Flash:284B 参数,激活 13B
这是给大多数开发者准备的那款——9 成以上的能力,1/12 的价格。
技术上,V4-Flash 使用了 DeepSeek 2026 年引入的两项核心架构创新:
• MoE 架构:总参数 284B,每次只激活 13B,效果接近 13B 密集模型,但知识面媲美 200B+ 的密集模型 • Hybrid Attention(CSA + HCA):专门为长上下文设计,1M 上下文下的推理计算量仅为 V3.2 的约 27%
官方评测显示,Flash 在简单 Agent 任务上与 Pro 旗鼓相当,在世界知识和推理能力上接近 Pro,差距主要体现在高难度的复杂推理任务。
说白了:中等及以下复杂度的任务,用 Flash 就够了,价格便宜 12 倍。
思考模式:两款都有,参数控制
Pro 和 Flash 两款模型均同时支持非思考模式与思考模式。
思考模式下,模型会先输出内部推理链,再给出最终答案,适合复杂推理、多步工具调用和代码调试。
切换方式通过请求参数控制,不是两个不同的 model id:
# 开启思考模式,设置强度{"model": "deepseek-v4-pro","messages": [...],"thinking": {"type": "enabled","reasoning_effort": "max"# 可选 "high" 或 "max" }}对于复杂的 Agent 场景,官方建议使用思考模式并将强度设置为 max。
国产算力这次是主角
这次 V4 有一个以前从没有过的信号:DeepSeek 第一次在正式技术报告里将华为昇腾与英伟达并列写入硬件验证清单。
技术报告第 3.1 节明确写道:
“我们在英伟达 GPU 和华为昇腾 NPU 两个平台上均验证了细粒度 EP(专家并行)方案,与强力的非融合基线相比,该方案在通用推理任务中实现了 1.50-1.73 倍加速;在对延迟敏感的场景中,最高可达 1.96 倍加速。”
V4 的 MoE 专家权重和稀疏注意力索引器采用 FP4 精度——而 FP4 恰好是华为 3 月发布的昇腾 950PR 芯片的原生支持精度。这个对齐不是巧合。
与此同时,发布当天昇腾 CANN 官方宣布进行 DeepSeek V4 在昇腾平台的首发直播,寒武纪也确认已基于 vLLM 推理框架完成对 V4-Flash 和 V4-Pro 的 Day 0 适配,相关代码已开源至 GitHub。
DeepSeek 在定价表下方用小字写道:预计下半年昇腾 950 超节点批量上市部署之后,Pro 版本价格大幅下调。 这句话意味着,价格还没到底。
开源这件事,这次没有阉割
部分 AI 厂商存在"开源阉割版、闭源完整版"的惯例。
这次 DeepSeek 明确:两个版本完整开源,与官方云端 API 能力完全一致,无任何功能阉割。 包括:
• 非思考/思考双模式 • 1M 超长上下文无损处理 • Agent 专项优化与全量工具调用能力
同步开源了模型微调、量化、推理加速的全流程工具链,完成了 vLLM、TGI 等主流推理框架,以及 LangChain、LlamaIndex 等主流 Agent 框架的 Day 0 原生适配。
这意味着:无论你是中小创业公司、个人开发者还是科研机构,都能零门槛获取到百万上下文、顶级推理与 Agent 能力的完整大模型底座。
开发者该怎么做?
给出三条实操建议:
① 90 天内完成迁移,别等到最后一天
deepseek-chat 和 deepseek-reasoner 7 月 24 日停服,改一行代码的事,现在就改。
② 先用 Flash,真不够了再换 Pro
90% 的场景用 Flash 就够用,而且成本是 Pro 的 1/12。建议先用 Flash 跑 A/B 测试,确认效果差距再决定是否切 Pro。
③ 思考模式按需开
非思考模式速度更快、成本更低,适合简单任务和普通对话。复杂推理、多步 Agent 任务再开思考模式,别默认全开。
最后说一件更重要的事
OpenAI 在同一天上线 GPT-5.5:输入 5 美元、输出 30 美元 / 百万 Token。
DeepSeek V4-Flash:输入 0.14 美元、输出 0.28 美元 / 百万 Token。
Flash 的输出价格,是 GPT-5.5 的约 1/107。
这不是价格战,这是两种完全不同的 AI 哲学在正面交锋:一个在把能力变成稀缺资源,一个在把能力变成基础设施。
36 氪的评论用了一句话总结得很准:
“这种能力上探 + 成本下探的组合拳,让顶级大模型能力不再是少数厂商的专属资源。”
百万上下文,现在是所有人的标配了。
API 文档:platform.deepseek.com/docs模型下载:huggingface.co/deepseek-ai官网体验:chat.deepseek.com
本文数据来源于 DeepSeek 官方 API 文档、技术报告及 36 氪、澎湃新闻、IT 之家等媒体报道,2026 年 4 月 24 日
夜雨聆风