重磅!AI新纪元!DeepSeek-V4发布:1.6万亿参数,API低至1元,但低价时代结束了
4月24日,深度求索公司正式发布DeepSeek-V4预览版并同步开源🌐。新系列包含两个MoE版本——Pro版总参数达1.6万亿、激活参数490亿,统一标配100万token上下文;Flash版总参数2840亿、激活参数130亿,每百万tokens输入定价0.2元(缓存命中)、输出2元💰。

这不是一次常规迭代。1.6万亿参数、100万上下文、API价格低至1元——这三个数字放在一起,构成了一个深层的追问:当模型的”硬核参数”和”成本下限”同时被击穿,AI产业正在经历一场怎样的重塑?
从”追随者”到”标准制定者”:1.6万亿参数、100万上下文成标配 🏆
V4这次最大的看点之一,是将百万上下文从高端特性变成了全线标配。Pro版和Flash版都原生支持100万token上下文,这一点在行业上尚属首次🥇。在此之前,1M级别的上下文能力长期是Google Gemini的独占优势,行业主流上下文窗口普遍在128K到256K之间。
更关键的是,V4不是在”堆算力换能力”。它将百万上下文下的单token算力消耗压到了V3.2的27%,KV缓存占用仅10%。这意味着,在上下文大幅扩展的同时,推理成本反而降下来了。
能力层面,V4-Pro在Agent能力、世界知识和推理性能上比肩顶级闭源模型。在Apex Shortlist和Codeforces两项硬核推理与编程任务中,V4-Pro的得分(90.2%和Rating 3206)甚至压过了海外闭源旗舰。
从开源社区的反馈来看,有开发者直言”让开源模型从及格变成了优秀”,也有人感叹”DeepSeek正在从追随者变成标准的制定者”💪。1.6万亿参数也刷新了Kimi 2.6的1万亿参数规模,成为目前国产开源模型最大参数规模。
价格层面,Flash版输入1元/百万token、输出2元,缓存命中后输入仅0.2元;Pro版输入12元、输出24元。作为对比,同期海外顶级闭源模型的API调用成本大约是V4的数十倍。
开源迭代,但涨价潮来了:腾讯云涨463%,智谱AI年内三度调价,阿里停售低价套餐 📈
然而,在DeepSeek带着低至1元的API价格强势归来的同时,整个行业却正经历与其低价策略”背向而行”的涨价潮。
进入2026年以来,全球算力需求曲线陡峭。4月全球最大的API聚合平台OpenRouter的周度Token消耗量较一年前提升了7-8倍。英伟达H100的一年期租赁价格从2025年10月低点1.70美元/小时飙升至2026年3月的2.35美元/小时,涨幅近40%💻。
国内云厂商集体调价——腾讯云Tencent HY 2.0 Instruct模型的输入价格从0.0008元/千tokens大涨至0.004505元/千tokens,涨幅高达463%,随后又再次整体提价5%;阿里云平头哥真武810E等算力卡产品上调5%~34%,百度智能云相关服务上调5%~30%,科大讯飞AI推理服务涨价8%,商汤科技大模型训练费用平均上浮12%📊。更值得关注的是,阿里云已停售百炼Coding Plan Lite基础套餐,仅保留Pro版且每日限量补货、常被秒罄。
模型厂商同样在密集调价。智谱AI今年以来已经三度提价——2月代码套餐涨幅30%起,3月旗舰API上调20%,4月再涨10%,海外版涨幅更高达67%~100%。
行业普遍认为,这标志着大模型API的“低价时代”正式终结,进入了以利润和价值为导向的”价值重估”阶段。究其根源,硬件成本的”逆向”暴涨是核心推手——HBM内存由SK海力士、三星、美光三家垄断,2025年下半年以来涨幅超50%,高端芯片供需紧平衡,2026年一季度存储价格翻倍。需求结构从训练转向推理,AI模型API调用量激增,推理端算力消耗呈持续性增长趋势。云厂商的商业模式也从早期的”烧钱换市场”转向了追求盈利的”商业可持续”阶段。
Token计费全面到来:从”卖算力”到”卖服务” ⛽
伴随算力涨价而来的,是计费模式的彻底变革——Token计费时代的全面到来。
简单来说,以前云厂商卖的是算力(GPU租赁),现在卖的是按Token计量的AI服务。这不仅仅是计价方式的变化,更是整个商业逻辑的转向。大模型就像一个”加油站”,Token就是它的”汽油”——模型参数越多、能力越强,”车辆”跑得越快,汽油消耗也就越多。
艾媒咨询数据显示,2025年中国词元调用总量高达24619.3万亿次,预计2026年将增至111799.5万亿次,2030年进一步攀升至7046680.4万亿次,复合增长率达210%📊。国家数据局此前披露,中国日均词元调用量已从2024年初的1000亿次跃升至2026年3月的突破140万亿次,两年增长超千倍。
更关键的变化在于Token消耗的结构本身。OpenAI的公开数据显示,在复杂Agent任务中,约85-90%的Token消耗来自工具调用而非模型本身的思考链。这意味着,Token消耗的大头不再是”模型在思考”,而是”模型在干活”——反复调用外部工具、检索数据库、执行多步骤任务。模型规模越大,AI能干的事越多、干得越勤,消耗的Token自然也越多⚡。
这种结构性转变对整个产业链产生了深远影响。一方面,AI原生企业直接受益于Token成本的优化——元大证券指出,DeepSeek V4-Flash的低定价对AI应用层开发商构成显著成本利好,有利于SaaS类公司加速AI能力内嵌。另一方面,纯模型API创业公司的生存空间被急剧挤压——据IT桔子统计,2026年一季度已有超过10家AI应用初创公司停止运营或转型。头部大厂和AI独角兽依靠自有算力储备和长协价,成本上涨幅度远低于中小企业,马太效应正在加速行业洗牌。
国产芯片强势接棒:华为昇腾950PR量产,阿里巴巴、字节、腾讯已下单数十万颗 🇨🇳
与此同时,算力供给端的格局也在发生微妙变化。华为昇腾950PR推理芯片已实现量产,单卡算力达到英伟达对华特供版H20的2.87倍,阿里巴巴、字节跳动、腾讯已向华为下单数十万颗昇腾芯片。华为计划今年出货约75万颗昇腾950PR,样品已于1月发送给客户,下半年全面出货。在FP4低精度推理场景下,国产芯片展现出超越通用GPU的效率。
DeepSeek V4的发布进一步强化了国产算力适配的势头——华为昇腾、寒武纪、海光信息等国产芯片厂商同步宣布对V4的Day-0适配,第一次在旗舰模型上实现了国产芯片与海外GPU的并行验证✅。市场反应也相当热烈:短短半天,华丰科技暴涨12%,海光信息飙升超11%,杰华特大涨16%📈。
华为还计划在2026年四季度发布Atlas 950超节点,支持8192颗昇腾950DT芯片,总算力是英伟达NVL144的6.7倍,内存容量是其15倍。下半年昇腾950超节点批量上市后,Pro版API价格还有望大幅下调。
DeepSeek V4像一个”放大器”:参数在放大,成本压力也同样在放大 🔍
V4的发布,最终像一个”放大器”,将AI产业的成本重构与竞争分化效应推向了极致。
对于应用层来说,V4的低价更像是一场及时雨,加速了AI能力在SaaS层面的渗透,有望催生下一波AI原生应用的爆发。但对于模型层的纯API公司而言,其生存空间正被模型厂商之间的价格博弈所挤压。随着AI自主执行任务的能力快速提升,Token消耗量将持续增长,算力需求只会越来越多。
当然,市场对AI泡沫的担忧也在升温。高盛2026年最新报告指出,AI投资热潮背后已浮现泡沫影子,2025年至2027年美国头部科技巨头在AI基建方面的资本开支预计高达1.4万亿美元,但平均回报率远低于市场预期。穆迪甚至预测了一个极端场景:AI收入增速一旦不及预期,恐慌性抛售可能导致股市暴跌25%,蒸发20万亿美元💭。但也有观点认为,目前谈论AI泡沫论为时尚早,算力基建仍是共识度最高的方向。正如中芯国际赵海军所警示的,当前主流AI芯片的实际有效寿命可能仅为两至三年,一旦算力需求增长不及预期,前期巨额投入将难以通过运营回收。
DeepSeek V4的发布,恰好是这一矛盾最清晰的注脚。大模型的能力越强,消耗的Token就越多;Token需求越大,算力就越稀缺;算力越稀缺,成本压力就越大。技术向前走,成本也向上涨。这既是机遇,也是DeepSeek V4留给整个AI行业最深刻的一道思考题。
⚠️ 风险提示:本文内容仅作为行业信息分享,不构成任何投资建议。人工智能行业技术迭代快速,相关企业面临市场竞争加剧、技术路线变更、商业模式不确定性等风险。大模型API价格上涨可能对中小企业经营造成压力,投资者应充分了解相关风险,独立做出投资决策。
夜雨聆风