AI周报:DeepSeek V4硬刚GPT-5.5,同天发布意味深长
🎯 本周核心事件
DeepSeek V4和GPT-5.5,同一天发布。
这不是巧合。AI军备竞赛的节奏已经从”按月”变成了”按天”。
📰 热点一:DeepSeek V4正式发布
最强开源模型,没有之一
DeepSeek V4的发布,是本周乃至本月最大的AI新闻。不是因为它”又发布了一个模型”,而是因为这次的数据是真的能打:
代码能力:HumanEval 76.8(↑14分)
这是最值得关注的指标。V3.2的62.8分还只是”能写代码”的水平,76.8分意味着它已经接近Claude Opus 4.6的代码能力。对于用AI辅助编程的开发者来说,这是一个质变。
事实问答:SimpleQA 55.2(↑26.9分)
之前DeepSeek最大的短板就是”爱胡说八道”。SimpleQA从28.3跳到55.2,FACTS从27.1跳到62.6,提升幅度接近翻倍。这说明V4在”知之为知之,不知为不知”这件事上进步巨大。
长上下文:LongBench-V2 51.5(↑11.3分)
配合1M上下文,这意味着你可以把一整本书丢给它,让它做深度分析。
核心技术突破:DSA稀疏注意力
DeepSeek没有简单粗暴地堆参数,而是创新了一种全新的注意力机制:
DeepSeek Sparse Attention(DSA)——在token维度进行压缩,实现了全球领先的长上下文能力。
效果是什么?
-
V4-Pro算力需求比V3.2降低3.7倍
-
V4-Flash算力需求比V3.2降低9.8倍
同样的显卡,能处理更多请求。 这对整个行业的成本结构是颠覆性的。
价格策略:Flash降价,Pro涨价
|
模型 |
输入(缓存命中) |
输入(未命中) |
输出 |
上下文 |
|
V3.2 |
0.2元 |
2元 |
3元 |
128K |
|
V4 Flash |
0.2元 |
1元**↓** |
2元↓ |
1M↑ |
|
V4 Pro |
1元 |
12元↑ |
24元↑ |
1M↑ |
这是一个非常聪明的定价策略:
-
Flash版降价拉用户:1M上下文+更便宜的价格,吸引大量个人用户和中小企业
-
Pro版涨价赚利润:企业级用户对性能有刚需,愿意为更强的能力付费
能自己部署吗?
基本不能。 Flash最低也需要200GB以上的内存。所以目前主要还是通过官方API使用。
和GPT-5.5比怎么样?
|
指标 |
GPT-5.4 |
Claude Opus 4.6 |
Gemini 3.1 Pro |
DeepSeek V4 Pro-Max |
|
MMLU-Pro |
87.5 |
89.1 |
91.0 |
87.5 |
|
SimpleQA |
45.3 |
46.2 |
75.6 |
57.9 |
|
GPQA Diamond |
93.0 |
91.3 |
94.3 |
90.1 |
|
Codeforces |
3168 |
– |
3052 |
3206 |
|
Apex Shortlist |
78.1 |
85.9 |
89.1 |
90.2 |
关键发现:
-
知识类(MMLU、SimpleQA):仍落后于闭源头部
-
代码类(Codeforces、Apex):已经追上甚至在某些指标超越
-
代码能力是开源模型最接近闭源的领域
📰 热点二:GPT-5.5悄悄上线
OpenAI在同一天发布了GPT-5.5,目前在ChatGPT中已可用。
有意思的时间选择: DeepSeek V4发布当天就上线GPT-5.5,说明OpenAI在密切监控竞争对手的节奏。AI军备竞赛已经进入”你出牌我就跟”的阶段。
📰 热点三:浏览器跑大模型成为新趋势
Google的TurboQuant算法让大模型在浏览器中运行成为现实。
代表项目: Gemma 4 + Excalidraw流程图生成器
-
下载3.1GB模型后,完全离线运行
-
33秒生成完整流程图
-
支持中文输入
-
零API费用,无限次使用
TurboQuant的原理: 把KV Cache压缩6倍,压缩后可以直接搜索,不需要解压。
这意味着什么?轻量级的AI应用不需要服务器了。流程图、文本摘要、简单翻译这类场景,浏览器本地就能搞定。
📰 热点四:Bitwarden CLI遭遇npm供应链攻击
密码管理器Bitwarden的命令行工具@bitwarden/cli@2026.4.0版本遭遇npm包投毒攻击。
重点:Bitwarden本体安全,仅CLI受影响。
这再次敲响了供应链安全的警钟。随着AI工具链大量依赖npm/pip等包管理器,供应链攻击的风险只会越来越大。
🧠 本周思考:开源AI的”新平衡点”
DeepSeek V4的发布,让我看到了一个有趣的趋势:
开源模型正在找到一个”够用+便宜”的平衡点。
它不需要在所有指标上都超越GPT-5,只需要在”大多数人最常用的场景”上做到足够好:
-
写代码?✅ 已经很强
-
日常问答?✅ 大幅改善
-
长文本处理?✅ 1M上下文
-
价格?✅ Flash版几乎免费
这个”80%场景+20%价格”的组合,才是开源模型真正的杀手锏。
数据来源:DeepSeek官网、小众软件、财联社每周更新,欢迎关注 ⭐
夜雨聆风