乐于分享
好东西不私藏

AI周报:DeepSeek V4硬刚GPT-5.5,同天发布意味深长

AI周报:DeepSeek V4硬刚GPT-5.5,同天发布意味深长

🎯 本周核心事件

DeepSeek V4和GPT-5.5,同一天发布。

这不是巧合。AI军备竞赛的节奏已经从”按月”变成了”按天”。


📰 热点一:DeepSeek V4正式发布

最强开源模型,没有之一

DeepSeek V4的发布,是本周乃至本月最大的AI新闻。不是因为它”又发布了一个模型”,而是因为这次的数据是真的能打

代码能力:HumanEval 76.8(↑14分)

这是最值得关注的指标。V3.2的62.8分还只是”能写代码”的水平,76.8分意味着它已经接近Claude Opus 4.6的代码能力。对于用AI辅助编程的开发者来说,这是一个质变。

事实问答:SimpleQA 55.2(↑26.9分)

之前DeepSeek最大的短板就是”爱胡说八道”。SimpleQA从28.3跳到55.2,FACTS从27.1跳到62.6,提升幅度接近翻倍。这说明V4在”知之为知之,不知为不知”这件事上进步巨大。

长上下文:LongBench-V2 51.5(↑11.3分)

配合1M上下文,这意味着你可以把一整本书丢给它,让它做深度分析。

核心技术突破:DSA稀疏注意力

DeepSeek没有简单粗暴地堆参数,而是创新了一种全新的注意力机制:

DeepSeek Sparse Attention(DSA)——在token维度进行压缩,实现了全球领先的长上下文能力。

效果是什么?

  • V4-Pro算力需求比V3.2降低3.7倍

  • V4-Flash算力需求比V3.2降低9.8倍

同样的显卡,能处理更多请求。 这对整个行业的成本结构是颠覆性的。

价格策略:Flash降价,Pro涨价

模型

输入(缓存命中)

输入(未命中)

输出

上下文

V3.2

0.2元

2元

3元

128K

V4 Flash

0.2元

1元**↓**

2元↓

1M↑

V4 Pro

1元

12元↑

24元↑

1M↑

这是一个非常聪明的定价策略:

  • Flash版降价拉用户:1M上下文+更便宜的价格,吸引大量个人用户和中小企业

  • Pro版涨价赚利润:企业级用户对性能有刚需,愿意为更强的能力付费

能自己部署吗?

基本不能。 Flash最低也需要200GB以上的内存。所以目前主要还是通过官方API使用。

和GPT-5.5比怎么样?

指标

GPT-5.4

Claude Opus 4.6

Gemini 3.1 Pro

DeepSeek V4 Pro-Max

MMLU-Pro

87.5

89.1

91.0

87.5

SimpleQA

45.3

46.2

75.6

57.9

GPQA Diamond

93.0

91.3

94.3

90.1

Codeforces

3168

3052

3206

Apex Shortlist

78.1

85.9

89.1

90.2

关键发现:

  • 知识类(MMLU、SimpleQA):仍落后于闭源头部

  • 代码类(Codeforces、Apex):已经追上甚至在某些指标超越

  • 代码能力是开源模型最接近闭源的领域


📰 热点二:GPT-5.5悄悄上线

OpenAI在同一天发布了GPT-5.5,目前在ChatGPT中已可用。

有意思的时间选择: DeepSeek V4发布当天就上线GPT-5.5,说明OpenAI在密切监控竞争对手的节奏。AI军备竞赛已经进入”你出牌我就跟”的阶段。


📰 热点三:浏览器跑大模型成为新趋势

Google的TurboQuant算法让大模型在浏览器中运行成为现实。

代表项目: Gemma 4 + Excalidraw流程图生成器

  • 下载3.1GB模型后,完全离线运行

  • 33秒生成完整流程图

  • 支持中文输入

  • 零API费用,无限次使用

TurboQuant的原理: 把KV Cache压缩6倍,压缩后可以直接搜索,不需要解压。

这意味着什么?轻量级的AI应用不需要服务器了。流程图、文本摘要、简单翻译这类场景,浏览器本地就能搞定。


📰 热点四:Bitwarden CLI遭遇npm供应链攻击

密码管理器Bitwarden的命令行工具@bitwarden/cli@2026.4.0版本遭遇npm包投毒攻击。

重点:Bitwarden本体安全,仅CLI受影响。

这再次敲响了供应链安全的警钟。随着AI工具链大量依赖npm/pip等包管理器,供应链攻击的风险只会越来越大。


🧠 本周思考:开源AI的”新平衡点”

DeepSeek V4的发布,让我看到了一个有趣的趋势:

开源模型正在找到一个”够用+便宜”的平衡点。

它不需要在所有指标上都超越GPT-5,只需要在”大多数人最常用的场景”上做到足够好:

  • 写代码?✅ 已经很强

  • 日常问答?✅ 大幅改善

  • 长文本处理?✅ 1M上下文

  • 价格?✅ Flash版几乎免费

这个”80%场景+20%价格”的组合,才是开源模型真正的杀手锏。


数据来源:DeepSeek官网、小众软件、财联社每周更新,欢迎关注 ⭐