乐于分享
好东西不私藏

AI 新闻速报 | 5月1-2日:DeepSeek多模态惊雷、Codex大更新、Grok 4.3上线

AI 新闻速报 | 5月1-2日:DeepSeek多模态惊雷、Codex大更新、Grok 4.3上线

AI 新闻速报 | 5月1-2日:DeepSeek多模态惊雷、Codex大更新、Grok 4.3上线

作者:老郭日期:2026年5月2日

📰 本期速览

日期
重大事件数
核心关键词
5月1日
3件
Codex更新、Grok 4.3 API、Ling 2.6开源
5月2日
2件
GPT封号事件、DeepSeek多模态开源

🔥 5月1日:三连发

1. OpenAI 发布 Codex 重大更新

核心变化:

  • Workspace Agents 正式上线
    (4月22日宣布,5月1日全面推送)
  • 面向 Business、Enterprise、Edu 和 Teachers 计划用户
  • 替代 Custom GPTs,专为团队重复工作流设计
  • 支持跨工具编排、定时触发、结果回写
  • Codex 编程能力增强
  • 上下文处理改进
  • Token 效率提升(官方声称提升 40%)
  • 计算机使用能力增强

影响: OpenAI 正在从「单点工具」向「企业级 AI 工作台」转型,直接对标 Microsoft Copilot Studio。

2. xAI 上线 Grok 4.3 API

核心参数:

参数
Grok 4.3
上下文窗口
128K Token
多模态
支持(图像+文本)
实时搜索
✅ X平台实时数据
API 定价
比 GPT-4.5 低 60%

战略意图: Musk 试图用「低价+实时数据」撕开企业市场缺口,直接挑战 OpenAI 和 Google。 实测反馈(早期):

  • 实时搜索准确性:⭐⭐⭐⭐(优于 GPT-4.5)
  • 代码生成能力:⭐⭐⭐(弱于 Claude Opus 4.7)
  • 多模态理解:⭐⭐⭐⭐(与 Gemini 3.1 持平)

3. 蚂蚁集团开源 Ling 2.6-1T

模型规格:

参数
数值
总参数
1.02 万亿
激活参数
420 亿(MoE)
上下文窗口
100 万 Token
开源协议
MIT(可商用)
部署门槛
4 × H100 可跑满血版

核心技术:

  • Engram 记忆架构
    :KV Cache 压缩 90%
  • ClawEval 基准
    :Token 效率比 Opus/GPT 节省 40-60%
  • 多语言能力
    :中文、英文、代码均达一线水平

行业影响: 这是继 DeepSeek V4 之后,又一款「开源+万亿参数+百万上下文」的国产大模型,进一步挤压闭源模型的生存空间。

⚡ 5月2日:两记惊雷

1. 4月30日 GPT 封号事件持续发酵

事件经过:

  • 4月30日
    :大量用户报告 ChatGPT Plus/Pro 账号被封,无明显违规记录
  • 5月1日
    :OpenAI 官方回应称「反作弊系统误判」,开始批量解封
  • 5月2日
    :仍有约 15% 的被封用户未恢复访问

封号原因(推测): 1. 使用区域与 IP 不符(疑似账号共享) 2. API 调用模式异常(高频+多 IP) 3. 反作弊系统过度敏感(新版信誉分系统上线) 用户应对策略:

  • 避免多人共享 Plus 账号
  • 使用 API 时固定 IP 地址
  • 开启 Two-Step Verification

2. DeepSeek 多模态模型开源(然后删了)

时间线:

时间
事件
4月29日
DeepSeek 多模态团队负责人陈小康发文:「现在,我们能看见你了。」
4月29日晚
DeepSeek 网页版灰度测试「图像识别模式」
4月30日凌晨
GitHub 上传多模态技术报告《Thinking with Visual Primitives》
4月30日深夜
论文和代码仓库被紧急删除,GitHub 返回 404
5月1-2日
业界热议:「DeepSeek 又搞什么?」

技术报告核心内容(从缓存和镜像恢复):

#### 核心问题定义

多模态模型在复杂任务中失败,不是因为「看不清」(感知鸿沟),而是因为「说不准」(参照鸿沟)。举例:

  • 让模型「数一数图中有几个苹果」,如果不用手指指着每个苹果,人类也会数错或数漏。
  • 自然语言天然模糊:「左边那个」「第二个」——这些描述在复杂场景中完全不够用。

 #### 解决方案:Visual Primitives 框架 核心思路: 将「点 `<|point|>`」和「边界框 `<|box|>`」提升为最小的思考单元。 

传统多模态推理: 「图中有几个苹果?」→ 思考 → 回答:「3个」❌(容易数错) Visual Primitives 推理: 「图中有几个苹果?」→ <|point|(12,34) ← 指着第一个苹果                       → <|point|(56,78) ← 指着第二个苹果                       → <|point|(90,12) ← 指着第三个苹果                       → 回答:「3个」✅(精确锚定) 

技术架构:

图像输入 → DeepSeek-ViT(视觉编码器)          ↓      CSA 稀疏注意力压缩(7056倍压缩率)          ↓      DeepSeek-V4-Flash 主干(2840亿参数)          ↓      生成带坐标的推理过程(Visual Primitives)          ↓      输出精确答案 

性能表现:

基准测试
DeepSeek-V4-Multimodal
GPT-5.4
Claude-4.6
Gemini-3.1
空间推理
92.3%
87.1%
85.6%
88.9%
视觉问答
89.7%
88.3%
87.1%
89.7%
迷宫导航
96.8%
78.2%
76.5%
81.3%
路径追踪
94.1%
82.7%
80.9%
85.4%

为何删除论文?(业界推测)

1. 技术泄露风险:Visual Primitives 框架可能被竞争对手快速复制 2. 专利保护:DeepSeek 可能正在申请相关专利,公开论文会影响专利申请 3. 产品未就绪:技术报告泄露了未发布产品的核心参数 4. 内部策略调整:多模态模型可能与 V4 正式版打包发布

早期用户反馈(灰度测试):

能力
评分(5分制)
对比
图像识别精度
4.5
优于 GPT-4.5
空间推理
4.8
大幅领先竞品
响应速度
3.9
略慢于 Claude
多模态交互
4.3
与 Gemini 持平

📊 两会对比:DeepSeek 多模态 vs 竞品

维度
DeepSeek-V4-Multimodal
GPT-5.5
Claude Opus 4.7
Gemini 3.1 Pro
开源
✅(原计划,现删除)
上下文
100万 Token
200万
100万
100万
多模态
视觉+语言
全模态
视觉+语言
全模态
空间推理
⭐⭐⭐⭐⭐
⭐⭐⭐⭐
⭐⭐⭐⭐
⭐⭐⭐⭐
性价比
⭐⭐⭐⭐⭐
⭐⭐⭐
⭐⭐⭐
⭐⭐⭐⭐
可用性
灰度测试中
全面开放
全面开放
全面开放

🎯 对开发者的启示

1. 多模态的新范式

 DeepSeek 的 Visual Primitives 框架证明:「看得到」不是问题,「指得准」才是关键。

开发者在构建多模态应用时,应重点关注: 

  • 如何让模型精确参照图像中的特定区域
  • 如何将空间坐标与语言推理结合
  • 如何评估模型在空间任务中的表现

2. 开源 vs 闭源的拉锯战

  • DeepSeek V4(4月24日):开源,100万上下文
  • DeepSeek 多模态(4月30日):原定开源,后删除
  • Ling 2.6(5月1日):开源,MIT 协议
  • GPT-5.5 / Claude 4.7:闭源,但性能领先

趋势: 开源模型正在从「追赶者」变成「引领者」,尤其在性价比和定制化方面。

3. API 降价的加速度

  • Grok 4.3:比 GPT-4.5 低 60%
  • DeepSeek V4 API:比 Claude 低 70%
  • Ling 2.6:开源可自部署,零 API 费用

预测: 2026 年底前,主流 API 价格将再降 50%。

📅 近期预告

日期
预期事件
5月5日
Google I/O 2026(可能发布 Gemini 3.2)
5月8日
Anthropic Claude 5.0 传闻
5月15日
DeepSeek V4 多模态正式版(预测)
5月20日
Microsoft Build 2026(Copilot 重大更新)

💬 编辑点评

这两天 AI 圈的关键词是「开源反击」「多模态范式转移」

DeepSeek 用一篇「删了又删」的论文,向世界展示了什么是真正的多模态创新——不是堆砌参数,而是重新定义「思考的最小单元」

OpenAI 的 Codex 大更新,透露出一个信号:AI 超级应用(Super App)的战争已经打响。谁先让用户在「一个界面」里完成所有工作,谁就赢了。

xAI 的 Grok 4.3 低价策略,则是在用「价格战」抢夺企业市场。Musk 的算盘是:用 X 平台的实时数据作为护城河,用低价突破 OpenAI 的封锁。

这场战争,才刚刚开始。想第一时间获取 AI 新闻?关注本号,每天 8:00 准时推送。