AI 新闻速报 | 5月1-2日:DeepSeek多模态惊雷、Codex大更新、Grok 4.3上线

AI 新闻速报 | 5月1-2日：DeepSeek多模态惊雷、Codex大更新、Grok 4.3上线

作者：老郭日期：2026年5月2日

📰 本期速览

日期	重大事件数	核心关键词
5月1日	3件	Codex更新、Grok 4.3 API、Ling 2.6开源
5月2日	2件	GPT封号事件、DeepSeek多模态开源

🔥 5月1日：三连发

1. OpenAI 发布 Codex 重大更新

核心变化：

Workspace Agents 正式上线

（4月22日宣布，5月1日全面推送）
面向 Business、Enterprise、Edu 和 Teachers 计划用户
替代 Custom GPTs，专为团队重复工作流设计
支持跨工具编排、定时触发、结果回写
Codex 编程能力增强
上下文处理改进
Token 效率提升（官方声称提升 40%）
计算机使用能力增强

影响： OpenAI 正在从「单点工具」向「企业级 AI 工作台」转型，直接对标 Microsoft Copilot Studio。

2. xAI 上线 Grok 4.3 API

核心参数：

参数	Grok 4.3
上下文窗口	128K Token
多模态	支持（图像+文本）
实时搜索	✅ X平台实时数据
API 定价	比 GPT-4.5 低 60%

战略意图： Musk 试图用「低价+实时数据」撕开企业市场缺口，直接挑战 OpenAI 和 Google。 实测反馈（早期）：

实时搜索准确性：⭐⭐⭐⭐（优于 GPT-4.5）
代码生成能力：⭐⭐⭐（弱于 Claude Opus 4.7）
多模态理解：⭐⭐⭐⭐（与 Gemini 3.1 持平）

3. 蚂蚁集团开源 Ling 2.6-1T

模型规格：

参数	数值
总参数	1.02 万亿
激活参数	420 亿（MoE）
上下文窗口	100 万 Token
开源协议	MIT（可商用）
部署门槛	4 × H100 可跑满血版

核心技术：

Engram 记忆架构

：KV Cache 压缩 90%
ClawEval 基准

：Token 效率比 Opus/GPT 节省 40-60%
多语言能力

：中文、英文、代码均达一线水平

行业影响： 这是继 DeepSeek V4 之后，又一款「开源+万亿参数+百万上下文」的国产大模型，进一步挤压闭源模型的生存空间。

⚡ 5月2日：两记惊雷

1. 4月30日 GPT 封号事件持续发酵

事件经过：

4月30日

：大量用户报告 ChatGPT Plus/Pro 账号被封，无明显违规记录
5月1日

：OpenAI 官方回应称「反作弊系统误判」，开始批量解封
5月2日

：仍有约 15% 的被封用户未恢复访问

封号原因（推测）： 1. 使用区域与 IP 不符（疑似账号共享） 2. API 调用模式异常（高频+多 IP） 3. 反作弊系统过度敏感（新版信誉分系统上线） 用户应对策略：

避免多人共享 Plus 账号
使用 API 时固定 IP 地址
开启 Two-Step Verification

2. DeepSeek 多模态模型开源（然后删了）

时间线：

时间	事件
4月29日	DeepSeek 多模态团队负责人陈小康发文：「现在，我们能看见你了。」
4月29日晚	DeepSeek 网页版灰度测试「图像识别模式」
4月30日凌晨	GitHub 上传多模态技术报告《Thinking with Visual Primitives》
4月30日深夜	论文和代码仓库被紧急删除，GitHub 返回 404
5月1-2日	业界热议：「DeepSeek 又搞什么？」

技术报告核心内容（从缓存和镜像恢复）：

#### 核心问题定义

多模态模型在复杂任务中失败，不是因为「看不清」（感知鸿沟），而是因为「说不准」（参照鸿沟）。举例：

让模型「数一数图中有几个苹果」，如果不用手指指着每个苹果，人类也会数错或数漏。
自然语言天然模糊：「左边那个」「第二个」——这些描述在复杂场景中完全不够用。

#### 解决方案：Visual Primitives 框架 核心思路： 将「点 `<|point|>`」和「边界框 `<|box|>`」提升为最小的思考单元。

传统多模态推理： 「图中有几个苹果？」→ 思考 → 回答：「3个」❌（容易数错） Visual Primitives 推理： 「图中有几个苹果？」→ <|point|(12,34) ← 指着第一个苹果                       → <|point|(56,78) ← 指着第二个苹果                       → <|point|(90,12) ← 指着第三个苹果                       → 回答：「3个」✅（精确锚定）

技术架构：

图像输入 → DeepSeek-ViT（视觉编码器）          ↓      CSA 稀疏注意力压缩（7056倍压缩率）          ↓      DeepSeek-V4-Flash 主干（2840亿参数）          ↓      生成带坐标的推理过程（Visual Primitives）          ↓      输出精确答案

性能表现：

基准测试	DeepSeek-V4-Multimodal	GPT-5.4	Claude-4.6	Gemini-3.1
空间推理	92.3%	87.1%	85.6%	88.9%
视觉问答	89.7%	88.3%	87.1%	89.7%
迷宫导航	96.8%	78.2%	76.5%	81.3%
路径追踪	94.1%	82.7%	80.9%	85.4%

为何删除论文？（业界推测）

1. 技术泄露风险：Visual Primitives 框架可能被竞争对手快速复制 2. 专利保护：DeepSeek 可能正在申请相关专利，公开论文会影响专利申请 3. 产品未就绪：技术报告泄露了未发布产品的核心参数 4. 内部策略调整：多模态模型可能与 V4 正式版打包发布

早期用户反馈（灰度测试）：

能力	评分（5分制）	对比
图像识别精度	4.5	优于 GPT-4.5
空间推理	4.8	大幅领先竞品
响应速度	3.9	略慢于 Claude
多模态交互	4.3	与 Gemini 持平

📊 两会对比：DeepSeek 多模态 vs 竞品

维度	DeepSeek-V4-Multimodal	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
开源	✅（原计划，现删除）	❌	❌	❌
上下文	100万 Token	200万	100万	100万
多模态	视觉+语言	全模态	视觉+语言	全模态
空间推理	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
性价比	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
可用性	灰度测试中	全面开放	全面开放	全面开放

🎯 对开发者的启示

1. 多模态的新范式

DeepSeek 的 Visual Primitives 框架证明：「看得到」不是问题，「指得准」才是关键。

开发者在构建多模态应用时，应重点关注：

如何让模型精确参照图像中的特定区域
如何将空间坐标与语言推理结合
如何评估模型在空间任务中的表现

2. 开源 vs 闭源的拉锯战

DeepSeek V4（4月24日）：开源，100万上下文
DeepSeek 多模态（4月30日）：原定开源，后删除
Ling 2.6（5月1日）：开源，MIT 协议
GPT-5.5 / Claude 4.7：闭源，但性能领先

趋势： 开源模型正在从「追赶者」变成「引领者」，尤其在性价比和定制化方面。

3. API 降价的加速度

Grok 4.3：比 GPT-4.5 低 60%
DeepSeek V4 API：比 Claude 低 70%
Ling 2.6：开源可自部署，零 API 费用

预测： 2026 年底前，主流 API 价格将再降 50%。

📅 近期预告

日期	预期事件
5月5日	Google I/O 2026（可能发布 Gemini 3.2）
5月8日	Anthropic Claude 5.0 传闻
5月15日	DeepSeek V4 多模态正式版（预测）
5月20日	Microsoft Build 2026（Copilot 重大更新）

💬 编辑点评

这两天 AI 圈的关键词是「开源反击」和「多模态范式转移」。

DeepSeek 用一篇「删了又删」的论文，向世界展示了什么是真正的多模态创新——不是堆砌参数，而是重新定义「思考的最小单元」。

OpenAI 的 Codex 大更新，透露出一个信号：AI 超级应用（Super App）的战争已经打响。谁先让用户在「一个界面」里完成所有工作，谁就赢了。

xAI 的 Grok 4.3 低价策略，则是在用「价格战」抢夺企业市场。Musk 的算盘是：用 X 平台的实时数据作为护城河，用低价突破 OpenAI 的封锁。

这场战争，才刚刚开始。想第一时间获取 AI 新闻？关注本号，每天 8:00 准时推送。