AI 新闻速报 | 5月1-2日:DeepSeek多模态惊雷、Codex大更新、Grok 4.3上线
AI 新闻速报 | 5月1-2日:DeepSeek多模态惊雷、Codex大更新、Grok 4.3上线
作者:老郭日期:2026年5月2日
📰 本期速览
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
🔥 5月1日:三连发
1. OpenAI 发布 Codex 重大更新
核心变化:
- Workspace Agents 正式上线
(4月22日宣布,5月1日全面推送) -
面向 Business、Enterprise、Edu 和 Teachers 计划用户 -
替代 Custom GPTs,专为团队重复工作流设计 -
支持跨工具编排、定时触发、结果回写 - Codex 编程能力增强
-
上下文处理改进 -
Token 效率提升(官方声称提升 40%) -
计算机使用能力增强
影响: OpenAI 正在从「单点工具」向「企业级 AI 工作台」转型,直接对标 Microsoft Copilot Studio。
2. xAI 上线 Grok 4.3 API
核心参数:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
战略意图: Musk 试图用「低价+实时数据」撕开企业市场缺口,直接挑战 OpenAI 和 Google。 实测反馈(早期):
-
实时搜索准确性:⭐⭐⭐⭐(优于 GPT-4.5) -
代码生成能力:⭐⭐⭐(弱于 Claude Opus 4.7) -
多模态理解:⭐⭐⭐⭐(与 Gemini 3.1 持平)
3. 蚂蚁集团开源 Ling 2.6-1T
模型规格:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
核心技术:
- Engram 记忆架构
:KV Cache 压缩 90% - ClawEval 基准
:Token 效率比 Opus/GPT 节省 40-60% - 多语言能力
:中文、英文、代码均达一线水平
行业影响: 这是继 DeepSeek V4 之后,又一款「开源+万亿参数+百万上下文」的国产大模型,进一步挤压闭源模型的生存空间。
⚡ 5月2日:两记惊雷
1. 4月30日 GPT 封号事件持续发酵
事件经过:
- 4月30日
:大量用户报告 ChatGPT Plus/Pro 账号被封,无明显违规记录 - 5月1日
:OpenAI 官方回应称「反作弊系统误判」,开始批量解封 - 5月2日
:仍有约 15% 的被封用户未恢复访问
封号原因(推测): 1. 使用区域与 IP 不符(疑似账号共享) 2. API 调用模式异常(高频+多 IP) 3. 反作弊系统过度敏感(新版信誉分系统上线) 用户应对策略:
-
避免多人共享 Plus 账号 -
使用 API 时固定 IP 地址 -
开启 Two-Step Verification
2. DeepSeek 多模态模型开源(然后删了)
时间线:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
技术报告核心内容(从缓存和镜像恢复):
#### 核心问题定义
多模态模型在复杂任务中失败,不是因为「看不清」(感知鸿沟),而是因为「说不准」(参照鸿沟)。举例:
-
让模型「数一数图中有几个苹果」,如果不用手指指着每个苹果,人类也会数错或数漏。 -
自然语言天然模糊:「左边那个」「第二个」——这些描述在复杂场景中完全不够用。
#### 解决方案:Visual Primitives 框架 核心思路: 将「点 `<|point|>`」和「边界框 `<|box|>`」提升为最小的思考单元。
传统多模态推理: 「图中有几个苹果?」→ 思考 → 回答:「3个」❌(容易数错) Visual Primitives 推理: 「图中有几个苹果?」→ <|point|(12,34) ← 指着第一个苹果 → <|point|(56,78) ← 指着第二个苹果 → <|point|(90,12) ← 指着第三个苹果 → 回答:「3个」✅(精确锚定)
技术架构:
图像输入 → DeepSeek-ViT(视觉编码器) ↓ CSA 稀疏注意力压缩(7056倍压缩率) ↓ DeepSeek-V4-Flash 主干(2840亿参数) ↓ 生成带坐标的推理过程(Visual Primitives) ↓ 输出精确答案
性能表现:
|
|
|
|
|
|
|---|---|---|---|---|
|
|
92.3% |
|
|
|
|
|
89.7% |
|
|
89.7% |
|
|
96.8% |
|
|
|
|
|
94.1% |
|
|
|
为何删除论文?(业界推测)
1. 技术泄露风险:Visual Primitives 框架可能被竞争对手快速复制 2. 专利保护:DeepSeek 可能正在申请相关专利,公开论文会影响专利申请 3. 产品未就绪:技术报告泄露了未发布产品的核心参数 4. 内部策略调整:多模态模型可能与 V4 正式版打包发布
早期用户反馈(灰度测试):
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
📊 两会对比:DeepSeek 多模态 vs 竞品
|
|
|
|
|
|
|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
🎯 对开发者的启示
1. 多模态的新范式
DeepSeek 的 Visual Primitives 框架证明:「看得到」不是问题,「指得准」才是关键。
开发者在构建多模态应用时,应重点关注:
-
如何让模型精确参照图像中的特定区域 -
如何将空间坐标与语言推理结合 -
如何评估模型在空间任务中的表现
2. 开源 vs 闭源的拉锯战
-
DeepSeek V4(4月24日):开源,100万上下文 -
DeepSeek 多模态(4月30日):原定开源,后删除 -
Ling 2.6(5月1日):开源,MIT 协议 -
GPT-5.5 / Claude 4.7:闭源,但性能领先
趋势: 开源模型正在从「追赶者」变成「引领者」,尤其在性价比和定制化方面。
3. API 降价的加速度
-
Grok 4.3:比 GPT-4.5 低 60% -
DeepSeek V4 API:比 Claude 低 70% -
Ling 2.6:开源可自部署,零 API 费用
预测: 2026 年底前,主流 API 价格将再降 50%。
📅 近期预告
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
💬 编辑点评
这两天 AI 圈的关键词是「开源反击」和「多模态范式转移」。
DeepSeek 用一篇「删了又删」的论文,向世界展示了什么是真正的多模态创新——不是堆砌参数,而是重新定义「思考的最小单元」。
OpenAI 的 Codex 大更新,透露出一个信号:AI 超级应用(Super App)的战争已经打响。谁先让用户在「一个界面」里完成所有工作,谁就赢了。
xAI 的 Grok 4.3 低价策略,则是在用「价格战」抢夺企业市场。Musk 的算盘是:用 X 平台的实时数据作为护城河,用低价突破 OpenAI 的封锁。
这场战争,才刚刚开始。想第一时间获取 AI 新闻?关注本号,每天 8:00 准时推送。
夜雨聆风