AI 周报|DeepSeek V4 和 GPT-5.5 同天发布,GPT叙事转向;AI“御三家”亮出企业 Agent 底牌

这周的 AI 行业发生了一件以前不会发生的事：两个顶级模型同天发布，讨论热度最高的话题不是谁的分更高，而是谁能在真实场景里把活干完。

GPT-5.5 的 benchmark 数字当然亮眼（Terminal-Bench 82.7%、SWE-bench Pro 58.6%），但 Mollick 的评测全程在讲真实任务：4 个提示产出 PhD 二年级论文，模拟城镇演化跑出前所未有的结果。
DeepSeek V4 同天开源，V4-Pro 内部评价优于 Sonnet 4.5、接近 Opus 4.6 非思考状态。模型竞赛还在继续，但叙事变了——卖智力的时代让位给卖任务完成的时代。

更密集的信号在生态层：Google、OpenAI、Anthropic 同一周亮出企业 Agent 平台方案，Kimi K2.6 开源登顶编程基准，苹果换帅押终端 AI 芯片，Claude Design 正面冲击 Figma，Block CEO 说要把公司压缩成一个 Agent。这一周的信息浓度，值得产品经理、投资人、创业者各自拿走不同的东西。

本期 38 件事，六条线。

模型层：GPT-5.5 vs DeepSeek V4，叙事变了
企业 Agent 平台：Anthropic、OpenAI、Google 三足鼎立备齐；高价值任务成为头部 AI 实验室 T0 战略
产品冲击波：Claude Design、GPT-Image-2、千问小酒窝
生态与建设者：Cursor × xAI 百亿合作、Factory AI 独角兽、腾讯 × OpenClaw 合作推进 Harness 性能
组织重构与商业模式：苹果换帅押注终端 AI 芯片、Block CEO 要把 5 层层级压到 2-3 层、多邻国反硅谷走人本 AI 路线
观点与思考框架：腾讯研究院万字定义”流量 2.0″（从卖注意力到卖意图完成）、Agent 六阶段范式转移、Mollick 提出 Models/Apps/Harnesses 三层选择框架

一、模型层

1. GPT-5.5 vs DeepSeek V4，叙事变了

4 月 24 日，两个重量级模型同天发布。

OpenAI 发布 GPT-5.5 系列，核心卖点”用更少的 token 干更难的活”。Terminal-Bench 82.7%、SWE-bench Pro 58.6%，知识工作和科研场景优化明显，Codex 任务的 token 消耗下降。Mollick 深度评测后称其为”唯一能真正模拟城镇演化的模型”，4 个提示产出 PhD 二年级论文水平，参差前沿持续外推，但长篇虚构仍弱。Nathan Lambert（AI2 研究科学家）同日发文分析开源-闭源性能差距的真实面貌，为 V4 vs GPT-5.5 的同日对决提供了竞争格局的参考框架。

→ 详情：GPT-5.5 发布，详细解读
DeepSeek 正式发布并开源 V4 预览版，MIT 协议，Pro + Flash 双版本。V4-Pro 在 Agent 能力、世界知识、推理性能、长文本四个方向都跨了一个台阶，内部评价优于 Sonnet 4.5、接近 Opus 4.6 非思考状态。技术报告详解 CSA 可训练稀疏注意力 + HCA 低维 KV 映射 + FP4/8 混合精度 + mHC 流形约束 + Muon 替代 Adam，V4-Flash 284B 总参 / 13B 激活。注意力机制层面的结构性颠覆。

→ 详情：https://wallstreetcn.com/articles/3770782

2. Agent + Coding 基础模型密集更新

Kimi K2.6 开源发布，SWE-Bench Pro 58.6 超越 GPT-5.4 和 Opus 4.6，成为首个在编程基准上压制闭源模型的开源模型。连续工作 12 小时不崩。亮点是”Agent 集群”功能，升级至 300 子 Agent / 4000 步。

→ 详情：Kimi K2.6 开源了！还附送了 300 个 Agent 员工？
腾讯混元发布开源 Hy3 Preview，295B 总参 / 21B 激活 MoE，主打 Agent 和 Coding，SWE-Bench / ClawEval 有竞争力，API 输入最低 1.2 元/百万 tokens。俞栋入职后的首张答卷。

→ 详情：https://wallstreetcn.com/articles/3770710
阿里 Qwen3.6-Preview 发布，相比 Qwen3.6-Plus 在智能体编程、世界知识、指令遵循和真实场景可靠性上有明显提升。

→ 详情：Qwen3.6-Max-Preview来了！
小米 MiMo-V2.5 同期发布，Pro 版 SWE-bench Pro 57.2 登顶开源 Agent 能力，100 万 Token 上下文，升级 token 效率。

→ 详情：DeepSeek V4发布前，罗福莉亮剑！小米最强大模型MiMo-V2.5深夜突袭

3. GPT-Image-2 震荡设计行业

GPT-Image-2 发布，Arena 全品类登顶。引入”思考能力”，能搜索网络信息、依据单个提示生成多张图像，在生成前推理图像结构。已被 Figma / Canva / Adobe / Lovart 集成，设计行业反响强烈。

→ 详情：https://openai.com/index/introducing-chatgpt-images-2-0/

4. 其他模型：3D、世界模型、隐私保护

字节发布 Seed3D 2.0，两阶段几何生成 + 统一 PBR 材质 + 部件级关节化建模 + 场景组合，几何和纹理双 SOTA，人类偏好率 69%+。OpenAI 开源 Privacy Filter，1.5B 参数 / 50M 激活 MoE，PII 检测模型，瞄准企业和 Agent 管线中设备端或低成本预处理的刚需，比通用小型开源模型更有运营价值。

→ 详情：https://seed.bytedance.com/zh/seed3d_2_0
Odyssey 发布 2 Max 通用世界模型，VBench2 Physics 58.52 SOTA，AR DiT 架构，实时 120+ 秒仿真，面向机器人/游戏/防御/医疗。

→ 详情：https://odyssey.ml/introducing-odyssey-2-max

OpenAI悄然开源了一个实用的隐私保护模型Privacy Filter，比通用“小型开源模型”更有运营价值，因其瞄准企业/Agent管线中设备端或低成本预处理的刚需。

→ 详情：https://x.com/ClementDelangue/status/2046973714751754479

二、生态

5. 行业趋势：高价值任务成为头部 AI 实验室 T0 战略

Anthropic、OpenAI、谷歌三大实验室不约而同将高价值任务定义为最高优先级，这是证明 AI 经济价值的最短路径。

三大厂商通过最近的更新，在以下方向上达成了非正式共识：

Agent化是AI下一阶段的核心商业形态
企业市场是增长最快的收入来源
Coding是验证度最高的高价值Agent场景
协议标准化是多Agent系统规模化的前提

主要争议集中在：

MCP vs A2A的协议主导权（Anthropic vs Google）
私有部署vs云端SaaS的最优路径（市场分歧明显）
高价值任务的错误容忍度与人工监督比例（无行业标准）
中国AI厂商的国际商业化可行性（数据空白，结论不确定）

Agent 六阶段范式转移：OpenManus 主要贡献者张佳钇、Nanponova AI 创始人常楠对谈，梳理 Agent 从 Manus 到 Claude Code 的六阶段演进。他们的判断：Agent 竞争已从模型智力的单点突破，转向工程能力、场景落地、数据主权、生态构建的全方位较量。螺旋上升的背后是能力、产品、商业、生态四重逻辑的同步重构。

→ 详情：从Manus到Claude Code：Agent正在经历一场”六阶段”范式转移 | GAIR Live 027

“Claude 吞噬整个 AI 编程栈”：分析 Anthropic 的产品攻势，Claude Code → Cowork → Routines → Design 系统性侵蚀 Vibe Coding 创业公司的生存空间。上游模型厂商亲自做应用时，中间层的壁垒只是薄冰。

→ 详情：Claude 吞噬整个AI编程栈？“Vibe Coding 公司的最大错觉是以为自己有护城河”

6. 企业 Agent 平台：三足鼎立备齐

Google 在 Cloud Next 2026 大会上把企业 Agent 竞争升级为”谁的交付体系更完整”。

Agent Platform 全栈交付：Registry / Identity / Gateway / Observability / Memory Bank / MCP / 异常检测 / 模拟 / 评估。
硬件层：推出第八代 TPU，分训练专用 8t 和推理专用 8i。
生态数据：75% 客户用 AI、3/4 代码 AI 生成、16B token/min API 处理量。
$750M 伙伴基金：面向 12 万生态成员（Accenture / McKinsey / BCG / Deloitte / Bain 等获 DeepMind 直接合作）。
应用层：Workspace Intelligence 全面 GA，覆盖 Docs / Sheets / Meetings / Mail 语义层，Gemini Enterprise 新增 Inbox / Canvas / 可复用 Skills。
Gemini App 同期正式发布 Mac 桌面版本进入 Apple 生态，直接与 Claude Desktop 竞争，Google Labs 同日推出 Vantage 产品。

→ 详情：https://www.crn.com/news/ai/2026/google-cloud-next-2026-the-biggest-news-on-gemini-agentic-ai-tpus

OpenAI 发布 Workspace Agents，Codex 驱动，面向 Business / Enterprise / Edu。GPT 后续会提供一键转换到 Workspace Agents 的通道。ChatGPT 从个人对话工具升级为企业级 Agent 协作平台，与 Google Gemini Enterprise Agent Platform 和 Anthropic Claude Cowork 形成三足鼎立。Codex 同步上线 Chronicle 屏幕记忆功能，感知屏幕内容作为记忆来源，三大场景：屏幕 debug、模糊指代解析、工具流程记忆。目前仅限 macOS Pro 用户。Sam Altman 发推称其内部代号 telepathy，体验如心灵感应。

→ Workspace Agents 详情：OpenAI 发布 Workspace Agents，接替 GPTs

→ Chronicle 详情：Codex 凌晨更新，将屏幕内容「放进记忆」

Claude Cowork 结束 12 周研究预览正式全量上线，推出 Live Artifacts 功能，用户可构建连接应用和文件的实时仪表盘，支持版本历史和跨会话恢复，面向所有付费计划开放。

→ 详情：https://x.com/claudeai/status/2046328619249684989

Cloudflare 发布 Project Think 预览：Durable Fibers 可检查点持久化调用、co-located SQLite、onFiberRecovered 恢复钩子、关系型 Session Tree、受限沙箱自生成代码执行。Agent 运行时从一次性对话走向可恢复长任务。Replit 发布 Mythos 性能白皮书证明当前 LLM 优化可达 90%+ 性能，Agent 同步接入 Gemini Enterprise。

→ 详情：https://www.infoq.com/news/2026/04/cloudflare-project-think/

7. 大厂战略与合作

苹果换帅，硬件工程高级副总裁 9 月接任 CEO，库克转任执行董事长。AI 战略押注终端算力而非云端，加速三款 Siri AI 可穿戴设备（眼镜、挂坠、摄像头 AirPods）。WWDC 26 海报暗示 iOS 27 Siri 全面改版：新 Siri 集成灵动岛、独立 App、多指令处理、首次支持第三方 AI Agent 接入和上下文感知。

→ 详情：https://wallstreetcn.com/articles/3770495
Peter Steinberger（OpenClaw 核心）透露腾讯正与 OpenClaw 合作提升 Harness 性能并提供评测数据，同时发布 gog 0.13（Gmail 转发 + Google Docs 上传）和 wacli 0.6.0。

→ 详情：https://x.com/steipete/status/2046259696722465113
Cursor 与 xAI 达成 $10B 合作协议，附 $60B 收购权，AI 编程赛道推到绝对顶峰。Factory AI 完成 $1.5 亿融资估值 $15 亿，核心产品 Droid 自主编程 Agent，差异化在于能根据任务在不同模型间切换。

→ 详情：https://www.theverge.com/science/916427/spacex-cursor-potential-deal-acquisition/
微软 AI Agents for Beginners 12 课教程登上 GitHub Trending，反映 Agent 开发入门需求旺盛。

→ 详情：https://github.com/microsoft/ai-agents-for-beginners
挪威将禁止 16 岁以下使用社交媒体，成为欧洲AI/社媒未成年保护的标杆政策。

→ 详情：https://36kr.com/newsflashes/3780454052435208

三、应用

Anthropic 发布 Claude Design，用户通过自然语言协作完成设计原型、演示文稿等视觉工作，Opus 4.7 驱动，支持团队设计系统导入，导出 Canva / PPTX / PDF / HTML，一键交付 Claude Code。Figma、Adobe 股价下挫。

→ 详情：https://www.anthropic.com/news/claude-design-anthropic-labs

Canva 同日推出 AI 2.0 反击：全新架构层重构设计流程，AI 深度理解用户工作方式、自动应用品牌风格、持续学习团队偏好，支持导入已有设计训练模型。

→ 详情：Canva可画联合创始人独家专访：2.65亿用户的Canva，用自研模型，解决了设计的审美问题
不久，Claude Design系统提示词泄露了，这条提示词能让Claude生成惊艳的高保真设计（UI原型、幻灯片、动画等），但原本需要通过软件GUI操作。两位builder迅速跟进，分别推出了可直接在Claude Code等coding agent中调用的Skill玩法“sydney-design”、“huashu-design”

阿里发布千问小酒窝数字人，生态级 AI 助手接入淘宝、飞猪、高德、支付宝、大麦，支持跨服务串联执行。

→ 详情：能谈心更能办事，千问小酒窝亮相！

四、技术博客和建设者

Hermes Agent：子agent支持更大 spawn width 和递归 depth，向多进程编排系统演进。

→ 详情：https://x.com/Teknium/status/2046709250114957624
DeerFlow（字节开源 SuperAgent 框架，GitHub Stars 超 6 万）的实践表明：Agent 进化不只关注权重，Context 和 Harness 层同等重要。设计含 Skill 注册、Agent 间记忆共享、任务分解验证闭环。

→ 详情：今年最火的开源Agent项目，如何思考Agent的自我进化？

五、观点与深度

腾讯研究院 17000 字长文论述流量 2.0 范式。

核心判断：流量主体正从”用户行为”切到”智能体行为”，基本计量单位从点击切到 Token，流量变现逻辑从”卖注意力”转向”卖意图完成”。

文章梳理了流量 1.0 的四次迭代（门户→搜索→社交→信息流）和三重见顶信号（用户数物理见顶、获客成本攀升、隐私监管收紧）。
流量 2.0 四大差异：监测对象从人变为智能体、流量入口从人类触点变为智能体触点、增速从线性变为幂函数甚至指数函数、规模天花板从人口变为算力和能源。
AI 原生产品打法有三重不同：产品逻辑从交互设计到驾驭工程、研发逻辑从确定性工程到动态驾驭、运营逻辑从流量漏斗回归产品信任。护城河从社会财富资产转向个人智慧资产。

→ 详情：流量 2.0 时代

Hermes Agent 首次现身中国直播回应抄袭指控，MiniMax 在对谈中阐释模型 + Harness 双进化路线，从养虾到驯马仅用一个月。

→ 详情：Harness 深度对谈: MiniMax × Hermes Agent
Block CEO 对谈红杉资本。核心判断：传统公司的层级制度本质是一套信息路由系统，AI 可以直接取代层级承担的协调功能。

Block 不是给每个人配 AI 助手，而是以 AI 为中心重建公司，构建”公司世界模型”和”客户世界模型”双系统，用四层架构（能力层→世界模型→智能层→界面）替代传统产品路线图，全组织收敛为三种角色（IC / DRI / 玩家-教练）。
三周内完成 40% 裁员决策，CEO 职能从管理转向”对齐”AI 系统与公司目标。
目标：将 Jack 到任何人的层级深度从 5 层压缩到 2-3 层，最理想状态 6000 人全部直接向他汇报。

→ 详情：AI Native的组织架构 Block CEO：每家公司都可以压缩成一个agent

黄仁勋做客 Lex Fridman #494 期，讨论 NVIDIA 成长为 4 万亿美元公司、AI 革命下一阶段及算力基础设施未来。

→ 详情：https://lexfridman.com/jensen-huang/
多邻国反硅谷之路：股价暴跌 82% 后走人本 AI 路线，取消 AI 考核指标、承诺零裁员，在不牺牲员工利益前提下推进 AI 融入产品。

→ 详情：取消AI考核、零裁员！股价暴跌82%后，多邻国走出了一条反硅谷之路
Mollick 发布 Agentic 时代的 AI 选择指南，首次引入 Models / Apps / Harnesses 三层框架，AI 选择从”选模型”升级为”选 Harness”。

→ 详情：https://www.oneusefulthing.org/p/a-guide-to-which-ai-to-use-in-the

编辑手记

这周有三个信号值得产品经理、投资人和创业者分别拿走。

给产品经理的：模型叙事真的变了。GPT-5.5 和 DeepSeek V4 同天发布，但围绕 GPT-5.5 的讨论几乎没人在聊 benchmark 本身。Mollick 反复强调的是“真实场景里能不能用”，OpenAI 自己的措辞也变了，“用更少的 token 干更难的活”。当模型厂商开始用任务完成率而非智力分数来包装产品，产品经理的评估框架也该跟着换。Mollick 提出的 Models / Apps / Harnesses 三层选择框架是一个起点：选模型的时代正在变成选 Harness 的时代。
给投资人的：三大平台同一周亮企业 Agent 底牌。Google 出全栈 + $750M 基金，OpenAI 出 Workspace Agents 要接替 ChatGPT，Anthropic 的 Cowork 正式 GA。竞争焦点已经从”谁的 Agent 更聪明”切到”谁的交付体系更完整”。与此同时，Claude Code → Cowork → Routines → Design 的产品攻势正在系统性侵蚀 Vibe Coding 创业公司的生存空间。上游模型厂商亲自做应用时，中间层的壁垒只是薄冰。投 AI 中间层的窗口期在收窄。
给创业者的：Block CEO 和腾讯研究院从不同角度指向同一方向。Block 说传统公司层级本质是信息路由系统，AI 可以直接替代，目标是把 5 层压到 2-3 层；腾讯说流量计量单位从点击变成 Token，变现逻辑从”卖注意力”变成”卖意图完成”。组织结构和流量基本单元同时在被 AI 重写。另一个值得追踪的变量是苹果换帅，硬件工程主管接 CEO，AI 战略押终端芯片。如果 WWDC 26 真的开放第三方 AI Agent 接入 Siri，iOS 生态会变成 Agent 分发的新战场，这对 Agent 创业者来说是个大口子。

速览表

日期	信号	事件
4.24	🔴	GPT-5.5 系列：Terminal-Bench 82.7% / SWE-bench Pro 58.6%，用更少 token 干更难的活
4.24	🔴	DeepSeek V4 Preview 开源：CSA+HCA 注意力机制，V4-Pro 接近 Opus 4.6 非思考状态
4.24	🔴	DeepSeek V4 技术报告：Muon 替代 Adam，V4-Flash 284B/13B 激活
4.24	🟡	Mollick 评测 GPT-5.5：唯一模拟城镇演化的模型，4 提示产出 PhD 论文
4.24	🟡	Nathan Lambert 解读开源-闭源性能差距
4.24	⚪	微软 AI Agents for Beginners 12 课 GitHub Trending
4.24	⚪	挪威将禁止 16 岁以下使用社交媒体
4.23	🔴	Google Cloud Next：企业 Agent 全栈 + TPU 8t/8i + $750M 基金 + Workspace Intelligence GA
4.23	🟡	Gemini App 登陆 Mac + Vantage Labs
4.23	🔴	OpenAI Workspace Agents：Codex 驱动，ChatGPT 升级企业协作平台
4.23	🔴	腾讯混元 Hy3 Preview 开源：295B/21B 激活，俞栋首张答卷
4.23	🟡	小米 MiMo-V2.5：Pro 版 SWE-bench Pro 57.2，100 万 Token 上下文
4.23	🟡	字节 Seed3D 2.0：几何+关节化 3D，双 SOTA，人类偏好率 69%+
4.23	🟡	OpenAI 开源 Privacy Filter：1.5B/50M 激活 MoE，PII 检测
4.23	🟡	Replit Mythos 白皮书 + Agent 接入 Gemini Enterprise
4.23	🔴	Cloudflare Project Think 预览：Durable Fibers 可恢复长任务
4.22	🔴	GPT-Image-2：Arena 全品类登顶，设计行业强烈反响
4.22	🔴	OpenAI 代号 Hermes：ChatGPT Agents 管理平台，7×24 持久化
4.22	🔴	阿里千问小酒窝数字人：接入六大应用跨服务串联
4.22	🟡	Cursor × xAI $10B 合作 + $60B 收购权
4.22	🟡	Factory AI $1.5 亿融资估值 $15 亿，Droid 多模型切换
4.22	🟡	Odyssey 2 Max 世界模型：VBench2 Physics SOTA，120+秒仿真
4.22	🟡	Hermes 子 Agent 多进程编排升级
4.22	🔴	腾讯研究院万字：流量 2.0，智能体成价值交换新节点
4.22	🟡	Block CEO × 红杉：AI 重建组织，6000 人直接汇报
4.21	🔴	Claude Cowork 正式上线 + Live Artifacts 实时仪表盘
4.21	🔴	苹果换帅：硬件主管接任 CEO，AI 押注终端芯片+可穿戴
4.21	🔴	WWDC 26：iOS 27 Siri 改版，首次支持第三方 AI Agent 接入
4.21	🔴	Codex Chronicle 屏幕记忆：代号 telepathy
4.21	🔴	Peter Steinberger：腾讯×OpenClaw 合作 + gog 0.13
4.21	🔴	Kimi K2.6 开源登顶 SWE-Bench Pro 58.6，300 子 Agent
4.21	🟡	黄仁勋 × Lex Fridman：NVIDIA 4 万亿与 AI 革命
4.21	🟡	多邻国反硅谷：取消 AI 考核，零裁员
4.21	🔴	Agent 六阶段范式转移：从 Manus 到 Claude Code
4.20	🔴	Claude Design：挑战 Figma，Opus 4.7 驱动，Figma/Adobe 股价下挫
4.20	🔴	Canva AI 2.0 反击 Claude Design
4.20	🔴	阿里 Qwen3.6-Preview：强化 Agent 编码
4.20	🟡	DeerFlow 字节开源 SuperAgent：6 万 Stars，Skill 注册+记忆共享
4.20	🔴	高价值任务成所有 AI Labs 的 T0 战略
4.20	🔴	Claude 吞噬 AI 编程栈：Vibe Coding 壁垒是薄冰
4.20	🔴	Hermes 中国直播回应抄袭 + MiniMax Harness 双进化
4.20	🟡	Mollick：Agentic 时代 AI 选择指南，三层框架