乐于分享
好东西不私藏

AI 周报|DeepSeek V4 和 GPT-5.5 同天发布,GPT叙事转向;AI“御三家”亮出企业 Agent 底牌

AI 周报|DeepSeek V4 和 GPT-5.5 同天发布,GPT叙事转向;AI“御三家”亮出企业 Agent 底牌

    这周的 AI 行业发生了一件以前不会发生的事:两个顶级模型同天发布,讨论热度最高的话题不是谁的分更高,而是谁能在真实场景里把活干完。

    • GPT-5.5 的 benchmark 数字当然亮眼(Terminal-Bench 82.7%、SWE-bench Pro 58.6%),但 Mollick 的评测全程在讲真实任务:4 个提示产出 PhD 二年级论文,模拟城镇演化跑出前所未有的结果。

    • DeepSeek V4 同天开源,V4-Pro 内部评价优于 Sonnet 4.5、接近 Opus 4.6 非思考状态。模型竞赛还在继续,但叙事变了——卖智力的时代让位给卖任务完成的时代。

    更密集的信号在生态层:Google、OpenAI、Anthropic 同一周亮出企业 Agent 平台方案,Kimi K2.6 开源登顶编程基准,苹果换帅押终端 AI 芯片,Claude Design 正面冲击 Figma,Block CEO 说要把公司压缩成一个 Agent。这一周的信息浓度,值得产品经理、投资人、创业者各自拿走不同的东西。

    本期 38 件事,六条线。

    1. 模型层:GPT-5.5 vs DeepSeek V4,叙事变了

    2. 企业 Agent 平台:Anthropic、OpenAI、Google 三足鼎立备齐;高价值任务成为头部 AI 实验室 T0 战略

    3. 产品冲击波:Claude Design、GPT-Image-2、千问小酒窝

    4. 生态与建设者:Cursor × xAI 百亿合作、Factory AI 独角兽、腾讯 × OpenClaw 合作推进 Harness 性能

    5. 组织重构与商业模式:苹果换帅押注终端 AI 芯片、Block CEO 要把 5 层层级压到 2-3 层、多邻国反硅谷走人本 AI 路线

    6. 观点与思考框架:腾讯研究院万字定义”流量 2.0″(从卖注意力到卖意图完成)、Agent 六阶段范式转移、Mollick 提出 Models/Apps/Harnesses 三层选择框架

    一、模型层

     1. GPT-5.5 vs DeepSeek V4,叙事变了 

    4 月 24 日,两个重量级模型同天发布。

    • OpenAI 发布 GPT-5.5 系列,核心卖点”用更少的 token 干更难的活”。Terminal-Bench 82.7%、SWE-bench Pro 58.6%,知识工作和科研场景优化明显,Codex 任务的 token 消耗下降。Mollick 深度评测后称其为”唯一能真正模拟城镇演化的模型”,4 个提示产出 PhD 二年级论文水平,参差前沿持续外推,但长篇虚构仍弱。Nathan Lambert(AI2 研究科学家)同日发文分析开源-闭源性能差距的真实面貌,为 V4 vs GPT-5.5 的同日对决提供了竞争格局的参考框架。

      → 详情:GPT-5.5 发布,详细解读

    • DeepSeek 正式发布并开源 V4 预览版,MIT 协议,Pro + Flash 双版本。V4-Pro 在 Agent 能力、世界知识、推理性能、长文本四个方向都跨了一个台阶,内部评价优于 Sonnet 4.5、接近 Opus 4.6 非思考状态。技术报告详解 CSA 可训练稀疏注意力 + HCA 低维 KV 映射 + FP4/8 混合精度 + mHC 流形约束 + Muon 替代 Adam,V4-Flash 284B 总参 / 13B 激活。注意力机制层面的结构性颠覆。

      → 详情:https://wallstreetcn.com/articles/3770782

     2. Agent + Coding 基础模型密集更新 

    • Kimi K2.6 开源发布,SWE-Bench Pro 58.6 超越 GPT-5.4 和 Opus 4.6,成为首个在编程基准上压制闭源模型的开源模型。连续工作 12 小时不崩。亮点是”Agent 集群”功能,升级至 300 子 Agent / 4000 步。

      → 详情:Kimi K2.6 开源了!还附送了 300 个 Agent 员工?

    • 腾讯混元发布开源 Hy3 Preview,295B 总参 / 21B 激活 MoE,主打 Agent 和 Coding,SWE-Bench / ClawEval 有竞争力,API 输入最低 1.2 元/百万 tokens。俞栋入职后的首张答卷。

      → 详情:https://wallstreetcn.com/articles/3770710

    • 阿里 Qwen3.6-Preview 发布,相比 Qwen3.6-Plus 在智能体编程、世界知识、指令遵循和真实场景可靠性上有明显提升。

      → 详情:Qwen3.6-Max-Preview来了!

    • 小米 MiMo-V2.5 同期发布,Pro 版 SWE-bench Pro 57.2 登顶开源 Agent 能力,100 万 Token 上下文,升级 token 效率。

      → 详情:DeepSeek V4发布前,罗福莉亮剑!小米最强大模型MiMo-V2.5深夜突袭

     3. GPT-Image-2 震荡设计行业 

    • GPT-Image-2 发布,Arena 全品类登顶。引入”思考能力”,能搜索网络信息、依据单个提示生成多张图像,在生成前推理图像结构。已被 Figma / Canva / Adobe / Lovart 集成,设计行业反响强烈。

      → 详情:https://openai.com/index/introducing-chatgpt-images-2-0/

     4. 其他模型:3D、世界模型、隐私保护 

    • 字节发布 Seed3D 2.0,两阶段几何生成 + 统一 PBR 材质 + 部件级关节化建模 + 场景组合,几何和纹理双 SOTA,人类偏好率 69%+。OpenAI 开源 Privacy Filter,1.5B 参数 / 50M 激活 MoE,PII 检测模型,瞄准企业和 Agent 管线中设备端或低成本预处理的刚需,比通用小型开源模型更有运营价值。

      → 详情:https://seed.bytedance.com/zh/seed3d_2_0

    • Odyssey 发布 2 Max 通用世界模型,VBench2 Physics 58.52 SOTA,AR DiT 架构,实时 120+ 秒仿真,面向机器人/游戏/防御/医疗。

      → 详情:https://odyssey.ml/introducing-odyssey-2-max

      • OpenAI悄然开源了一个实用的隐私保护模型Privacy Filter,比通用“小型开源模型”更有运营价值,因其瞄准企业/Agent管线中设备端或低成本预处理的刚需。

           → 详情:https://x.com/ClementDelangue/status/2046973714751754479

      二、生态

       5. 行业趋势:高价值任务成为头部 AI 实验室 T0 战略 

      Anthropic、OpenAI、谷歌三大实验室不约而同将高价值任务定义为最高优先级,这是证明 AI 经济价值的最短路径。

      • 三大厂商通过最近的更新,在以下方向上达成了非正式共识:

        • Agent化是AI下一阶段的核心商业形态

        • 企业市场是增长最快的收入来源

        • Coding是验证度最高的高价值Agent场景

        • 协议标准化是多Agent系统规模化的前提

      • 主要争议集中在:

        • MCP vs A2A的协议主导权(Anthropic vs Google)

        • 私有部署vs云端SaaS的最优路径(市场分歧明显)

        • 高价值任务的错误容忍度与人工监督比例(无行业标准)

        • 中国AI厂商的国际商业化可行性(数据空白,结论不确定)

      Agent 六阶段范式转移:OpenManus 主要贡献者张佳钇、Nanponova AI 创始人常楠对谈,梳理 Agent 从 Manus 到 Claude Code 的六阶段演进。他们的判断:Agent 竞争已从模型智力的单点突破,转向工程能力、场景落地、数据主权、生态构建的全方位较量。螺旋上升的背后是能力、产品、商业、生态四重逻辑的同步重构。

      → 详情:从Manus到Claude Code:Agent正在经历一场”六阶段”范式转移 | GAIR Live 027

      “Claude 吞噬整个 AI 编程栈”:分析 Anthropic 的产品攻势,Claude Code → Cowork → Routines → Design 系统性侵蚀 Vibe Coding 创业公司的生存空间。上游模型厂商亲自做应用时,中间层的壁垒只是薄冰。

      → 详情:Claude 吞噬整个AI编程栈?“Vibe Coding 公司的最大错觉是以为自己有护城河”

       6. 企业 Agent 平台:三足鼎立备齐 

      Google 在 Cloud Next 2026 大会上把企业 Agent 竞争升级为”谁的交付体系更完整”。

      • Agent Platform 全栈交付:Registry / Identity / Gateway / Observability / Memory Bank / MCP / 异常检测 / 模拟 / 评估。

      • 硬件层:推出第八代 TPU,分训练专用 8t 和推理专用 8i。

      • 生态数据:75% 客户用 AI、3/4 代码 AI 生成、16B token/min API 处理量。

      • $750M 伙伴基金:面向 12 万生态成员(Accenture / McKinsey / BCG / Deloitte / Bain 等获 DeepMind 直接合作)。

      • 应用层:Workspace Intelligence 全面 GA,覆盖 Docs / Sheets / Meetings / Mail 语义层,Gemini Enterprise 新增 Inbox / Canvas / 可复用 Skills。

      • Gemini App 同期正式发布 Mac 桌面版本进入 Apple 生态,直接与 Claude Desktop 竞争,Google Labs 同日推出 Vantage 产品。

      → 详情:https://www.crn.com/news/ai/2026/google-cloud-next-2026-the-biggest-news-on-gemini-agentic-ai-tpus

      OpenAI 发布 Workspace Agents,Codex 驱动,面向 Business / Enterprise / Edu。GPT 后续会提供一键转换到 Workspace Agents 的通道。ChatGPT 从个人对话工具升级为企业级 Agent 协作平台,与 Google Gemini Enterprise Agent Platform 和 Anthropic Claude Cowork 形成三足鼎立。Codex 同步上线 Chronicle 屏幕记忆功能,感知屏幕内容作为记忆来源,三大场景:屏幕 debug、模糊指代解析、工具流程记忆。目前仅限 macOS Pro 用户。Sam Altman 发推称其内部代号 telepathy,体验如心灵感应。

      → Workspace Agents 详情:OpenAI 发布 Workspace Agents,接替 GPTs

      → Chronicle 详情:Codex 凌晨更新,将屏幕内容「放进记忆」

      Claude Cowork 结束 12 周研究预览正式全量上线,推出 Live Artifacts 功能,用户可构建连接应用和文件的实时仪表盘,支持版本历史和跨会话恢复,面向所有付费计划开放。

      → 详情:https://x.com/claudeai/status/2046328619249684989

      Cloudflare 发布 Project Think 预览:Durable Fibers 可检查点持久化调用、co-located SQLite、onFiberRecovered 恢复钩子、关系型 Session Tree、受限沙箱自生成代码执行。Agent 运行时从一次性对话走向可恢复长任务。Replit 发布 Mythos 性能白皮书证明当前 LLM 优化可达 90%+ 性能,Agent 同步接入 Gemini Enterprise。

      → 详情:https://www.infoq.com/news/2026/04/cloudflare-project-think/

       7. 大厂战略与合作 

      • 苹果换帅,硬件工程高级副总裁 9 月接任 CEO,库克转任执行董事长。AI 战略押注终端算力而非云端,加速三款 Siri AI 可穿戴设备(眼镜、挂坠、摄像头 AirPods)。WWDC 26 海报暗示 iOS 27 Siri 全面改版:新 Siri 集成灵动岛、独立 App、多指令处理、首次支持第三方 AI Agent 接入和上下文感知。

        → 详情:https://wallstreetcn.com/articles/3770495

      • Peter Steinberger(OpenClaw 核心)透露腾讯正与 OpenClaw 合作提升 Harness 性能并提供评测数据,同时发布 gog 0.13(Gmail 转发 + Google Docs 上传)和 wacli 0.6.0。

        → 详情:https://x.com/steipete/status/2046259696722465113

      • Cursor 与 xAI 达成 $10B 合作协议,附 $60B 收购权,AI 编程赛道推到绝对顶峰。Factory AI 完成 $1.5 亿融资估值 $15 亿,核心产品 Droid 自主编程 Agent,差异化在于能根据任务在不同模型间切换。

        → 详情:https://www.theverge.com/science/916427/spacex-cursor-potential-deal-acquisition/

      • 微软 AI Agents for Beginners 12 课教程登上 GitHub Trending,反映 Agent 开发入门需求旺盛。

        → 详情:https://github.com/microsoft/ai-agents-for-beginners

      • 挪威将禁止 16 岁以下使用社交媒体,成为欧洲AI/社媒未成年保护的标杆政策。

        → 详情:https://36kr.com/newsflashes/3780454052435208

      三、应用

      • Anthropic 发布 Claude Design,用户通过自然语言协作完成设计原型、演示文稿等视觉工作,Opus 4.7 驱动,支持团队设计系统导入,导出 Canva / PPTX / PDF / HTML,一键交付 Claude Code。Figma、Adobe 股价下挫。

        → 详情:https://www.anthropic.com/news/claude-design-anthropic-labs

      四、技术博客和建设者

      • Hermes Agent:子agent支持更大 spawn width 和递归 depth,向多进程编排系统演进。

        → 详情:https://x.com/Teknium/status/2046709250114957624

      • DeerFlow(字节开源 SuperAgent 框架,GitHub Stars 超 6 万)的实践表明:Agent 进化不只关注权重,Context 和 Harness 层同等重要。设计含 Skill 注册、Agent 间记忆共享、任务分解验证闭环。

        → 详情:今年最火的开源Agent项目,如何思考Agent的自我进化?

      五、观点与深度

      • 腾讯研究院 17000 字长文论述流量 2.0 范式。

        • 核心判断:流量主体正从”用户行为”切到”智能体行为”,基本计量单位从点击切到 Token,流量变现逻辑从”卖注意力”转向”卖意图完成”。

        • 文章梳理了流量 1.0 的四次迭代(门户→搜索→社交→信息流)和三重见顶信号(用户数物理见顶、获客成本攀升、隐私监管收紧)。

        • 流量 2.0 四大差异:监测对象从人变为智能体、流量入口从人类触点变为智能体触点、增速从线性变为幂函数甚至指数函数、规模天花板从人口变为算力和能源。

        • AI 原生产品打法有三重不同:产品逻辑从交互设计到驾驭工程、研发逻辑从确定性工程到动态驾驭、运营逻辑从流量漏斗回归产品信任。护城河从社会财富资产转向个人智慧资产。

           → 详情:流量 2.0 时代

      • Hermes Agent 首次现身中国直播回应抄袭指控,MiniMax 在对谈中阐释模型 + Harness 双进化路线,从养虾到驯马仅用一个月。

        → 详情:Harness 深度对谈: MiniMax × Hermes Agent

      • Block CEO 对谈红杉资本。核心判断:传统公司的层级制度本质是一套信息路由系统,AI 可以直接取代层级承担的协调功能。

        • Block 不是给每个人配 AI 助手,而是以 AI 为中心重建公司,构建”公司世界模型”和”客户世界模型”双系统,用四层架构(能力层→世界模型→智能层→界面)替代传统产品路线图,全组织收敛为三种角色(IC / DRI / 玩家-教练)。

        • 三周内完成 40% 裁员决策,CEO 职能从管理转向”对齐”AI 系统与公司目标。

        • 目标:将 Jack 到任何人的层级深度从 5 层压缩到 2-3 层,最理想状态 6000 人全部直接向他汇报。

         → 详情:AI Native的组织架构 Block CEO:每家公司都可以压缩成一个agent

      • 黄仁勋做客 Lex Fridman #494 期,讨论 NVIDIA 成长为 4 万亿美元公司、AI 革命下一阶段及算力基础设施未来。

        → 详情:https://lexfridman.com/jensen-huang/

      • 多邻国反硅谷之路:股价暴跌 82% 后走人本 AI 路线,取消 AI 考核指标、承诺零裁员,在不牺牲员工利益前提下推进 AI 融入产品。

        → 详情:取消AI考核、零裁员!股价暴跌82%后,多邻国走出了一条反硅谷之路

      • Mollick 发布 Agentic 时代的 AI 选择指南,首次引入 Models / Apps / Harnesses 三层框架,AI 选择从”选模型”升级为”选 Harness”。

        → 详情:https://www.oneusefulthing.org/p/a-guide-to-which-ai-to-use-in-the

      编辑手记

      这周有三个信号值得产品经理、投资人和创业者分别拿走。

      • 给产品经理的:模型叙事真的变了。GPT-5.5 和 DeepSeek V4 同天发布,但围绕 GPT-5.5 的讨论几乎没人在聊 benchmark 本身。Mollick 反复强调的是“真实场景里能不能用”,OpenAI 自己的措辞也变了,“用更少的 token 干更难的活”。当模型厂商开始用任务完成率而非智力分数来包装产品,产品经理的评估框架也该跟着换。Mollick 提出的 Models / Apps / Harnesses 三层选择框架是一个起点:选模型的时代正在变成选 Harness 的时代。

      • 给投资人的:三大平台同一周亮企业 Agent 底牌。Google 出全栈 + $750M 基金,OpenAI 出 Workspace Agents 要接替 ChatGPT,Anthropic 的 Cowork 正式 GA。竞争焦点已经从”谁的 Agent 更聪明”切到”谁的交付体系更完整”。与此同时,Claude Code → Cowork → Routines → Design 的产品攻势正在系统性侵蚀 Vibe Coding 创业公司的生存空间。上游模型厂商亲自做应用时,中间层的壁垒只是薄冰。投 AI 中间层的窗口期在收窄。

      • 给创业者的:Block CEO 和腾讯研究院从不同角度指向同一方向。Block 说传统公司层级本质是信息路由系统,AI 可以直接替代,目标是把 5 层压到 2-3 层;腾讯说流量计量单位从点击变成 Token,变现逻辑从”卖注意力”变成”卖意图完成”。组织结构和流量基本单元同时在被 AI 重写。另一个值得追踪的变量是苹果换帅,硬件工程主管接 CEO,AI 战略押终端芯片。如果 WWDC 26 真的开放第三方 AI Agent 接入 Siri,iOS 生态会变成 Agent 分发的新战场,这对 Agent 创业者来说是个大口子。

      速览表

      日期

      信号

      事件

      4.24

      🔴

      GPT-5.5 系列:Terminal-Bench 82.7% / SWE-bench Pro 58.6%,用更少 token 干更难的活

      4.24

      🔴

      DeepSeek V4 Preview 开源:CSA+HCA 注意力机制,V4-Pro 接近 Opus 4.6 非思考状态

      4.24

      🔴

      DeepSeek V4 技术报告:Muon 替代 Adam,V4-Flash 284B/13B 激活

      4.24

      🟡

      Mollick 评测 GPT-5.5:唯一模拟城镇演化的模型,4 提示产出 PhD 论文

      4.24

      🟡

      Nathan Lambert 解读开源-闭源性能差距

      4.24

      微软 AI Agents for Beginners 12 课 GitHub Trending

      4.24

      挪威将禁止 16 岁以下使用社交媒体

      4.23

      🔴

      Google Cloud Next:企业 Agent 全栈 + TPU 8t/8i + $750M 基金 + Workspace Intelligence GA

      4.23

      🟡

      Gemini App 登陆 Mac + Vantage Labs

      4.23

      🔴

      OpenAI Workspace Agents:Codex 驱动,ChatGPT 升级企业协作平台

      4.23

      🔴

      腾讯混元 Hy3 Preview 开源:295B/21B 激活,俞栋首张答卷

      4.23

      🟡

      小米 MiMo-V2.5:Pro 版 SWE-bench Pro 57.2,100 万 Token 上下文

      4.23

      🟡

      字节 Seed3D 2.0:几何+关节化 3D,双 SOTA,人类偏好率 69%+

      4.23

      🟡

      OpenAI 开源 Privacy Filter:1.5B/50M 激活 MoE,PII 检测

      4.23

      🟡

      Replit Mythos 白皮书 + Agent 接入 Gemini Enterprise

      4.23

      🔴

      Cloudflare Project Think 预览:Durable Fibers 可恢复长任务

      4.22

      🔴

      GPT-Image-2:Arena 全品类登顶,设计行业强烈反响

      4.22

      🔴

      OpenAI 代号 Hermes:ChatGPT Agents 管理平台,7×24 持久化

      4.22

      🔴

      阿里千问小酒窝数字人:接入六大应用跨服务串联

      4.22

      🟡

      Cursor × xAI $10B 合作 + $60B 收购权

      4.22

      🟡

      Factory AI $1.5 亿融资估值 $15 亿,Droid 多模型切换

      4.22

      🟡

      Odyssey 2 Max 世界模型:VBench2 Physics SOTA,120+秒仿真

      4.22

      🟡

      Hermes 子 Agent 多进程编排升级

      4.22

      🔴

      腾讯研究院万字:流量 2.0,智能体成价值交换新节点

      4.22

      🟡

      Block CEO × 红杉:AI 重建组织,6000 人直接汇报

      4.21

      🔴

      Claude Cowork 正式上线 + Live Artifacts 实时仪表盘

      4.21

      🔴

      苹果换帅:硬件主管接任 CEO,AI 押注终端芯片+可穿戴

      4.21

      🔴

      WWDC 26:iOS 27 Siri 改版,首次支持第三方 AI Agent 接入

      4.21

      🔴

      Codex Chronicle 屏幕记忆:代号 telepathy

      4.21

      🔴

      Peter Steinberger:腾讯×OpenClaw 合作 + gog 0.13

      4.21

      🔴

      Kimi K2.6 开源登顶 SWE-Bench Pro 58.6,300 子 Agent

      4.21

      🟡

      黄仁勋 × Lex Fridman:NVIDIA 4 万亿与 AI 革命

      4.21

      🟡

      多邻国反硅谷:取消 AI 考核,零裁员

      4.21

      🔴

      Agent 六阶段范式转移:从 Manus 到 Claude Code

      4.20

      🔴

      Claude Design:挑战 Figma,Opus 4.7 驱动,Figma/Adobe 股价下挫

      4.20

      🔴

      Canva AI 2.0 反击 Claude Design

      4.20

      🔴

      阿里 Qwen3.6-Preview:强化 Agent 编码

      4.20

      🟡

      DeerFlow 字节开源 SuperAgent:6 万 Stars,Skill 注册+记忆共享

      4.20

      🔴

      高价值任务成所有 AI Labs 的 T0 战略

      4.20

      🔴

      Claude 吞噬 AI 编程栈:Vibe Coding 壁垒是薄冰

      4.20

      🔴

      Hermes 中国直播回应抄袭 + MiniMax Harness 双进化

      4.20

      🟡

      Mollick:Agentic 时代 AI 选择指南,三层框架

      ——————————-

      扫码加入社群,快人一步获取行业前沿信息!

      ——————————-

      关于我们

      探微观智聚焦AI产品和创作,思考下一代AI原生产品和交互灵感。从ToC产品创新,到模型、平台、生态、资本、观点报告等上下游迭代趋势,以一线产品实战视角切入,拆解可复用的“AI产品灵感基础模块”,每日更新。

      联系我们:进入探微观智公众号,选择“企业合作”。

      ——————————-

      阅读往期热文
      心法
      做法
      周报

      更多基于以往推送的个性化问答,欢迎使用AI产品灵感智能体⬇️