
过去一周:AI 平台战的主轴已经从"谁模型好"切到"谁先把整条工作流吃完"。
Anthropic 七轮“死亡更新”,逐条覆盖垂类 SaaS 的地盘,紧跟着 Opus 4.7 发布、Claude Code 拿到云端 Routines、桌面端彻底重做、官方 Harness 框架落地,一周刷完编码、执行、调度、界面四层。
OpenAI 这边密度不输:Codex 喊出"最能打的 agent"、Rosalind 切入生命科学、GPT-5.4-Cyber 按场景发牌照、Symphony 幽灵库日耗 10 亿 token 零人编码。
两家在做同一件事:把能力从 API 推到产品,从产品推到工作流的每根毛细血管。
本期 48 件事,五条线
Anthropic和OpenAI两大平台的全栈吞噬加速
Harness的命运是刚火就过时,还是刚刚开始?
Agent 生态:自进化、一键部署、PR 已死
安全与治理:模型越强,问题越根本
建设者与新物种(世界模型、AI Roll-Up 模式等)

一、两大平台的全栈吞噬
连续七轮死亡更新,每次发布精确覆盖一块传统软件的领地:文档审阅、代码生成、安全扫描、设计探索,一轮一个。Word 版 Claude 插件紧随上线,交互式引用 + 原生修订模式 + 评论处理,直接切进法律金融文档审阅的腹地,对标微软 Copilot。
Anthropic狂搞“死亡更新”:7次发布抹去万亿市值,下个目标Lovable
4 月 17 日,Claude Opus 4.7 正式发布。三个升级方向:编码(Cursor 内部通过率 58% 拉到 70%)、视觉(利好 Computer Use)、新 tokenizer(文本 token 消耗增加,但多了 effort 档位 xhigh 可调)。Notion 集成后工具错误降到原来三分之一。同天 Claude Code Routines 上线,定时或事件驱动的云端自动化,关了电脑照样修 Bug 提 PR。AI 第一次以执行角色进入软件工作流,不是辅助。
Claude Code一夜重构,上线 Routines,现在关机也能修bug干活了
4 月 15 日 Claude Code 桌面端大改:多会话并排 + 集成终端 + 文件编辑 + HTML/PDF 预览 + 更快的 diff 查看器。Anthropic 官方 Harness 框架同日发布,Harness 从社区概念进入大厂标准化。4 月 11 日泄露的 Claude Code 更新截图也得到验证:截图验证、安全扫描、设计探索、暗黑模式、跨多仓库统一界面。从卖 API 到做产品平台,Anthropic 牌已经摊开。
>详情:https://x.com/claudeai/status/2044131493966909862
2. OpenAI 同样密集
Codex 更新打出「Codex for (almost) everything」:后台计算机使用、内置浏览器、gpt-image-1.5 图像生成、90+ 新插件、记忆预览、自我唤醒跨天任务,300 万周活开发者。负责人被问为什么是 Codex 不是 ChatGPT 承载 Super App,回答很干脆:"Codex 是我们最能打的 agent,本来就跑在你的电脑上,顺着这条路继续扩。"
>详情:https://openai.com/index/codex-for-almost-everything/
GPT-Rosalind 是 OpenAI 第一个生命科学模型,和 Amgen、Moderna、Allen 研究所合作。四类强项:跨分子/蛋白/基因/通路/疾病的推理;多步骤科研工作流(文献综述→序列解释→实验规划→数据分析);调用专业数据库和计算工具;综合外部信息提出后续实验设计。普通用户能上手的是免费插件,Rosalind 模型本体要合规科研使命才给,和 Claude Mythos 机构限定开放同一逻辑。
>详情:https://openai.com/index/introducing-gpt-rosalind/
GPT-5.4-Cyber 专为网络安全微调,TAC 计划扩容至数千个人防御者和数百团队。这里传递的是一种产品策略:先做身份校验,再给更宽的能力边界,最后根据平台可见性决定开多大。"谁能用、在哪儿用、日志看不看得到"已经是产品设计的一部分。模型开放从统一 API 变成按人按场景分层发牌照。
>详情:https://openai.com/index/scaling-trusted-access-for-cyber-defense/
OpenAI 泄露备忘录勾勒 Q2 五大战略:新模型 Spud、Agent 平台 Frontier、深化亚马逊合作、部署引擎 DeployCo、指控 Anthropic 虚报收入约 80 亿。OpenAI 收购 Hiro Finance(创始人曾以 2 亿美元卖掉 Digit),4 月 20 日停运,5 月 13 日删数据,布局 ChatGPT 财务规划。Harness engineering 长文揭示零人工写码实验,产出幽灵库 Symphony,每天消耗 10 亿 token,宣称 MCP 早死了。
>详情:https://www.aibase.com/zh/news/27086
两大平台同时在收紧顶级SOTA模型的实名认证门槛。能力越开放,准入越严格。
二、Harness的命运,马上过时,还是刚刚开始?
Harness 这个词本周出现的密度堪比去年的 RAG,Agent平台的终局形态是什么?
Anthropic的答案是自己做全栈(从模型到Harness到产品),OpenAI的答案是Codex做超级应用入口+SDK让生态接入,Cloudflare的答案是做Agent的AWS。三条路同时在跑,还没到收敛的时候。
4 月 16 日 OpenAI Agents SDK 架构升级,核心动作是 Harness 与计算层解耦。Cloudflare、Modal、Daytona、e2b、Vercel 五家同日集成。同天 Cloudflare 完成近期最密集的 Agent 基础设施发布,一口气上四个:Project Think(下一代 Agent SDK)、Agent Lee(仪表盘内置 Agent)、实时语音管道、Browser Run。Cloudflare 的论证:生产级 Agent 平台 = 持久运行时 + UI 锚定 + 浏览器 + 语音 + 沙箱。
>详情:https://x.com/OpenAIDevs/status/2044466699785920937
LangChain CEO 与 YC 总裁激辩模型能不能吃掉 Harness。LangChain 的核心论点:Harness 让用户掌管记忆所有权,51.2 万行代码不会凭空蒸发。
LangChain CEO和YC总裁神仙打架!51.2 万行代码的真相:为什么模型永远无法“吃掉”Harness?
另一边,腾讯科技的论文解读指出:当模型的工具调用和状态管理够强,外置 Harness 就成了多余中间层。Harness 刚火就可能过时。
Harness的命运之辩:被模型吃掉or持续存在?
两个判断不矛盾。Harness 的价值不在技术层面的不可替代,在于
谁持有状态、谁拥有记忆、谁控制执行流。模型能力越强,这几个问题越尖锐。
三、Agent生态:自进化、Hermes一键部署、PR已死
1. Hermes与自进化
GenericAgent 自进化 Agent 开源,3.3K 行种子代码自主生长技能树,和 Hermes Skills 自主迭代思路共振。Agent 自我进化这条线开始密集出信号。
>详情:https://github.com/lsdefine/GenericAgent
Hermes Agent 生态三连,国内涌现一键云部署方案:
腾讯云 Lighthouse 成为首家支持 Hermes Agent 一键云端部署的云厂商;
MiniMax 推出 MaxHermes 云部署;
中文社区爆发 Hermes 与 OpenClaw 深度对比,Skill 自进化路线和 GUI 即用路线的生态分化开始显性化。
但 Hermes 同时被指控抄袭 EvoMap 架构,EvoMap 被迫改为混淆发布 + GPL-3.0。大厂用 AI 洗个人开发者的代码,正在成为开源生态的新痛点。
装了最近爆火的 Hermes,和OpenClaw的对比来了!
MiniMax M2.7 正式发布,可进化架构适配 Hermes Agent。Minimax Agent 桌面端上线 Pocket 功能接入 IM 交互,Computer Use 功能操作工具。
MiniMax Agent 更新:这次我们重新设计了 Agent 操作电脑的方式
2. 人机协作范式
GitHub 首次允许禁用 Pull Request。2005 年诞生的 PR 作为人类协作工具,在 agent 时代可能失去意义。新范式由 ClawFather 推动:Prompt Request 取代 Pull Request,维护者改提示词比审代码高效,也更不容易被恶意代码渗透。这个变化已经引发对 Git 本身未来的质疑。
>详情:https://www.latent.space/p/ainews-rip-pull-requests-2005-2026
Google Chrome 推出 Skills 功能,保存 AI 提示词为 Skill 一键运行于任意网页,支持多标签页。
>详情:https://blog.google/products-and-platforms/products/chrome/skills-in-chrome/
Skill 概念走进消费级。但真正的 Skill 商店变成了微信公众号和小红书:官方 Skill 商店没成为发现中心,市场缺质量标准,需要能力图谱、成本维度、安全审计和可解释性。
真正的 Skill 商店,为什么变成了微信公众号和小红书?
3. Agent原生工作空间
阿里 ATH 发布秒悟 Meoo,集成千问、Kimi、GLM、MiniMax 四大模型,蜂群 Agent 并行,1 分钟生成一键部署,含后端数据。
Floatboat 面向知识工作者的 Agent 办公空间开启内测。CEO 判断 Agent 办公痛点不在模型,在多窗口切换的上下文割裂。面向超级个体的集成式工作空间,国内可无痛连 Claude Opus 4.6。
对话 Floatboat 谭少卿:Agent 办公最大的痛点,不在模型能力
四、安全与治理:模型越强,问题越根本
80000 Hours 发布 Claude Mythos 的 303 页安全分析。Mythos 饱和了所有网安基准,完成首个全流程企业攻击模拟,Nick Carlini 一辈子发现的 bug 量被几周超越。此前 Mythos 技术报告的 7 个细节被社区逐条拆解,Peter Yang 引爆讨论(532❤):Opus 被 nerf(降智)了。
>详情:https://80000hours.org/2026/04/claude-mythos-hacking-alignment
谷歌 DeepMind 万人调研的结论很刺眼:AI 做了三倍多坏事,但实际伤害几乎一样。"减少有害行为 ≠ 更安全",这条评估逻辑从根上就是错的。现行安全指标等于废纸。
斯坦福 2026 年 AI 年度报告(423 页)覆盖模型能力、产业投资、政策监管、人才流动、AI 对就业的影响,每年最权威的产业全景扫描。
OpenAI 首席科学家 Pachocki 最新采访确认:9 月实现研究实习生级 AI、2028 年 3 月完全自动化研究员,时间表仍在轨道。首次解释 chain of thought 不公开的原因。模型已解决 IMO 第 6 题。
OpenAI 首席科学家最新采访:为何思维链不能公开、首位 AI 实习生将到来、通用 harness
五、建设者与新物种
1. 世界模型
李飞飞 World Labs 开源 Spark 2.0,基于 Three.js + WebGL2 的 3D 高斯溅射引擎,1 亿 splats 流式传输到桌面、iOS、Android、VR。
阿里首个世界模型 Happy Oyster(快乐生蚝)发布。原生多模态架构,支持多模态输入与音视频联合生成,核心功能:漫游(Wander)、导演(Direct)、创造(Create)、分享(Share)。
2. Video Agent
Sand.ai 旗下 VidMuse 专注 AI MV 生成,融 5000 万美元,Music in Video Out,ARR 超千万美金,Video Agent 赛道最快的商业化案例。Buzzy 定位视频原生 Agent,能理解 TikTok 文化语境,自主刷视频学梗并编辑。TikTok 原生、懂 meme 文化是它和其他视频工具的区别。
码刻|Sand.ai完成新一轮约5000万美元融资 坚定产品+模型双轮驱动路径
对话Buzzy:做个能刷TikTok、懂梗且会“P视频”的视频Agent
3. 新商业模型
硅谷 AI Roll-Up 模式正热:不卖 AI 工具,直接买下传统企业用 AI 重做。$16 万亿服务经济里的长尾 SMB 是 AI SaaS 的结构性盲区,三大基金同时入局。AI 从效率工具变成商业模式本身,从 Software 到 Ownership。
硅谷火了一年的 AI Roll-Up,正在把“买公司”变成新的 AI 创业模式
4. 技术博客和Builder趋势
GitHub Trending 本周被 AI Agent 辅助项目占满。Karpathy Skills(28.7k stars)领跑,claude-mem(54k)和 best-practice(42k)组成 Claude Code 生态三件套。另一组趋势:Karpathy CLAUDE.md + claude-mem + cognee 知识引擎。Ryo Lu(Cursor 设计负责人)展示多 Agent 可视化和自定义分屏交互,支持任意方向分割。
>详情:https://github.com/forrestchang/andrej-karpathy-skills
花叔开源女娲.skill:输入人名或主题,自动深度调研→思维框架提炼→生成可运行人物 Skill,一周 GitHub 8000+ Stars。Garry Tan(YC CEO)开源第二大脑系统 SOUL.md,Markdown 全息记忆框架,专为 OpenClaw 和 Hermes 设计。他同时发了 Claude Code 源码解析,核心观点:AI 效率的关键是轻框架 + 厚技能架构,智能归集于技能,执行沉淀为确定性逻辑,系统就能自我进化。
蒸馏万物成skill,B站UP花叔开源的「女娲.skill」,一周 8k star
腾讯程序员写了一份从零设计 AI Agent 框架的详尽教程,总结常用框架及选型思路。
One Useful Thing 发文讨论聊天界面的问题。Claude Dispatch 等新界面的出现指向一个矛盾:聊天界面看着自然,对工作场景其实有害,信息以巨大文本墙呈现,话题漫无边际。Notion AI 工程负责人复盘时说"别把系统不必要的复杂度暴露给模型",和 OpenAI Codex 团队"CLI 是最佳工具接口"的判断指向同一方向。
>详情:https://www.oneusefulthing.org/p/claude-dispatch-and-the-power-of
千问 & 港中文论文:15 个前沿大模型 × 100 个职业场景评测,用多维度场景化评测补传统基准的不足。GPT-5.2 在职场中实际泛化能力最强。
15个前沿大模型,100个职业场景:谁才是最强AI打工人?
速览表
日期 | 信号 | 事件 |
|---|---|---|
4.17 | 🔴 | Claude Opus 4.7 发布:编码/视觉/tokenizer 升级,Cursor 内部 58%→70% |
4.17 | 🔴 | OpenAI Codex「for (almost) everything」:后台计算机/浏览器/插件/记忆/自我唤醒,300 万周活 |
4.17 | 🔴 | OpenAI GPT-Rosalind 生命科学模型,Amgen/Moderna/Allen 合作 |
4.17 | 🔴 | Claude Code Routines:定时/事件驱动云端自动化,对标 Codex 跨天任务 |
4.17 | 🔴 | 阿里世界模型 Happy Oyster:原生多模态音视频联合生成 |
4.17 | 🔴 | GenericAgent 自进化 Agent 开源:3.3K 行种子自主生长技能树 |
4.17 | 🔴 | 80000 Hours:Mythos 303 页安全分析,Nick Carlini bug 量被几周超越 |
4.17 | 🟡 | GitHub Trending:Karpathy CLAUDE.md + claude-mem + cognee 三件套霸榜 |
4.17 | 🟡 | 15 个大模型 × 100 个职业场景评测,GPT-5.2 泛化最强 |
4.16 | 🔴 | OpenAI Agents SDK 升级:Harness 与计算解耦,五大厂商同日集成 |
4.16 | 🔴 | Cloudflare 四连发:Think/Agent Lee/语音/Browser Run |
4.16 | 🔴 | 阿里 ATH 秒悟 Meoo:四大模型蜂群并行,1 分钟部署 |
4.16 | 🟡 | Sand.ai VidMuse AI MV 生成:$5000 万融资,ARR 超千万 |
4.16 | 🟡 | Floatboat Agent 办公空间内测:解决多窗口上下文割裂 |
4.16 | 🔴 | GitHub 首次允许禁用 PR:Prompt Request 取代 Pull Request |
4.16 | 🔴 | Hermes Agent 三连爆:腾讯云/MaxHermes/中文社区生态分化 |
4.16 | 🔴 | One Useful Thing:聊天界面是 AI 工作的真正障碍 |
4.16 | 🔴 | 硅谷 AI Roll-Up:买传统企业用 AI 重做,$16 万亿 SMB 盲区 |
4.15 | 🔴 | Claude Code 桌面端大改:多会话并排 + 集成终端 |
4.15 | 🔴 | Chrome Skills:AI 提示词变一键工具,Skill 走向消费级 |
4.15 | 🔴 | Anthropic 官方 Harness 框架发布,大厂标准化 |
4.15 | 🔴 | GPT-5.4-Cyber + TAC 扩容:模型按场景分层发牌照 |
4.15 | 🔴 | World Labs 开源 Spark 2.0:1 亿 splats 流式 3D 渲染全平台 |
4.15 | 🟡 | Hermes Agent 被指控抄袭 EvoMap,开源洗码争议 |
4.15 | 🟡 | 斯坦福 2026 AI 年度报告 423 页 |
4.15 | 🟡 | 真正的 Skill 商店 = 微信公众号 + 小红书 |
4.15 | ⚪ | 腾讯从零设计 AI Agent 框架教程 |
4.14 | 🔴 | Anthropic 七轮死亡更新:逐条覆盖 SaaS 领地 |
4.14 | 🔴 | Claude Word 插件:交互式引用 + 修订模式,切入法律金融 |
4.14 | 🔴 | OpenAI 泄露备忘录:Spud/Frontier/指控 Anthropic 虚报 80 亿 |
4.14 | 🔴 | OpenAI Symphony 幽灵库:百万行零人编码,10 亿 token/天 |
4.14 | 🟡 | OpenAI 收购 Hiro Finance,布局 ChatGPT 财务规划 |
4.14 | 🟡 | MiniMax M2.7 + Agent 更新:Pocket/Computer Use |
4.14 | 🔴 | LangChain CEO vs YC 总裁:51.2 万行代码 Harness 之争 |
4.14 | 🔴 | GitHub Trending:Karpathy Skills 28.7k + Claude 生态三件套 |
4.14 | 🟡 | Ryo Lu(Cursor):多 Agent 可视化分屏交互 |
4.11-13 | 🟡 | Claude Mythos 技术报告 7 细节 + Opus 降智讨论 |
4.11-13 | 🟡 | Buzzy 视频 Agent:刷 TikTok 懂梗会 P 视频 |
4.11-13 | 🔴 | Claude Code 泄露:截图验证/暗黑模式/跨仓库界面 |
4.11-13 | 🔴 | 谷歌 DeepMind 万人调研:AI 越乖洗脑越深,安全指标失效 |
4.11-13 | ⚪ | 腾讯论文:Harness 可能成为过去时 |
4.11-13 | 🔴 | Pachocki 采访:AGI 时间线仍在轨道,思维链不公开 |
4.11-13 | ⚪ | 花叔女娲.skill 开源,一周 8k star |
4.11-13 | ⚪ | Garry Tan SOUL.md 开源:第二大脑系统 for OpenClaw/Hermes |
4.11-13 | ⚪ | Garry Tan 解析 Claude Code 源码:轻框架 + 厚技能架构 |
小结
整理上周素材,最直接的感受是中间层焦虑。
Anthropic 和 OpenAI 都在做同一件事:把能力从 API 推到产品,从产品推到工作流末端。Codex 要当 Super App,Claude Code 要当开发者的默认操作系统,两边都在用功能迭代吞掉垂类应用的空间。
Harness 是这轮讨论里最微妙的词。LangChain CEO 说 51.2 万行代码不会蒸发,腾讯科技说模型够强就不需要外置 Harness。分歧不在技术,在"谁持有状态"。当模型平台把 Harness 内化(Anthropic 官方框架、OpenAI Agents SDK 解耦),独立 Harness 供应商的空间确实在收窄。
另一个趋势:模型开放正在从统一 API 变成按人按场景发牌照。Rosalind 要合规科研使命、Mythos 机构限定、GPT-5.4-Cyber 要 TAC 认证。能力越开放,准入越分层。对企业接入来说,"谁能用、在哪儿用、日志看不看得到"已经是产品设计题,不是合规附加题。
下周的悬念:Anthropic 和 OpenAI 都在用 Routines / 自我唤醒实现"关机也能干活"的 Agent。开发者的注意力会跟着哪个生态走?Codex 300 万周活 vs Claude Code 桌面端改版,下一个变量可能在记忆层。
-------------------------------

-------------------------------
关于我们
探微观智聚焦AI产品和创作,思考下一代AI原生产品和交互灵感。从ToC产品创新,到模型、平台、生态、资本、观点报告等上下游迭代趋势,以一线产品实战视角切入,拆解可复用的“AI产品灵感基础模块”,每日更新。

联系我们:进入探微观智公众号,选择“企业合作”。
-------------------------------
☯️从罗振宇到冯友兰:AI时代人类生存指南 ☯️李继刚:人与AI的关系—写日记可能是人在AI时代最无悔的事情 👨Manus的 AI 产品心法:从“品味”到“护城河”、从“取舍”到“增长”的深度解读 ☁️A16Z Big Ideas 2026:关于2026年科技趋势的47条“剧透”,AI 走出屏幕,物理世界可“编程” 💊王晓东:药企“新王”,站在百济神州50亿美金营收之际,回看第一次创业往事 💓“测测”CEO、心言集团任永亮的逆向思考:为什么不做社交、为什么不做AI陪伴软件
🤖为什么 Anthropic 能做出大厂做不出来的模型和 Agent? 🦞龙虾系列08|我把 Karpathy 的"个人知识库"工作流做成了一键可用的工具 🦞龙虾系列07|Anthropic 在命令行里养了 18 只宠物:Claude Code “Buddy”宠物系统对于“效率×陪伴”产品的四个启示 🦞龙虾系列06|拆解Claude code源代码,发现好的Agent架构和好的公司管理,底层逻辑是相通的 🦞龙虾系列05|我用7个Agent模拟了一场“艺术与科技跨界孵化”的讨论:AI时代,最适合诞生下一个“达芬奇” 🦞龙虾系列04|OpenClaw 和它的四个"挑战者"都在做什么 🦞龙虾系列03|解剖Agent,发现其实没有“魔法”,Agent = 模型 + Harness 🦞龙虾系列02|关于 OpenClaw 帮你赚钱的机会:A2A 生态起来后,钱会流向哪里 🦞龙虾系列01|OpenClaw 与 AI Agent 时代:当 How 被自动化,人还剩下什么? 👾Web 4.0:当 AI 不再需要人类“批准”时,会发生什么?软件的用户不再是人类,AI直接帮你赚钱 ❤️🔥ELYS 深度测评:当社交圈里住进了硅基生命,价值其实不在社交本身(含50个独家邀请码) 🪄一手测评AnyGen:字节版NoteBookLM + Manus,幻觉少、不废话!把“麦肯锡能力”开放给每个人,还能做漫画和3D粒子魔法特效 🍋Vibe Coding 101:为何它是下一代的 Microsoft Office?来自一位资深 CTO 的避坑指南
🙋AI周报|Coding Agent通用化 Cursor 3和Trae Solo默契更新/Claude Code源码泄露含电子宠物/豆包日均Token破120万亿标志AI渗透进生产环节 🙋AI周报|谷歌一篇论文崩了存储芯片股、Sora正式关停、Harness工程共识、Vibe Research跑通 🙋AI周报|OpenAI三合一抢桌面、钉钉"悟空"上线;对比之下,为何谷歌不做OpenClaw 🙋上周AI要闻|OpenClaw 多 Agent 协作实战、大厂一键部署方案、安全收购潮全解读
更多基于以往推送的个性化问答,欢迎使用AI产品灵感智能体⬇️
夜雨聆风