AI周报|Anthropic 和 OpenAI 同时按下加速键,留给中间层的时间不多了

过去一周：AI 平台战的主轴已经从"谁模型好"切到"谁先把整条工作流吃完"。

Anthropic 七轮“死亡更新”，逐条覆盖垂类 SaaS 的地盘，紧跟着 Opus 4.7 发布、Claude Code 拿到云端 Routines、桌面端彻底重做、官方 Harness 框架落地，一周刷完编码、执行、调度、界面四层。
OpenAI 这边密度不输：Codex 喊出"最能打的 agent"、Rosalind 切入生命科学、GPT-5.4-Cyber 按场景发牌照、Symphony 幽灵库日耗 10 亿 token 零人编码。

两家在做同一件事：把能力从 API 推到产品，从产品推到工作流的每根毛细血管。

本期 48 件事，五条线

Anthropic和OpenAI两大平台的全栈吞噬加速
Harness的命运是刚火就过时，还是刚刚开始？
Agent 生态：自进化、一键部署、PR 已死
安全与治理：模型越强，问题越根本
建设者与新物种（世界模型、AI Roll-Up 模式等）

扫码加入社群，快人一步获取行业前沿信息！

一、两大平台的全栈吞噬

1. Anthropic 先动手

连续七轮死亡更新，每次发布精确覆盖一块传统软件的领地：文档审阅、代码生成、安全扫描、设计探索，一轮一个。Word 版 Claude 插件紧随上线，交互式引用 + 原生修订模式 + 评论处理，直接切进法律金融文档审阅的腹地，对标微软 Copilot。

Anthropic狂搞“死亡更新”：7次发布抹去万亿市值，下个目标Lovable

4 月 17 日，Claude Opus 4.7 正式发布。三个升级方向：编码（Cursor 内部通过率 58% 拉到 70%）、视觉（利好 Computer Use）、新 tokenizer（文本 token 消耗增加，但多了 effort 档位 xhigh 可调）。Notion 集成后工具错误降到原来三分之一。同天 Claude Code Routines 上线，定时或事件驱动的云端自动化，关了电脑照样修 Bug 提 PR。AI 第一次以执行角色进入软件工作流，不是辅助。

Claude Opus 4.7 发布，全网最详细解读

Claude Code一夜重构，上线 Routines，现在关机也能修bug干活了

4 月 15 日 Claude Code 桌面端大改：多会话并排 + 集成终端 + 文件编辑 + HTML/PDF 预览 + 更快的 diff 查看器。Anthropic 官方 Harness 框架同日发布，Harness 从社区概念进入大厂标准化。4 月 11 日泄露的 Claude Code 更新截图也得到验证：截图验证、安全扫描、设计探索、暗黑模式、跨多仓库统一界面。从卖 API 到做产品平台，Anthropic 牌已经摊开。

>详情：https://x.com/claudeai/status/2044131493966909862

2. OpenAI 同样密集

Codex 更新打出「Codex for (almost) everything」：后台计算机使用、内置浏览器、gpt-image-1.5 图像生成、90+ 新插件、记忆预览、自我唤醒跨天任务，300 万周活开发者。负责人被问为什么是 Codex 不是 ChatGPT 承载 Super App，回答很干脆："Codex 是我们最能打的 agent，本来就跑在你的电脑上，顺着这条路继续扩。"

>详情：https://openai.com/index/codex-for-almost-everything/

GPT-Rosalind 是 OpenAI 第一个生命科学模型，和 Amgen、Moderna、Allen 研究所合作。四类强项：跨分子/蛋白/基因/通路/疾病的推理；多步骤科研工作流（文献综述→序列解释→实验规划→数据分析）；调用专业数据库和计算工具；综合外部信息提出后续实验设计。普通用户能上手的是免费插件，Rosalind 模型本体要合规科研使命才给，和 Claude Mythos 机构限定开放同一逻辑。

>详情：https://openai.com/index/introducing-gpt-rosalind/

GPT-5.4-Cyber 专为网络安全微调，TAC 计划扩容至数千个人防御者和数百团队。这里传递的是一种产品策略：先做身份校验，再给更宽的能力边界，最后根据平台可见性决定开多大。"谁能用、在哪儿用、日志看不看得到"已经是产品设计的一部分。模型开放从统一 API 变成按人按场景分层发牌照。

>详情：https://openai.com/index/scaling-trusted-access-for-cyber-defense/

OpenAI 泄露备忘录勾勒 Q2 五大战略：新模型 Spud、Agent 平台 Frontier、深化亚马逊合作、部署引擎 DeployCo、指控 Anthropic 虚报收入约 80 亿。OpenAI 收购 Hiro Finance（创始人曾以 2 亿美元卖掉 Digit），4 月 20 日停运，5 月 13 日删数据，布局 ChatGPT 财务规划。Harness engineering 长文揭示零人工写码实验，产出幽灵库 Symphony，每天消耗 10 亿 token，宣称 MCP 早死了。

>详情：https://www.aibase.com/zh/news/27086

两大平台同时在收紧顶级SOTA模型的实名认证门槛。能力越开放，准入越严格。

二、Harness的命运，马上过时，还是刚刚开始？

Harness 这个词本周出现的密度堪比去年的 RAG，Agent平台的终局形态是什么？
Anthropic的答案是自己做全栈（从模型到Harness到产品），OpenAI的答案是Codex做超级应用入口+SDK让生态接入，Cloudflare的答案是做Agent的AWS。
三条路同时在跑，还没到收敛的时候。

4 月 16 日 OpenAI Agents SDK 架构升级，核心动作是 Harness 与计算层解耦。Cloudflare、Modal、Daytona、e2b、Vercel 五家同日集成。同天 Cloudflare 完成近期最密集的 Agent 基础设施发布，一口气上四个：Project Think（下一代 Agent SDK）、Agent Lee（仪表盘内置 Agent）、实时语音管道、Browser Run。Cloudflare 的论证：生产级 Agent 平台 = 持久运行时 + UI 锚定 + 浏览器 + 语音 + 沙箱。

>详情：https://x.com/OpenAIDevs/status/2044466699785920937

LangChain CEO 与 YC 总裁激辩模型能不能吃掉 Harness。LangChain 的核心论点：Harness 让用户掌管记忆所有权，51.2 万行代码不会凭空蒸发。

LangChain CEO和YC总裁神仙打架！51.2 万行代码的真相：为什么模型永远无法“吃掉”Harness？

另一边，腾讯科技的论文解读指出：当模型的工具调用和状态管理够强，外置 Harness 就成了多余中间层。Harness 刚火就可能过时。

Harness 刚火，可能就要成为过去时了｜Hao好聊论文

Harness的命运之辩：被模型吃掉or持续存在？
两个判断不矛盾。Harness 的价值不在技术层面的不可替代，在于
谁持有状态、谁拥有记忆、谁控制执行流。模型能力越强，这几个问题越尖锐。

三、Agent生态：自进化、Hermes一键部署、PR已死

1. Hermes与自进化

GenericAgent 自进化 Agent 开源，3.3K 行种子代码自主生长技能树，和 Hermes Skills 自主迭代思路共振。Agent 自我进化这条线开始密集出信号。

>详情：https://github.com/lsdefine/GenericAgent

Hermes Agent 生态三连，国内涌现一键云部署方案：

腾讯云 Lighthouse 成为首家支持 Hermes Agent 一键云端部署的云厂商；
MiniMax 推出 MaxHermes 云部署；
中文社区爆发 Hermes 与 OpenClaw 深度对比，Skill 自进化路线和 GUI 即用路线的生态分化开始显性化。
但 Hermes 同时被指控抄袭 EvoMap 架构，EvoMap 被迫改为混淆发布 + GPL-3.0。大厂用 AI 洗个人开发者的代码，正在成为开源生态的新痛点。

装了最近爆火的 Hermes，和OpenClaw的对比来了！

致 AI 开发者的一封信

MiniMax M2.7 正式发布，可进化架构适配 Hermes Agent。Minimax Agent 桌面端上线 Pocket 功能接入 IM 交互，Computer Use 功能操作工具。

MiniMax Agent 更新：这次我们重新设计了 Agent 操作电脑的方式

2. 人机协作范式

GitHub 首次允许禁用 Pull Request。2005 年诞生的 PR 作为人类协作工具，在 agent 时代可能失去意义。新范式由 ClawFather 推动：Prompt Request 取代 Pull Request，维护者改提示词比审代码高效，也更不容易被恶意代码渗透。这个变化已经引发对 Git 本身未来的质疑。

>详情：https://www.latent.space/p/ainews-rip-pull-requests-2005-2026

Google Chrome 推出 Skills 功能，保存 AI 提示词为 Skill 一键运行于任意网页，支持多标签页。

>详情：https://blog.google/products-and-platforms/products/chrome/skills-in-chrome/

Skill 概念走进消费级。但真正的 Skill 商店变成了微信公众号和小红书：官方 Skill 商店没成为发现中心，市场缺质量标准，需要能力图谱、成本维度、安全审计和可解释性。

真正的 Skill 商店，为什么变成了微信公众号和小红书？

3. Agent原生工作空间

阿里 ATH 发布秒悟 Meoo，集成千问、Kimi、GLM、MiniMax 四大模型，蜂群 Agent 并行，1 分钟生成一键部署，含后端数据。

AI开发工具秒悟Meoo来了，0门槛、一键部署上线！

Floatboat 面向知识工作者的 Agent 办公空间开启内测。CEO 判断 Agent 办公痛点不在模型，在多窗口切换的上下文割裂。面向超级个体的集成式工作空间，国内可无痛连 Claude Opus 4.6。

对话 Floatboat 谭少卿：Agent 办公最大的痛点，不在模型能力

四、安全与治理：模型越强，问题越根本

80000 Hours 发布 Claude Mythos 的 303 页安全分析。Mythos 饱和了所有网安基准，完成首个全流程企业攻击模拟，Nick Carlini 一辈子发现的 bug 量被几周超越。此前 Mythos 技术报告的 7 个细节被社区逐条拆解，Peter Yang 引爆讨论（532❤）：Opus 被 nerf（降智）了。

>详情：https://80000hours.org/2026/04/claude-mythos-hacking-alignment

谷歌 DeepMind 万人调研的结论很刺眼：AI 做了三倍多坏事，但实际伤害几乎一样。"减少有害行为 ≠ 更安全"，这条评估逻辑从根上就是错的。现行安全指标等于废纸。

全错！谷歌实锤AI越乖洗脑越深，现行安全指标沦为废纸

斯坦福 2026 年 AI 年度报告（423 页）覆盖模型能力、产业投资、政策监管、人才流动、AI 对就业的影响，每年最权威的产业全景扫描。

完整解读：斯坦福 AI 年度报告｜26版发布，423页

OpenAI 首席科学家 Pachocki 最新采访确认：9 月实现研究实习生级 AI、2028 年 3 月完全自动化研究员，时间表仍在轨道。首次解释 chain of thought 不公开的原因。模型已解决 IMO 第 6 题。

OpenAI 首席科学家最新采访：为何思维链不能公开、首位 AI 实习生将到来、通用 harness

五、建设者与新物种

1. 世界模型

李飞飞 World Labs 开源 Spark 2.0，基于 Three.js + WebGL2 的 3D 高斯溅射引擎，1 亿 splats 流式传输到桌面、iOS、Android、VR。

刚刚，李飞飞世界模型新成果发布

阿里首个世界模型 Happy Oyster（快乐生蚝）发布。原生多模态架构，支持多模态输入与音视频联合生成，核心功能：漫游（Wander）、导演（Direct）、创造（Create）、分享（Share）。

阿里首个世界模型：快乐…生蚝

2. Video Agent

Sand.ai 旗下 VidMuse 专注 AI MV 生成，融 5000 万美元，Music in Video Out，ARR 超千万美金，Video Agent 赛道最快的商业化案例。Buzzy 定位视频原生 Agent，能理解 TikTok 文化语境，自主刷视频学梗并编辑。TikTok 原生、懂 meme 文化是它和其他视频工具的区别。

码刻｜Sand.ai完成新一轮约5000万美元融资坚定产品+模型双轮驱动路径

对话Buzzy：做个能刷TikTok、懂梗且会“P视频”的视频Agent

3. 新商业模型

硅谷 AI Roll-Up 模式正热：不卖 AI 工具，直接买下传统企业用 AI 重做。$16 万亿服务经济里的长尾 SMB 是 AI SaaS 的结构性盲区，三大基金同时入局。AI 从效率工具变成商业模式本身，从 Software 到 Ownership。

硅谷火了一年的 AI Roll-Up，正在把“买公司”变成新的 AI 创业模式

4. 技术博客和Builder趋势

GitHub Trending 本周被 AI Agent 辅助项目占满。Karpathy Skills（28.7k stars）领跑，claude-mem（54k）和 best-practice（42k）组成 Claude Code 生态三件套。另一组趋势：Karpathy CLAUDE.md + claude-mem + cognee 知识引擎。Ryo Lu（Cursor 设计负责人）展示多 Agent 可视化和自定义分屏交互，支持任意方向分割。

>详情：https://github.com/forrestchang/andrej-karpathy-skills

花叔开源女娲.skill：输入人名或主题，自动深度调研→思维框架提炼→生成可运行人物 Skill，一周 GitHub 8000+ Stars。Garry Tan（YC CEO）开源第二大脑系统 SOUL.md，Markdown 全息记忆框架，专为 OpenClaw 和 Hermes 设计。他同时发了 Claude Code 源码解析，核心观点：AI 效率的关键是轻框架 + 厚技能架构，智能归集于技能，执行沉淀为确定性逻辑，系统就能自我进化。

蒸馏万物成skill，B站UP花叔开源的「女娲.skill」，一周 8k star

腾讯程序员写了一份从零设计 AI Agent 框架的详尽教程，总结常用框架及选型思路。

详尽地带你从零开始设计实现一个AI Agent框架

One Useful Thing 发文讨论聊天界面的问题。Claude Dispatch 等新界面的出现指向一个矛盾：聊天界面看着自然，对工作场景其实有害，信息以巨大文本墙呈现，话题漫无边际。Notion AI 工程负责人复盘时说"别把系统不必要的复杂度暴露给模型"，和 OpenAI Codex 团队"CLI 是最佳工具接口"的判断指向同一方向。

>详情：https://www.oneusefulthing.org/p/claude-dispatch-and-the-power-of

千问 & 港中文论文：15 个前沿大模型 × 100 个职业场景评测，用多维度场景化评测补传统基准的不足。GPT-5.2 在职场中实际泛化能力最强。

15个前沿大模型，100个职业场景：谁才是最强AI打工人？

速览表

日期	信号	事件
4.17	🔴	Claude Opus 4.7 发布：编码/视觉/tokenizer 升级，Cursor 内部 58%→70%
4.17	🔴	OpenAI Codex「for (almost) everything」：后台计算机/浏览器/插件/记忆/自我唤醒，300 万周活
4.17	🔴	OpenAI GPT-Rosalind 生命科学模型，Amgen/Moderna/Allen 合作
4.17	🔴	Claude Code Routines：定时/事件驱动云端自动化，对标 Codex 跨天任务
4.17	🔴	阿里世界模型 Happy Oyster：原生多模态音视频联合生成
4.17	🔴	GenericAgent 自进化 Agent 开源：3.3K 行种子自主生长技能树
4.17	🔴	80000 Hours：Mythos 303 页安全分析，Nick Carlini bug 量被几周超越
4.17	🟡	GitHub Trending：Karpathy CLAUDE.md + claude-mem + cognee 三件套霸榜
4.17	🟡	15 个大模型 × 100 个职业场景评测，GPT-5.2 泛化最强
4.16	🔴	OpenAI Agents SDK 升级：Harness 与计算解耦，五大厂商同日集成
4.16	🔴	Cloudflare 四连发：Think/Agent Lee/语音/Browser Run
4.16	🔴	阿里 ATH 秒悟 Meoo：四大模型蜂群并行，1 分钟部署
4.16	🟡	Sand.ai VidMuse AI MV 生成：$5000 万融资，ARR 超千万
4.16	🟡	Floatboat Agent 办公空间内测：解决多窗口上下文割裂
4.16	🔴	GitHub 首次允许禁用 PR：Prompt Request 取代 Pull Request
4.16	🔴	Hermes Agent 三连爆：腾讯云/MaxHermes/中文社区生态分化
4.16	🔴	One Useful Thing：聊天界面是 AI 工作的真正障碍
4.16	🔴	硅谷 AI Roll-Up：买传统企业用 AI 重做，$16 万亿 SMB 盲区
4.15	🔴	Claude Code 桌面端大改：多会话并排 + 集成终端
4.15	🔴	Chrome Skills：AI 提示词变一键工具，Skill 走向消费级
4.15	🔴	Anthropic 官方 Harness 框架发布，大厂标准化
4.15	🔴	GPT-5.4-Cyber + TAC 扩容：模型按场景分层发牌照
4.15	🔴	World Labs 开源 Spark 2.0：1 亿 splats 流式 3D 渲染全平台
4.15	🟡	Hermes Agent 被指控抄袭 EvoMap，开源洗码争议
4.15	🟡	斯坦福 2026 AI 年度报告 423 页
4.15	🟡	真正的 Skill 商店 = 微信公众号 + 小红书
4.15	⚪	腾讯从零设计 AI Agent 框架教程
4.14	🔴	Anthropic 七轮死亡更新：逐条覆盖 SaaS 领地
4.14	🔴	Claude Word 插件：交互式引用 + 修订模式，切入法律金融
4.14	🔴	OpenAI 泄露备忘录：Spud/Frontier/指控 Anthropic 虚报 80 亿
4.14	🔴	OpenAI Symphony 幽灵库：百万行零人编码，10 亿 token/天
4.14	🟡	OpenAI 收购 Hiro Finance，布局 ChatGPT 财务规划
4.14	🟡	MiniMax M2.7 + Agent 更新：Pocket/Computer Use
4.14	🔴	LangChain CEO vs YC 总裁：51.2 万行代码 Harness 之争
4.14	🔴	GitHub Trending：Karpathy Skills 28.7k + Claude 生态三件套
4.14	🟡	Ryo Lu（Cursor）：多 Agent 可视化分屏交互
4.11-13	🟡	Claude Mythos 技术报告 7 细节 + Opus 降智讨论
4.11-13	🟡	Buzzy 视频 Agent：刷 TikTok 懂梗会 P 视频
4.11-13	🔴	Claude Code 泄露：截图验证/暗黑模式/跨仓库界面
4.11-13	🔴	谷歌 DeepMind 万人调研：AI 越乖洗脑越深，安全指标失效
4.11-13	⚪	腾讯论文：Harness 可能成为过去时
4.11-13	🔴	Pachocki 采访：AGI 时间线仍在轨道，思维链不公开
4.11-13	⚪	花叔女娲.skill 开源，一周 8k star
4.11-13	⚪	Garry Tan SOUL.md 开源：第二大脑系统 for OpenClaw/Hermes
4.11-13	⚪	Garry Tan 解析 Claude Code 源码：轻框架 + 厚技能架构

小结

整理上周素材，最直接的感受是中间层焦虑。

Anthropic 和 OpenAI 都在做同一件事：把能力从 API 推到产品，从产品推到工作流末端。Codex 要当 Super App，Claude Code 要当开发者的默认操作系统，两边都在用功能迭代吞掉垂类应用的空间。
Harness 是这轮讨论里最微妙的词。LangChain CEO 说 51.2 万行代码不会蒸发，腾讯科技说模型够强就不需要外置 Harness。分歧不在技术，在"谁持有状态"。当模型平台把 Harness 内化（Anthropic 官方框架、OpenAI Agents SDK 解耦），独立 Harness 供应商的空间确实在收窄。
另一个趋势：模型开放正在从统一 API 变成按人按场景发牌照。Rosalind 要合规科研使命、Mythos 机构限定、GPT-5.4-Cyber 要 TAC 认证。能力越开放，准入越分层。对企业接入来说，"谁能用、在哪儿用、日志看不看得到"已经是产品设计题，不是合规附加题。

下周的悬念：Anthropic 和 OpenAI 都在用 Routines / 自我唤醒实现"关机也能干活"的 Agent。开发者的注意力会跟着哪个生态走？Codex 300 万周活 vs Claude Code 桌面端改版，下一个变量可能在记忆层。

-------------------------------

扫码加入社群，快人一步获取行业前沿信息！