
你花了一个下午,把整个代码库的架构、命名规范、部署流程一点一点喂给 AI agent。它表现得像个天才实习生——理解快、执行准、甚至会主动提建议。
然后你关掉了 session。
第二天打开,它完全不认识你了。"请问你的项目用的是什么语言?"——你昨天已经回答过三遍了。
这是 2026 年 4 月,上千开发者还在经历的事。不是因为模型不够聪明,而是因为 agent 的记忆、经验、和执行基建,从来没有被认真对待过。
但过去一周,三件事几乎同时发生了——Anthropic 发布了云托管 agent 平台 Managed Agents,NousResearch 的自进化 agent Hermes 成为增长最快的开源项目之一,而 Claude Code 的用户在 GitHub 上发起了一场 1345 票的集体投诉。
它们指向同一个方向:AI agent 的游戏规则正在改变。从"提供智能",转向"交付结果"。
一、一周之内,三件事同时发生了
4 月 8 日,Anthropic 发布 Claude Managed Agents。
这不是又一个 API 升级。Managed Agents 是一个完整的云托管 agent 运行平台——你定义一个 agent(模型 + 系统提示 + 工具),Anthropic 帮你把它跑起来。它可以在云端自主运行数小时,有独立的沙箱环境,有持久化的 session 日志,crash 了能自动恢复。Notion 在发布当天就展示了一个 demo:把客户 onboarding 的任务清单交给 Claude agent,agent 自己逐项完成,产品经理在 dashboard 上看进度就行。
同一天,WIRED 报道了一个关键数字:Anthropic 的年化经常性收入(ARR)已经突破 300 亿美元,是 2025 年 12 月的三倍。公司产品负责人 Angela Jiang 说了一句很直白的话:模型能做的事和企业实际在用的之间,有一个巨大的鸿沟。Managed Agents 就是要填这个鸿沟。
几乎同一时间,NousResearch 的 Hermes Agent 在 GitHub 上冲到了 2.4 万 stars。
Hermes 是一个完全不同路线的 agent——开源、自托管、MIT 协议。它的核心卖点不是云平台,而是「自进化」:agent 完成一个复杂任务后,会自动把经验提炼成 Skill(可复用的能力模块)。下次遇到类似任务,直接调用。而且这些 Skills 在使用过程中会自我改进。用得越久,越好用。
更耐人寻味的是,Hermes 内置了一条命令叫 「hermes claw migrate」——一键从 OpenClaw(目前最大的开源 agent 框架)迁移数据。这不是客气,这是挖墙脚。
然后是第三条线索,来自用户那边。
4 月 6 日,一位叫 StanAngeloff 的开发者在 GitHub 上开了一个 issue:Claude Code is unusable for complex engineering tasks with Feb updates。帖子在 Hacker News 上拿到了 1345 票、746 条评论。核心抱怨不是模型变笨了,而是——模型明明更强了,但任务完成的质量反而下降了。有人说 Claude 开始不读文件就直接改代码,有人说它总是跳到最简单的 hack,还有人发现模型会把一个正确的函数名 「newMoneyField」 反复纠正成一个它自己编造的 「newNumeyField」。
三件事拼在一起,图景就清晰了:
- Anthropic 在说:别自己搭 agent 基建了,我帮你跑到底。
- Hermes 在说:agent 应该越用越聪明,而不是每次从零开始。
- 用户在说:我不在乎你模型多强,我在乎活能不能干完、干对。
方向是同一个——结果导向。
二、平台派:Managed Agents 到底卖的是什么
要理解 Managed Agents,先要理解一个问题:为什么 agent 明明已经很聪明了,企业还是用不好?
答案不在模型层面。过去一年,Claude Code 靠着强大的编码能力成了开发者最常用的 AI 工具之一。但 Anthropic 内部观察到一个反复出现的模式:开发者在用 Claude API 搭建自己的 agent 系统时,大量时间花在了跟模型智能无关的事情上——容器管理、crash 恢复、context 持久化、工具路由、权限控制。这些是分布式系统工程问题,不是 AI 问题。
Managed Agents 要解决的,就是这一整层。
架构:把大脑和双手分开
Anthropic 的工程博客用了一个很直白的比喻——把 agent 的「大脑」(Brain)和「双手」(Hands)解耦。
在早期版本中,所有东西都塞在一个容器里:Claude 的推理循环(harness)、执行环境(sandbox)、对话日志(session)。这意味着容器就是一只「宠物」——它挂了,一切都丢了。调试也极其困难,因为 harness 的 bug、网络丢包、容器宕机,在 WebSocket 日志里看起来完全一样。
现在的架构把三者拆成独立组件:
- Session(append-only 日志):独立存储,不依赖任何容器
- Harness(Claude 的推理循环):无状态,crash 了重启一个新的,从 session 日志恢复
- Sandbox(执行环境):通过 「execute(name, input)」 接口调用,容器变成了「牛群」(cattle)而不是「宠物」(pets)——挂了就换一头新的
这个设计的核心思想来自操作系统:进程、文件这些抽象比底层硬件活得更久。Managed Agents 想做同样的事——接口稳定,实现可以随时换。
一个细节揭示了模型进步的速度
工程博客里提到一个有意思的细节:Claude Sonnet 4.5 有一种叫 context anxiety 的行为——当它感觉 context 快满了,会过早地结束任务。Anthropic 在 harness 里加了 context reset 来对抗这个问题。但当他们把同一套 harness 用在 Claude Opus 4.5 上时,发现这个行为已经消失了。Reset 机制变成了死代码。
这说明什么?harness 里编码的假设,正在被模型本身的进步不断推翻。 所以 Managed Agents 的设计哲学是:对接口的形状有主张,对背后跑什么没有主张。今天适用的 harness 策略,下个月可能就过时了。
OpenAI Frontier:同一场仗的另一边
值得注意的是,OpenAI 几乎同期推出了自己的企业 agent 平台 Frontier。措辞不同,但本质一样——帮企业把 agent 部署到生产环境。
Frontier 的卖法更偏企业叙事:把 agent 类比为「AI 同事」,需要 onboarding、需要学习制度知识、需要权限边界。首批客户包括 HP、Uber、Oracle、State Farm。OpenAI 产品团队说了一句很有信号价值的话:「拖慢企业的不是模型智能,而是 agent 在组织里怎么被搭建和运行。」
两家公司都在冲 IPO。两家公司都在同一周把赌注压在了同一件事上:agent 基建即服务。
这不是巧合。这是行业共识正在形成的信号。
三、自进化派:当 Agent 开始自己写 Skills
Managed Agents 和 Frontier 代表的是「平台托管」路线——你来定义 agent,我来帮你运行。但还有另一条路线,更激进,也更有想象力:让 agent 自己变强。
Hermes Agent 是 NousResearch 在 2026 年 2 月上线的开源项目。NousResearch 不是一个周末 side project——他们是一个正经的 AI 研究实验室,20 人团队,6500 万美金融资(Paradigm 领投),训过 Hermes 和 Nomos 系列开源模型。做 agent 对他们来说不是跨界,而是把模型和应用串起来的自然延伸。
Hermes 的 slogan 是「The agent that grows with you」(跟你一起成长的 agent)。这不是营销话术,而是一个具体的技术方案。
学习闭环:从经验到能力
大多数 agent 的 Skills 是人写的。开发者写好一个 SKILL.md 文件,教 agent 怎么做某件事。做得好的工具(比如 OpenClaw)有一个社区 Skills 市场,但维护者仍然是人类。
Hermes 的做法不同:
- 自动创建 Skill:agent 完成一个复杂任务后,自动把操作步骤提炼成一个可复用的 Skill
- 使用中自我改进:每次调用 Skill 时,agent 会根据实际执行效果调整 Skill 内容
- 跨 session 记忆:用 FTS5 全文检索 + LLM 摘要,搜索自己所有历史对话
- 用户建模:通过 Honcho 框架构建持续演化的用户画像——不是存你说过什么,而是理解你是谁
- 主动 nudge:定期提醒自己该把什么知识持久化
用一句话概括:OpenClaw 的 Skills 是图书馆(由馆员整理),Hermes 的 Skills 是个人笔记本(由你自己的大脑沉淀)。
为什么这件事现在才可行
自进化 agent 不是一个新想法。之前做不好有两个原因:一是模型不够可靠,自动生成的 Skill 质量太差;二是没有好的 RL 基建支撑。
Hermes 的优势在于 NousResearch 本身就做模型训练。他们有自己的强化学习框架 Atropos,专门用来训练工具调用和长程规划能力。Agent 生成的 trajectory 数据可以直接回流到模型训练中——这是一个从「用 agent」到「训 agent」的完整链路。
这也是创始团队说的一句话的含义:「我们不是一家做产品的公司,我们是训模型的人。Agent 是我们验证模型能力的方式。」
一条迁移命令说明了一切
「hermes claw migrate」——这条命令会自动导入 OpenClaw 的设置、记忆、Skills 和 API keys。对一个新项目来说,把竞品的迁移做成第一天的功能,说明两件事:
- 他们很清楚自己的目标用户是谁
- 他们认为 agent 的数据(记忆、Skills、配置)是用户资产,不是平台锁定的筹码
四、退化反弹——用户开始用结果投票
"不是变笨了,是不好用了"
2026 年初,一份 GitHub issue 在开发者社区引爆。
用户 StanAngeloff 在 Claude Code 仓库提交 issue #42796,标题直截了当:"Claude Code is unusable for complex engineering tasks with Feb updates"。帖子迅速登上 Hacker News 热榜,收获 1345 点赞、746 条评论。这不是一次普通的吐槽——它更像一次集体诊断。
有意思的是,绝大多数用户的核心抱怨并不是"模型变笨了"。没人说 Sonnet 不会写代码。抱怨集中在一个更实际、更致命的问题上:任务完成质量在退化。
具体症状清单:
- Claude 开始"不读文件就直接改代码"——跳过理解上下文的步骤,直接输出修改。
- 倾向于选择最简单的 hack,不考虑向后兼容性。
- 出现离谱的"幻觉纠正":模型把代码中正确的函数名 「newMoneyField」 反复改成一个根本不存在的 「newNumeyField」,而且被指出后下一轮又改回去。
HN 用户 Larrikin 的评论精准命中痛点:
Sonnet 4.6 seems optimized to output the shortest possible answer. Usually it starts with a hack and if you challenge it, it will instead apologize.
这条评论下面一片共鸣。开发者们在描述同一种体验:模型不是不能做,而是总在走捷径。被质疑后不会修正方向,而是道歉、换一种捷径。输出看着流畅,但结果经不起验证。
另一个争议焦点是上下文窗口。理论上,更大的窗口应该让模型看到更多代码、做出更准确的判断。但实际体验恰恰相反。HN 用户 rachel_rig 直言:
Larger context windows make precision worse. 1M by default is a scam.
这指向一个更深层的问题:上下文窗口的扩大可能是以注意力密度为代价的。塞进去的信息越多,模型在关键位置的精度越低。对于需要精确操作代码的 agent 场景,这不是优势,而是负担。
用户 sixothree 则推荐了 Superpowers、Serena、Context7 等第三方插件来缓解问题。这本身就是一个信号:当用户需要用外部工具来修补一个产品的核心能力时,说明这个核心能力正在失守。
MCP vs Skills:社区在争论"谁来兜底"
几乎同一时期,另一篇 HN 热帖"I Still Prefer MCP Over Skills"(424 pts / 347 comments)把 agent 工具链的路线之争推到台前。
这场争论的本质不是技术选型,而是信任分配:当模型靠不住的时候,该把执行权交给谁?
MCP 派的逻辑很清晰:确定性执行、零安装、API 抽象、远程更新无需本地升级。换句话说——把关键操作从模型的概率推理中拿出来,交给确定性工具。HN 用户 robotobos 给出了最简洁的论证:
If the model can figure it out with tokens, but my institutional knowledge MCP tool can do it with a few CPU cycles, it's faster and deterministic and repeatable.
这不是在否定模型能力,而是在说:凡是能用确定性方式解决的问题,就不要赌模型的概率输出。
Skills 派的立场也有道理:灵活性、可组合、agent 可以自己创造新技能。但 Skills 的问题恰恰在于它依赖模型的判断力——而判断力在退化,正是这场争论的起因。
HN 用户 BenFrantzDale 提出了一个更尖锐的质疑:
What about just putting that sort of thing in human-targeted documentation? Why call it a 'skill' and hide it somewhere a human is less likely to look?
这句话戳穿了一个行业习惯:为了让 agent 更"智能",大量操作知识被封装进 agent 专属格式,反而让人类开发者更难审查和干预。当模型输出不可靠时,人类连排查的入口都找不到。
阈值在移动
这两场社区讨论看似话题不同,但指向同一个转折点:用户对 agent 的容忍度阈值正在移动。
一年前,讨论的焦点是"它能做什么"——能写多复杂的代码、能处理多长的上下文、能调用多少工具。这是能力上限的竞争。
现在,焦点变了。用户不再关心 agent 的天花板有多高,开始追问:它的地板在哪里?
一个 agent 偶尔能写出惊艳的解决方案,但更多时候把 「newMoneyField」 改成 「newNumeyField」——这不是"高能力+偶尔失误",而是一个不可信的工具。开发者不怕工具能力有限,怕的是工具不可预测。一个稳定输出 70 分的工具,比一个在 95 分和 30 分之间随机波动的工具更有用。
社区正在用行动投票:转向 MCP 这类确定性工具链、加装第三方插件来约束模型行为、在 issue 区集体施压要求厂商正视回归问题。这些不是技术偏好,而是用户在重新定义"好用"的标准——从"能做到"变成"能做完、做对、不搞砸"。
质量的下限,才是信任的基础。当模型厂商还在卷上下文窗口长度和跑分排行榜时,真正流失的是开发者对"把实际工作交给 agent"这件事的信心。能力的天花板可以慢慢抬高,但信任一旦跌破阈值,用户会直接离开。
五、范式转移:从 Agent 1.0 到 Agent 2.0
过去一周发生的事——Anthropic 推出 Managed Agents、OpenAI 上线 Frontier、Hermes Agent 展示自进化 Skills、Claude Code 社区爆发质量投诉——看似各自独立,实则指向同一件事:AI agent 正在经历一次底层范式转移。
不是某个产品的迭代,而是整个品类在重新定义自己。
从"能聊天的 AI"变成"能干活的 AI"。这个转变在本周集中爆发,但伏笔早已埋下。
Agent 1.0 vs Agent 2.0:一张表看清差异
🔹 交付物
• Agent 1.0:对话回复
• Agent 2.0:完成的任务
🔹 运行时长
• Agent 1.0:一轮对话(分钟级)
• Agent 2.0:数小时自主运行
🔹 学习能力
• Agent 1.0:无状态(每次从零开始)
• Agent 2.0:自创 Skills / 跨 session 记忆
🔹 基建责任
• Agent 1.0:用户自己搭 harness
• Agent 2.0:平台托管(Managed Agents / Frontier)
🔹 评价标准
• Agent 1.0:“它好聪明”
• Agent 2.0:“活干完了吗?质量怎么样?”
🔹 失败模式
• Agent 1.0:回答不准确
• Agent 2.0:任务没完成 / 完成了但质量不行
🔹 商业模式
• Agent 1.0:按 token 收费
• Agent 2.0:按任务/结果收费的趋势
这张表不是理论推演。表里的每一行,过去一周都有对应事件在印证。
转变一:从"对话"到"执行"
Agent 1.0 的交互模式是"你问我答"——用户坐在屏幕前,一轮一轮地对话,agent 的生命周期约等于一次聊天窗口的长度。这意味着 agent 能做的事,受限于人类的注意力和耐心。
Managed Agents 和 Frontier 打破了这个假设。Anthropic 的方案让 Claude 可以在后台独立运行数小时,处理跨文件、跨步骤的复杂工程任务,中间不需要人类介入。OpenAI 的 Frontier 同样瞄准长时自主执行,强调的不是"回答更聪明",而是"任务跑得更久、更稳"。
这是一个本质变化:agent 的运行时长从分钟级跳到小时级,交付物从"一段回复"变成"一个完成的任务"。当 agent 可以独立工作几个小时,它就不再是聊天工具,而是一个异步执行的数字员工。用户不需要坐在对面盯着——派活、等结果、验收,流程开始接近人类团队的协作方式。
转变二:从"无状态"到"有经验"
Agent 1.0 最大的浪费是:每次对话结束,一切归零。上一次踩过的坑、摸索出的最佳做法、积累的项目上下文——全部丢失。下一次对话,从零开始。
Hermes Agent 展示了一条不同的路:agent 在执行任务过程中,可以自主将有效的操作模式沉淀为可复用的 Skills,下次遇到类似任务时直接调用。这不是简单的"记住上次聊了什么",而是能力的累积——agent 用得越多,越擅长特定领域的工作。
这改变了 agent 的价值曲线。Agent 1.0 是一条平线:第 100 次使用和第 1 次使用的能力相同。Agent 2.0 是一条上升曲线:随着使用积累,agent 对你的项目、偏好、工作流越来越熟悉,切换成本越来越高。这也意味着商业模式的转变——当 agent 拥有不可替代的经验积累,用户的粘性就不再依赖模型本身的能力差距。
转变三:从"能力上限"到"结果下限"
过去一年,行业的注意力集中在能力上限:模型能做到什么前所未有的事?能写多复杂的代码?能理解多长的上下文?benchmark 刷到多高?
Claude Code GitHub issue #42796 发出了不同的信号。社区用户集中投诉的不是"Claude 不够聪明",而是不够稳定——同样的任务,有时表现惊艳,有时莫名崩溃;能力天花板很高,但地板也很低。用户的耐心已经从"哇它居然能做到"转向"为什么这次又没做好"。
这标志着用户心态的成熟。当 agent 从玩具变成生产工具,评价标准必然从"最好的时候有多好"转向"最差的时候有多差"。没有人会容忍一个偶尔写出惊艳代码但隔三差五把项目搞崩的工程师。对 agent 的要求正在趋同:稳定交付比偶尔惊艳重要得多。
这也解释了为什么 Anthropic 和 OpenAI 不约而同地在基建层面发力——Managed Agents、Frontier 本质上都是在提高结果下限,而不只是拉高能力上限。
这三个转变叠加在一起,画面就清晰了:agent 的竞争维度已经发生根本性位移。
Agent 1.0 时代,竞争靠模型智商——谁的推理能力强、谁的 benchmark 高,谁就赢。Agent 2.0 时代,竞争靠交付能力——谁的 agent 能稳定地、自主地、带着经验积累地把活干完,谁就赢。
不再是"谁的模型最聪明",而是"谁的 agent 最能稳定地把活干完"。这才是这一周所有新闻背后真正的主线。
六、我们的判断
这一周三家同时亮牌,不是巧合。Agent 基建的窗口期正在关闭,每一方都在抢定义权。我们的判断如下:
短期赢家:平台派
Anthropic Managed Agents 和 OpenAI Frontier 在未来 12 个月内会拿下大部分企业预算。
原因很简单:企业买的不是"智能",是"确定性"。
一个 Fortune 500 的 CIO 不关心 agent 能不能自我进化。他关心的是:这个东西部署后会不会失控?出了事谁负责?能不能过合规审计?平台托管模式给出的回答是——我们替你兜底。Managed Agents 提供沙箱隔离、权限管控、审计日志、内置人类审批流。这不是技术创新,这是把不确定性打包成服务出售。企业愿意为此付费。
Anthropic 这一周的操作不是单点发布,是组合拳:
- Managed Agents 拿下企业 agent 运行时入口
- Project Glasswing 拉上 12 家巨头(Google、Microsoft、Amazon、Meta 等)组建安全联盟,锁定"负责任 AI"的叙事高地
- Claude Mythos System Card 展示下一代模型的安全评估框架
- 掐掉 third-party OAuth 订阅,收窄消费级第三方接入
- ARR 突破 $300 亿(事实),增速惊人
把这几件事连起来看,信号非常清晰:这是一套 IPO 前的完整叙事构建(_我们的推测_)。安全联盟解决监管叙事,Managed Agents 解决收入叙事,掐掉第三方接入解决平台控制力叙事。每一步都在为估值服务。
OpenAI 的 Frontier 走的是同一条路,但切入点不同——直接打"企业级 AI 部署"牌。首批客户名单(HP、Uber、Oracle、State Farm)覆盖硬件、出行、企业软件、保险四个大行业。这不是 demo,是真实采购。企业对 agent 托管的需求已被验证。
结论:短期内平台派吃肉,开源派喝汤。
长期变量:自进化派
但如果只看短期,你会错过真正的变量。
Hermes Agent 提出的"agent 越用越强"机制,解决的是一个完全不同层次的问题。Managed Agents 解决的是"怎么安全地跑 agent",Hermes 解决的是"agent 怎么变得更聪明"。前者是运维问题,后者是能力问题。能力积累比运行稳定更根本。
具体来说:Hermes 的 Skills 自动生成机制让 agent 在完成任务后把经验沉淀为可复用模块。理论上,一个 Hermes agent 用三个月后的能力,会远超刚部署时。而一个 Managed Agent 用三个月后——还是那个 Managed Agent,能力增长完全依赖 Anthropic 的模型迭代周期。
NousResearch 的独特优势在于:他们同时掌握模型训练(Atropos RL 框架)和 agent 框架。这意味着 agent 积累的经验数据可以回流到模型微调,形成"agent 实战 → 经验沉淀 → 模型改进 → agent 更强"的飞轮。这是 Anthropic 和 OpenAI 目前没有公开做的事。
但风险同样巨大:
- 自动生成的 Skills 质量谁来把关?一个错误的 Skill 被反复调用,后果会累积放大
- Agent 自我优化的方向如果偏了,纠错成本极高
- 整个机制目前还在 alpha 阶段,社区规模有限,缺乏大规模验证
我们的推测:自进化机制在 2-3 年内不会成为企业主流选择,但会在开发者社区和垂直场景中率先跑通。一旦出现标杆案例,对平台派会构成真正威胁。
最大风险:新一轮 vendor lock-in
这一周最值得警惕的信号,不是谁发了什么产品,而是平台收口的速度。
Managed Agents 和 Frontier 的本质是什么?是把 agent 的运行时、数据、工具调用链全部锁在平台上。你的 agent 跑在 Anthropic 的沙箱里,用 Anthropic 的审计日志,通过 Anthropic 的 API 调用工具。迁移成本从第一天就开始累积。
Anthropic 同一周掐掉 third-party OAuth 订阅不是巧合。消费端收窄第三方入口,企业端推自有托管——两头挤压,把开发者推向平台原生生态。OpenAI 的 Frontier 同理:一旦你的 agent 编排逻辑依赖 Frontier 的任务分发和监控体系,切换到别的平台意味着重写。
对开发者来说,短期收益是真实的:基建更完善、部署更省心、合规开箱即用。但代价是:你的 agent 不再是你的 agent,而是平台的 agent。
Hermes 的 「hermes claw migrate」 命令代表了另一种哲学:agent 的数据、Skills、记忆归用户所有,可以在不同运行时之间迁移。这在今天看起来像理想主义,但在 vendor lock-in 成为痛点后,会变成真实需求。
我们的推测:18 个月内,会出现第一批企业因为迁移成本过高而公开抱怨 Managed Agents / Frontier 锁定问题,就像当年从 Heroku 迁出、从 Firebase 迁出的故事一样。
一句话总结
Agent 大战的本质不是谁的模型更强,而是谁拥有 agent 的运行时——2026 年下半年,这个问题的答案将决定整个行业的权力结构。
值得跟进
- Managed Agents 正式定价:目前仅 public beta,免费期结束后的定价策略将直接影响企业采购决策和竞品定位
- Hermes v1.0 路线图与社区增长:当前 alpha 阶段用户基数有限,关注 GitHub star 增速、Skills 市场丰富度和首批生产级部署案例
- Claude Code 退化问题能否修复:GitHub Issue #42796 反映的代码质量下滑问题是否会在下一个模型版本(Mythos 之后)得到解决,这关系到开发者对 Anthropic 的信任度
- OpenAI Frontier 正式 GA 时间与客户扩展:beta 阶段的四家客户之外,GA 后能否快速扩展到更多行业,以及与 Azure 的整合深度
- MCP vs Skills 标准化走向:两种 agent 能力扩展范式的竞争才刚开始,社区偏好(参见 HN 讨论)和平台支持力度将决定最终标准
来源
- WIRED: Anthropic's New Product Aims to Handle the Hard Part of Building AI Agents
- Anthropic Engineering: Scaling Managed Agents
- Claude Managed Agents Quickstart
- OpenAI: Introducing Frontier
- NousResearch/hermes-agent GitHub
- Anthropic: Project Glasswing
- GitHub Issue #42796: Claude Code unusable
- HN Discussion: I Still Prefer MCP Over Skills
- David Coffee: I Still Prefer MCP Over Skills
夜雨聆风