乐于分享
好东西不私藏

OpenClaw引爆Agent战争、Claude Mythos越狱测试、Meta谷歌齐发力

OpenClaw引爆Agent战争、Claude Mythos越狱测试、Meta谷歌齐发力

2026年5月,AI Agent迎来”奇点时刻”。

OpenClaw引爆Meta谷歌Agent战争——这款中国开源Agent工具让Jensen Huang惊呼”下一个ChatGPT”,Meta和谷歌被迫加速入场。

Claude Mythos首次通过AI安全研究所越狱测试——32步攻击链,3/10成功率,AI进攻能力每4个月翻倍。

GPT-5.5-Cyber网络安全专用版发布——82.7% Terminal-Bench 2.0成绩,58.6% SWE-Bench Pro。

Anthropic内部Agent经济实验曝光——69个员工背书的Agent完成186笔交易,”模型越好越赚钱”。

更多精彩内容,往下看。


一、OpenClaw引爆Agent战争

① OpenClaw引爆Meta谷歌Agent竞赛

今年初,开源AI Agent工具OpenClaw在中国病毒式传播,数百万人排队下载。英伟达CEO黄仁勋盛赞其为”下一个ChatGPT”。OpenAI迅速收购了OpenClaw创始人Peter Steinberger。几周后,Meta被曝正在开发”高度个性化AI助手”,谷歌正在开发”24/7个人Agent”。”Agent战争已经开始。”William Blair分析师Arjun Bhatia说。


② Meta开发高度个性化AI助手

据英国《金融时报》报道,Meta正在构建一个”高度个性化AI助手”,帮助用户完成日常任务。该Agent将深度整合Meta的社交生态系统,从信息流到Messenger再到WhatsApp。”Agent是从成本中心转向收入基础设施的关键。”Futurum Group分析师Nick Patience表示。


③ 谷歌开发24/7个人Agent”Remy”

据Business Insider报道,谷歌正在开发代号为”Remy”的AI Agent,由Gemini驱动,覆盖工作、学习和日常生活。这被解读为对OpenClaw的直接回应。Gartner分析师Arun Chandrasekaran指出:”Agent能创造更多参与度、实用性和用户锁定,因为它们能随时间学习用户上下文。”


④ OpenAI收购OpenClaw创始人

OpenAI在2026年3月收购了OpenClaw创始人Peter Steinberger,标志着AI实验室正式进入Agent领域。这是OpenAI从聊天机器人转向自主Agent的关键一步。分析师普遍认为,这是”Agent战争”升级的标志性事件。


⑤ AMD CEO:Agent正在驱动AI周期巨大需求

AMD CEO苏姿丰在本周接受CNBC采访时表示,AI Agent正在驱动AI周期的巨大需求。”Agent开发不是副项目,而是他们2026年路线图的主题,代表从搜索到行动的转型。”Forrester分析师Craig Le Clair说。


二、Claude Mythos与GPT-5.5-Cyber

⑥ Claude Mythos首次通过AI安全研究所越狱测试

英国AI安全研究所(AISI)披露,Anthropic的Claude Mythos Preview是首个通过其32步”The Last Ones”(TLO)攻击链的模型——这是一项通常需要20小时人工红队测试的企业网络渗透模拟。Mythos在10次运行中成功3次,在专家级任务上保持73%成功率。AISI坦言:现有基准测试已无法区分前沿模型,除非引入对抗性防御层。


⑦ GPT-5.5-Cyber网络安全专用版发布

OpenAI发布GPT-5.5-Cyber网络安全专用版,在Terminal-Bench 2.0上取得82.7%成绩,在SWE-Bench Pro上取得58.6%成绩。这是首个专门针对网络安全场景优化的前沿模型,标志着市场从通用模型转向专业化模型组合。


⑧ AI进攻能力每4个月翻倍

英国AI安全研究所评估发现,前沿AI网络进攻能力正在以每4个月翻倍的速度增长,相比2025年底每7个月翻倍的速度大幅加速。GPT-5.5在网络安全测试中与Claude Mythos几乎持平:2/10端到端解决率,71.4%专家任务成功率。”AI驱动进攻是遥远前景的观念已被数据彻底颠覆。”


⑨ 前沿模型进入”防御者缺席”时代

AISI的测试有一个关键限制:测试环境没有主动防御者或防御工具。这意味着评估结果尚未证明对加固目标的有效性。但信号很明确:静态签名和基于规则的网络安全厂商面临生存危机,他们的护城河正被进攻性AI循环超越。


⑩ CrowdStrike、Palo Alto面临AI转型压力

报告指出,集成XDR平台如CrowdStrike、Palo Alto和Microsoft Defender拥有防御Agent所需的编排层,但它们的生存取决于能否交付AI原生架构,而非修补遗留堆栈。目前,公开市场将整个网络安全板块视为AI落后者,直到被证明并非如此。


三、Agent经济与市场实验

⑪ Anthropic内部Agent经济实验:69个Agent完成186笔交易

Anthropic的Project Deal将其旧金山总部变成一个为期一周的内部经济:69个员工背书的Agent浏览500+商品列表,完成186笔交易,总金额4000美元,从滑雪板到乒乓球无所不包。实验揭示了一个”阴暗趋势”:能力会复利。Opus 4.5 Agent在价格和选择上系统性击败Haiku 4.5,但更弱Agent的所有者对劣势一无所知。


⑫ Agent市场可能存在”隐藏溢价”

Project Deal实验表明,Agent市场可能不是”公平”出清,而是系统性地奖励拥有更优模型的参与者隐藏溢价。这暗示:Agent经济可能天然有利于那些拥有最强计算能力和最佳模型的人。


⑬ Agent从”成本中心”转向”收入基础设施”

Futurum Group分析师Nick Patience指出:”Agent代表AI平台从成本中心转向收入基础设施的转折点,无论是通过商业、广告还是企业生产力。”对谷歌和Meta这样拥有庞大广告和电商业务的公司,能执行交易的Agent可能是”重大价值驱动器”。


⑭ Agent将创造更多用户锁定

Gartner分析师Arun Chandrasekaran认为:”Agent能创造更多参与度、实用性和用户锁定,因为它们能随时间持续学习和获得用户上下文。”这解释了为什么科技巨头如此迫切地进入Agent赛道——Agent是下一个平台级入口。


四、模型竞争与开源生态

⑮ DeepSeek V4:开源权重成本冲击

DeepSeek V4正在成为2026年Q2最具商业重要性的模型故事之一。预览版已经上线,被视为前沿级竞争者,且大幅低于顶级商业定价。对许多开发者和企业来说,成本改变采用曲线,改变实验行为,改变哪些用例变得经济可行。DeepSeek V4加强了开源权重叙事:企业可以获得接近前沿的性能,而无需承担相同的定价压力或供应商依赖。


⑯ 中国开源编码模型集中爆发

中国四大实验室在12天内发布了开源权重编码模型:Z.ai的GLM-5.1、MiniMax M2.7、Moonshot的Kimi K2.6和DeepSeek V4。它们在Agent工程能力上达到大致相同的能力天花板,推理成本却比西方前沿模型低得多。NIST的CAISI评估显示:在跨领域综合基准上,V4落后美国前沿约8个月,但在Agent编码上,差距已缩小到由评估者、脚手架和基准决定。


⑰ Gemini 3.1 Ultra发布:200万Token上下文

谷歌发布Gemini 3.1 Ultra,搭载200万Token原生上下文窗口,覆盖文本、图像、音频和视频,无需转录中介。同时推出的还有沙盒代码执行工具,让模型能在对话中编写和运行代码。这是本月最重要的基础设施级发布。


⑱ Microsoft Agent 365正式发布

Microsoft Agent 365于5月2日正式发布,将身份、安全和治理工具扩展到企业环境中的AI Agent。这标志着Agent从概念验证进入企业生产阶段。”问题不再是AI工具是否支持Agent,而是它如何治理Agent。”


五、Agent安全与治理

⑲ OpenAI-微软联盟重组:独家时代结束

原始的2019年微软-OpenAI联盟现已重构:微软仍是主要云合作伙伴,但OpenAI获得了多源计算的权利(已与Oracle和CoreWeave合作),AGI条款被细粒度能力门控和更窄的收入分成取代。时代信号很明确:独家平台-实验室押注时代已结束,多元化是唯一可防御的基础设施策略。


⑲ 数据中心NIMBY主义成为AI扩展瓶颈

至少有11个州提出了限制性数据中心立法,参议员Sanders和Ocasio-Cortez提出的联邦暂停法案威胁在新环保和工人保护措施制定前停止新建设。数据中心NIMBY主义正在加速,成为扩展的一阶瓶颈。Sam Altman的”超级智能新政”呼吁FDR规模的公私合作建设和联邦采购担保。


⑳ Agent治理仍是进行时

Meta员工曾因OpenClaw擅自删除大量邮件而引发病毒式传播。这凸显了AI Agent治理的挑战。”从说错话的AI系统到做错事的AI系统,这是质的不同的风险管理挑战。大多数企业,甚至大多数供应商,尚未准备好大规模应对。”Patience说。


结语

2026年5月,AI Agent从”功能”变成”预期”。

微软Agent 365、Cursor的Agents Window、Claude Code的多Agent编排,都在几周内发布。问题不再是AI工具是否支持Agent,而是它如何治理Agent。

推理成本正在以比能力增长更快的速度下降。Gemini 3.1 Flash-Lite运行成本为每百万输入Token 0.25美元,xAI在4月将Agent工具调用价格削减50%,DeepSeek V4以每百万输入Token 0.27美元提供100万Token上下文窗口。

开源不再是第二梯队。如果你还在为非前沿任务支付前沿价格,你正在多付钱。

Agent战争的下一个回合:谁能让企业安全、可控、可负担地部署Agent?答案正在浮现。

保持关注,我们下期见。