作者按:本文综合原始技术文件、最新新闻报道及前文核查框架,论证一个结构性判断:在当前商业竞争、国家安全部署和中美战略竞争的交叠结构下,真正可执行的同步减速机制已经基本失效。本文所说"刹车机制输给加速结构",不是指强RSI已经发生,而是指主要玩家主动、同步、可验证减速的政治路径已经基本封死——这里的"不可能"不是技术上无法设计协议,而是在当前中美战略竞争结构下,没有任何一方能承担率先真实减速的政治代价。AI递归自改进的风险,不源于某个公司"想作恶",而是因为所有主要玩家都被推入同一个加速结构。
证据等级说明
本文涉及多类来源,证据等级不同,读者应区分对待:
命题 | 等级 | 处理方式 |
Anthropic官网RSI长文及暂停倡议 | 官方一手材料 | 确定事实 |
Clark 2028年底前RSI >60%判断 | 个人分析预测 | 高权重专家判断,非事实 |
Mythos红队报告中的漏洞发现能力 | Anthropic官方报告+第三方核查 | 技术能力证据 |
Mythos被NSA用于进攻性网络行动 | FT匿名信源(两名知情人士),未获Anthropic官方确认 | 应认真对待,全文保留等级标注 |
IPO估值与融资规模 | 私募市场/财经媒体口径,非正式招股书披露 | 市场叙事背景,非最终确定数字 |
NSA实战反馈回流模型训练 | 推论 | 写作"制度性激励压力",非已证实技术闭环 |
一、起点:同一周发生的三件事
2026年6月第一周,三条信息同时出现。
其一,Anthropic在官网发布长文,以机构名义将强RSI的临近作为政策前提,呼吁以中美为首的主要AI公司建立"协调暂停机制"。联合创始人Jack Clark接受BBC采访时说:"我们有油门踏板,却没有刹车踏板。"Anthropic同时预判AI发展的三种可能路径,并将"AI系统彻底跨入全面自建其继承者的阶段"列为须认真对待的风险场景。 (来源:Anthropic官网,2026-06-04)
其二,据《金融时报》援引两名知情人士报道,Anthropic已向美国国家安全局(NSA)派驻约6名"前沿部署工程师",据报道帮助NSA将Mythos模型用于发起网络攻击。此报道依赖匿名信源,尚未获Anthropic官方确认;但鉴于FT的信源审核标准,它值得在保留等级标注的前提下认真对待。 (来源:Financial Times,2026-06-04)
其三,据私募市场信息及财经媒体报道,Anthropic已进入IPO申报窗口,市场对其估值(私募市场口径约3800亿美元,尚非正式招股书披露数字)、融资规模和盈利路径存在高度关注,盈利能力仍是投资人核心顾虑。 (来源:Forge Global,2026-06;KraneShares,2026-03)
真正重要的不是这三件事是否经过刻意编排,而是它们在IPO窗口期客观上构成了同一个结构性效果:呼吁踩刹车的机构,据报道同时在为国家安全体系提供进攻性AI工具,同时向资本市场出售"我们是少数有能力、也有资格负责任驾驭这头野兽的机构"这个故事。
二、现实已经走到哪里:三层确认
第一层:AI辅助AI研发——已经属实
这一层不是预测,是当前状态。Anthropic Claude Code负责人Boris Cherny于2026年1月公开表示,他本人过去两个多月100%的代码由AI生成;Anthropic公司范围估计约70%–90%。CEO Dario Amodei表示新版Claude模型"绝大多数"代码已由Claude本身写就。 (来源:Fortune,2026-01-29;CFR,2026-01)
中国方面,面壁智能ForgeTrain官方声称框架代码100%由AI Agent Loop生成,在H100上实现了比Megatron框架快10%的训练速度。需注意:生成该框架的Harness工具仍标注coming soon,公开可复现证据仍不足;且"100% AI生成"的前提是人类预先设定了任务边界、参考技术栈和验收标准。 (来源:ForgeTrain GitHub)
第二层:软性自我改进——已基本形成
Google DeepMind CEO Demis Hassabis将当前阶段描述为"软性自我改进":AI coding agent已经提高了工程师和研究员的产出效率,尤其在编程和数学领域,形成加速飞轮。 (来源:Axios,2026-05-26)
斯坦福2026 AI Index数据:美国与中国最强模型的性能差距已从2023年的17.5—31.6个百分点收窄至2.7%;双方在"AI写AI代码"方向上路径不同(美国侧流程自动化,中国侧算法效率),但方向一致。 (来源:The Next Web,Stanford AI Index 2026)
第三层:强RSI——尚未证实,但预警已升格为机构立场
Jack Clark在Import AI第455期明确写道,他得出2028年底前RSI发生概率超过60%的判断。这是个人分析预测,不是既成事实,对比参照是另一位研究者认为完全无人类参与的端到端RSI概率低于10%。 (来源:Import AI #455;Hashcollision Substack)
关键变化在于:这个判断在2026年6月已从"个人预测"升格为"机构性政策前提"——Anthropic以公司名义将其写入官网长文,并以此为据呼吁国际协调。预测的证据等级没有变,但其政治功能已经变了。
三、军事部署:加速结构的新维度
据FT匿名信源报道,Anthropic据报道向NSA部署Mythos用于进攻性网络行动,这件事的意义需要精确定位,需要区分两件不同的事。
它不能直接证明的是:网络战能力本身就是RSI能力,或者NSA实战中的反馈数据已经系统性回流到Anthropic的模型训练循环。FT报道能支持"协助部署"和"驻场工程师定制模型",但不能证明实战反馈已形成技术训练闭环,也不能将网络攻防能力直接等同于自我改进能力。
它能够证明的是:前沿AI能力已被国家安全体系认定为具有战略级进攻价值,并由此构成一种制度性加速压力。网络攻防能力一旦被国家安全体系吸收,就会反过来增加对更强自动化研发、更快模型迭代和更少人类介入的需求。这种需求即使不直接构成技术训练闭环,也会构成外部激励闭环——它持续拉高对下一代能力的要求,压缩任何局部暂停的政治空间。
Anthropic官方红队报告本身已经确认Mythos Preview的能力边界:能够在每一个主流操作系统和浏览器中识别并利用零日漏洞,超过99%已发现漏洞尚未被修复;扫描超过1,000个关键开源项目,识别出23,019个候选漏洞,经外部安全公司抽样验证的真阳性率达90.8%——这是抽样组的真阳性率,不是所有候选漏洞的整体比率。 (来源:Anthropic红队报告,2026-04-07;云安全联盟,2026-04-14)
这个制度性加速压力是对称的:中国方面面临完全相同的结构性约束。任何在军事AI领域落后的一方都面临无法承受的战略代价,这个逻辑不因任何公司的公开声明而改变。
四、"暂停"倡议的真实功能
Anthropic方案的制度逻辑要求中美主要前沿AI开发者同步、可验证地放缓。在当前地缘政治结构下,这在政治上是不可承受的——不是因为技术上无法设计协议,而是因为没有任何一方能承担率先真实减速的战略代价。那么这个倡议的真实受众是谁?
不是北京。是华盛顿、布鲁塞尔和华尔街。
对美国国会:为即将出台的AI监管法案提供话语框架。已有安全研究积累、红队报告、可解释性框架的机构,天然成为监管标准的参与制定者,而合规成本对新进入者构成壁垒。
对IPO投资人:展示"负责任治理"成熟度,降低监管不确定性折价。对于一家尚未盈利、估值高度依赖市场叙事的公司,"我们是少数有能力负责任地驾驭这项技术的机构"是比任何财务数据都更有力的护城河描述。
对欧盟监管机构:在《AI法案》执行细则谈判中占据话语位置。
这不是传统意义上已经完成的监管捕获,而是一种前置性监管塑形:已经跑在最前面的公司,通过参与定义安全标准和合规框架,把未来规则转化为潜在进入壁垒。执行者同时也是标准的起草参与者,合规成本的设计方向天然有利于已经具备合规能力的机构。
行为层面的矛盾更直接:据FT匿名信源报道,在呼吁暂停的同一周,Anthropic据报道正协助NSA部署进攻性AI。如果真实信念是"需要踩刹车",最直接的行动应该是自己先踩。这个落差本身是信息,无论动机如何。
五、为什么所有看起来像刹车的东西都不够用
这些刹车机制的问题各不相同:国际协调缺乏激励相容,监管框架缺乏速度和信息优势,对齐研究缺乏强制部署约束,公众舆论缺乏技术可见性。但它们共同的结果是:实际效果量级远低于加速力量。
国际协调协议:Anthropic方案的制度前提要求主要玩家同步、可验证地放缓。在高科技和军事领域,任何一方单边减速在政治上会被视为主动交出领先权。冷战军备竞赛的历史告诉我们:即使双方都清楚竞赛的危险,对称性压力依然压倒了减速意愿。AI竞赛目前没有触及让所有人都足够痛苦的对称性破坏节点——而到达那个节点时,某些关键窗口可能已经关闭。
监管框架:监管速度系统性落后于技术速度。欧盟《AI法案》从立法到执行细则落地历时数年,而前沿AI能力迭代以月为单位。更根本的问题是,前沿AI不是一个边界稳定、外部可充分检测的工业产品,而是一个能力边界持续移动、关键数据和评测高度内生于公司的系统。监管机构对其能力、风险和部署状态的理解,高度依赖被监管机构提供的信息。这个信息不对称从结构上保证了监管永远是追赶者,而标准制定过程本身又被有能力参与的机构所塑形。
对齐研究:Anthropic的可解释性研究和安全评估是真实的技术投入,这一点不应被否认。Clark本人也承认,安全研究的推进速度与能力增长速度不匹配。更重要的是,即使对齐研究在实验室环境中产生成果,它目前也没有机制在国家安全部署闭环中作为约束条件被强制执行。对齐研究更像是高速行驶中的减震系统,而不是能决定车辆是否继续加速的制动系统——它可以降低局部风险,却无法改变国家安全闭环和商业竞争闭环的总体方向。 (来源:Import AI #455)
公众压力与舆论监督:在技术细节高度专业化、信息严重不对称的领域,公众舆论能形成的实质性约束极为有限。发出最大声警示的人同时也是加速的执行者——这个结构性张力持续消解公众认知的清晰度,不是因为有人刻意欺骗,而是因为这两件事在当前结构下对同一机构都是理性选择。
六、终局的结构
综合以上分析,可以描述当前轨道的结构性特征:
军事部署所构成的制度性激励闭环已经形成并将持续强化。中美竞赛结构保证了没有任何一方能在对方不停的情况下单边退出。所有被讨论的减速机制——国际协调、监管框架、对齐研究、公众监督——其实际效果量级均远低于加速力量,且原因各不相同,不存在某种"如果修补某一个就能解决"的单点答案。
RSI失控的具体形态仍然开放,这是真实的认识论边界,不是安慰性的不确定性。但这种不确定性不是均匀分布的:在当前可见的结构条件下,概率分布严重偏向一侧。用不确定性作为叙事缓冲,是一种系统性的认知不诚实。
Jack Clark说"有油门没刹车"。这个比喻还不够完整。更准确的描述是:
油门已经踩死,刹车是否存在尚未可知,而坐在车里的人正在争论方向盘归谁——同时向车外的人出售"我们会负责任地开车"的保险单。
主要来源
原始/技术来源(可直接核验的第一手材料)
- Jack Clark, Import AI #455(RSI 60%分析原文):https://importai.substack.com/p/import-ai-455-automating-ai-research
- ForgeTrain GitHub(官方仓库,含当前版本范围说明):https://github.com/OpenBMB/ForgeTrain
- Anthropic红队报告 Mythos Preview:https://red.anthropic.com/2026/mythos-preview
- DeepSeek-V3技术报告:https://github.com/deepseek-ai/DeepSeek-V3
访谈/报道来源(记者采访或机构发布的一手报道)
- Demis Hassabis,Axios Google I/O 2026专访:https://www.axios.com/2026/05/26/deepmind-ceo-demis-hassabis
- Boris Cherny代码声明(Fortune):https://fortune.com/2026/01/29/100-percent-of-code-at-anthropic-and-openai-is-now-ai-written-boris-cherny-roon
- Stanford AI Index 2026摘要(The Next Web):https://thenextweb.com/news/stanford-ai-index-2026-china-us-performance-gap
- Anthropic IPO背景(Forge Global):https://forgeglobal.com/anthropic_ipo/
- Anthropic IPO背景(KraneShares):https://kraneshares.com/will-anthropic-or-xai-ipo-in-2026/
二级分析/背景来源
- 云安全联盟Mythos技术分析:https://labs.cloudsecurityalliance.org/research/csa-research-note-claude-mythos-autonomous-offensive-thresho/
- CFR 2026 AI展望:https://www.cfr.org/articles/how-2026-could-decide-future-artificial-intelligence
- RSI质疑观点(Hashcollision Substack):https://hashcollision.substack.com/p/will-we-see-ai-with-recursive-self
- Brookings中美AI战略对比:https://www.brookings.edu/articles/competing-ai-strategies-for-the-us-and-china/
夜雨聆风