AI递归自改进:刹车机制为何已经输给加速结构

作者按：本文综合原始技术文件、最新新闻报道及前文核查框架，论证一个结构性判断：在当前商业竞争、国家安全部署和中美战略竞争的交叠结构下，真正可执行的同步减速机制已经基本失效。本文所说"刹车机制输给加速结构"，不是指强RSI已经发生，而是指主要玩家主动、同步、可验证减速的政治路径已经基本封死——这里的"不可能"不是技术上无法设计协议，而是在当前中美战略竞争结构下，没有任何一方能承担率先真实减速的政治代价。AI递归自改进的风险，不源于某个公司"想作恶"，而是因为所有主要玩家都被推入同一个加速结构。

证据等级说明

本文涉及多类来源，证据等级不同，读者应区分对待：

命题	等级	处理方式
Anthropic官网RSI长文及暂停倡议	官方一手材料	确定事实
Clark 2028年底前RSI >60%判断	个人分析预测	高权重专家判断，非事实
Mythos红队报告中的漏洞发现能力	Anthropic官方报告＋第三方核查	技术能力证据
Mythos被NSA用于进攻性网络行动	FT匿名信源（两名知情人士），未获Anthropic官方确认	应认真对待，全文保留等级标注
IPO估值与融资规模	私募市场／财经媒体口径，非正式招股书披露	市场叙事背景，非最终确定数字
NSA实战反馈回流模型训练	推论	写作"制度性激励压力"，非已证实技术闭环

一、起点：同一周发生的三件事

2026年6月第一周，三条信息同时出现。

其一，Anthropic在官网发布长文，以机构名义将强RSI的临近作为政策前提，呼吁以中美为首的主要AI公司建立"协调暂停机制"。联合创始人Jack Clark接受BBC采访时说："我们有油门踏板，却没有刹车踏板。"Anthropic同时预判AI发展的三种可能路径，并将"AI系统彻底跨入全面自建其继承者的阶段"列为须认真对待的风险场景。（来源：Anthropic官网，2026-06-04）

其二，据《金融时报》援引两名知情人士报道，Anthropic已向美国国家安全局（NSA）派驻约6名"前沿部署工程师"，据报道帮助NSA将Mythos模型用于发起网络攻击。此报道依赖匿名信源，尚未获Anthropic官方确认；但鉴于FT的信源审核标准，它值得在保留等级标注的前提下认真对待。（来源：Financial Times，2026-06-04）

其三，据私募市场信息及财经媒体报道，Anthropic已进入IPO申报窗口，市场对其估值（私募市场口径约3800亿美元，尚非正式招股书披露数字）、融资规模和盈利路径存在高度关注，盈利能力仍是投资人核心顾虑。（来源：Forge Global，2026-06；KraneShares，2026-03）

真正重要的不是这三件事是否经过刻意编排，而是它们在IPO窗口期客观上构成了同一个结构性效果：呼吁踩刹车的机构，据报道同时在为国家安全体系提供进攻性AI工具，同时向资本市场出售"我们是少数有能力、也有资格负责任驾驭这头野兽的机构"这个故事。

二、现实已经走到哪里：三层确认

第一层：AI辅助AI研发——已经属实

这一层不是预测，是当前状态。Anthropic Claude Code负责人Boris Cherny于2026年1月公开表示，他本人过去两个多月100%的代码由AI生成；Anthropic公司范围估计约70%–90%。CEO Dario Amodei表示新版Claude模型"绝大多数"代码已由Claude本身写就。（来源：Fortune，2026-01-29；CFR，2026-01）

中国方面，面壁智能ForgeTrain官方声称框架代码100%由AI Agent Loop生成，在H100上实现了比Megatron框架快10%的训练速度。需注意：生成该框架的Harness工具仍标注coming soon，公开可复现证据仍不足；且"100% AI生成"的前提是人类预先设定了任务边界、参考技术栈和验收标准。（来源：ForgeTrain GitHub）

第二层：软性自我改进——已基本形成

Google DeepMind CEO Demis Hassabis将当前阶段描述为"软性自我改进"：AI coding agent已经提高了工程师和研究员的产出效率，尤其在编程和数学领域，形成加速飞轮。（来源：Axios，2026-05-26）

斯坦福2026 AI Index数据：美国与中国最强模型的性能差距已从2023年的17.5—31.6个百分点收窄至2.7%；双方在"AI写AI代码"方向上路径不同（美国侧流程自动化，中国侧算法效率），但方向一致。（来源：The Next Web，Stanford AI Index 2026）

第三层：强RSI——尚未证实，但预警已升格为机构立场

Jack Clark在Import AI第455期明确写道，他得出2028年底前RSI发生概率超过60%的判断。这是个人分析预测，不是既成事实，对比参照是另一位研究者认为完全无人类参与的端到端RSI概率低于10%。（来源：Import AI #455；Hashcollision Substack）

关键变化在于：这个判断在2026年6月已从"个人预测"升格为"机构性政策前提"——Anthropic以公司名义将其写入官网长文，并以此为据呼吁国际协调。预测的证据等级没有变，但其政治功能已经变了。

三、军事部署：加速结构的新维度

据FT匿名信源报道，Anthropic据报道向NSA部署Mythos用于进攻性网络行动，这件事的意义需要精确定位，需要区分两件不同的事。

它不能直接证明的是：网络战能力本身就是RSI能力，或者NSA实战中的反馈数据已经系统性回流到Anthropic的模型训练循环。FT报道能支持"协助部署"和"驻场工程师定制模型"，但不能证明实战反馈已形成技术训练闭环，也不能将网络攻防能力直接等同于自我改进能力。

它能够证明的是：前沿AI能力已被国家安全体系认定为具有战略级进攻价值，并由此构成一种制度性加速压力。网络攻防能力一旦被国家安全体系吸收，就会反过来增加对更强自动化研发、更快模型迭代和更少人类介入的需求。这种需求即使不直接构成技术训练闭环，也会构成外部激励闭环——它持续拉高对下一代能力的要求，压缩任何局部暂停的政治空间。

Anthropic官方红队报告本身已经确认Mythos Preview的能力边界：能够在每一个主流操作系统和浏览器中识别并利用零日漏洞，超过99%已发现漏洞尚未被修复；扫描超过1,000个关键开源项目，识别出23,019个候选漏洞，经外部安全公司抽样验证的真阳性率达90.8%——这是抽样组的真阳性率，不是所有候选漏洞的整体比率。（来源：Anthropic红队报告，2026-04-07；云安全联盟，2026-04-14）

这个制度性加速压力是对称的：中国方面面临完全相同的结构性约束。任何在军事AI领域落后的一方都面临无法承受的战略代价，这个逻辑不因任何公司的公开声明而改变。

四、"暂停"倡议的真实功能

Anthropic方案的制度逻辑要求中美主要前沿AI开发者同步、可验证地放缓。在当前地缘政治结构下，这在政治上是不可承受的——不是因为技术上无法设计协议，而是因为没有任何一方能承担率先真实减速的战略代价。那么这个倡议的真实受众是谁？

不是北京。是华盛顿、布鲁塞尔和华尔街。

对美国国会：为即将出台的AI监管法案提供话语框架。已有安全研究积累、红队报告、可解释性框架的机构，天然成为监管标准的参与制定者，而合规成本对新进入者构成壁垒。

对IPO投资人：展示"负责任治理"成熟度，降低监管不确定性折价。对于一家尚未盈利、估值高度依赖市场叙事的公司，"我们是少数有能力负责任地驾驭这项技术的机构"是比任何财务数据都更有力的护城河描述。

对欧盟监管机构：在《AI法案》执行细则谈判中占据话语位置。

这不是传统意义上已经完成的监管捕获，而是一种前置性监管塑形：已经跑在最前面的公司，通过参与定义安全标准和合规框架，把未来规则转化为潜在进入壁垒。执行者同时也是标准的起草参与者，合规成本的设计方向天然有利于已经具备合规能力的机构。

行为层面的矛盾更直接：据FT匿名信源报道，在呼吁暂停的同一周，Anthropic据报道正协助NSA部署进攻性AI。如果真实信念是"需要踩刹车"，最直接的行动应该是自己先踩。这个落差本身是信息，无论动机如何。

五、为什么所有看起来像刹车的东西都不够用

这些刹车机制的问题各不相同：国际协调缺乏激励相容，监管框架缺乏速度和信息优势，对齐研究缺乏强制部署约束，公众舆论缺乏技术可见性。但它们共同的结果是：实际效果量级远低于加速力量。

国际协调协议：Anthropic方案的制度前提要求主要玩家同步、可验证地放缓。在高科技和军事领域，任何一方单边减速在政治上会被视为主动交出领先权。冷战军备竞赛的历史告诉我们：即使双方都清楚竞赛的危险，对称性压力依然压倒了减速意愿。AI竞赛目前没有触及让所有人都足够痛苦的对称性破坏节点——而到达那个节点时，某些关键窗口可能已经关闭。

监管框架：监管速度系统性落后于技术速度。欧盟《AI法案》从立法到执行细则落地历时数年，而前沿AI能力迭代以月为单位。更根本的问题是，前沿AI不是一个边界稳定、外部可充分检测的工业产品，而是一个能力边界持续移动、关键数据和评测高度内生于公司的系统。监管机构对其能力、风险和部署状态的理解，高度依赖被监管机构提供的信息。这个信息不对称从结构上保证了监管永远是追赶者，而标准制定过程本身又被有能力参与的机构所塑形。

对齐研究：Anthropic的可解释性研究和安全评估是真实的技术投入，这一点不应被否认。Clark本人也承认，安全研究的推进速度与能力增长速度不匹配。更重要的是，即使对齐研究在实验室环境中产生成果，它目前也没有机制在国家安全部署闭环中作为约束条件被强制执行。对齐研究更像是高速行驶中的减震系统，而不是能决定车辆是否继续加速的制动系统——它可以降低局部风险，却无法改变国家安全闭环和商业竞争闭环的总体方向。（来源：Import AI #455）

公众压力与舆论监督：在技术细节高度专业化、信息严重不对称的领域，公众舆论能形成的实质性约束极为有限。发出最大声警示的人同时也是加速的执行者——这个结构性张力持续消解公众认知的清晰度，不是因为有人刻意欺骗，而是因为这两件事在当前结构下对同一机构都是理性选择。

六、终局的结构

综合以上分析，可以描述当前轨道的结构性特征：

军事部署所构成的制度性激励闭环已经形成并将持续强化。中美竞赛结构保证了没有任何一方能在对方不停的情况下单边退出。所有被讨论的减速机制——国际协调、监管框架、对齐研究、公众监督——其实际效果量级均远低于加速力量，且原因各不相同，不存在某种"如果修补某一个就能解决"的单点答案。

RSI失控的具体形态仍然开放，这是真实的认识论边界，不是安慰性的不确定性。但这种不确定性不是均匀分布的：在当前可见的结构条件下，概率分布严重偏向一侧。用不确定性作为叙事缓冲，是一种系统性的认知不诚实。

Jack Clark说"有油门没刹车"。这个比喻还不够完整。更准确的描述是：

油门已经踩死，刹车是否存在尚未可知，而坐在车里的人正在争论方向盘归谁——同时向车外的人出售"我们会负责任地开车"的保险单。

主要来源

原始／技术来源（可直接核验的第一手材料）

Jack Clark, Import AI #455（RSI 60%分析原文）：https://importai.substack.com/p/import-ai-455-automating-ai-research
ForgeTrain GitHub（官方仓库，含当前版本范围说明）：https://github.com/OpenBMB/ForgeTrain
Anthropic红队报告 Mythos Preview：https://red.anthropic.com/2026/mythos-preview
DeepSeek-V3技术报告：https://github.com/deepseek-ai/DeepSeek-V3

访谈／报道来源（记者采访或机构发布的一手报道）

Demis Hassabis，Axios Google I/O 2026专访：https://www.axios.com/2026/05/26/deepmind-ceo-demis-hassabis
Boris Cherny代码声明（Fortune）：https://fortune.com/2026/01/29/100-percent-of-code-at-anthropic-and-openai-is-now-ai-written-boris-cherny-roon
Stanford AI Index 2026摘要（The Next Web）：https://thenextweb.com/news/stanford-ai-index-2026-china-us-performance-gap
Anthropic IPO背景（Forge Global）：https://forgeglobal.com/anthropic_ipo/
Anthropic IPO背景（KraneShares）：https://kraneshares.com/will-anthropic-or-xai-ipo-in-2026/

二级分析／背景来源

云安全联盟Mythos技术分析：https://labs.cloudsecurityalliance.org/research/csa-research-note-claude-mythos-autonomous-offensive-thresho/
CFR 2026 AI展望：https://www.cfr.org/articles/how-2026-could-decide-future-artificial-intelligence
RSI质疑观点（Hashcollision Substack）：https://hashcollision.substack.com/p/will-we-see-ai-with-recursive-self
Brookings中美AI战略对比：https://www.brookings.edu/articles/competing-ai-strategies-for-the-us-and-china/