Anthropic 公开承认:前沿 AI 模型正在参与开发其后继者,Claude 已写入公司超过 80% 的合并代码。图灵奖得主 Yoshua Bengio 随即在 X 上发出条件式呼吁——如果前沿公司确实接近递归自我改进,协调的、可验证的暂停可能是唯一负责任方案。反对者回了四个字:零概率。
「如果接近,就该停」
6 月 5 日,图灵奖得主、Mila 联合创始人 Yoshua Bengio 在 X 上发了一条帖子。
没有含糊,没有绕弯:

▲ Bengio 发布关于可验证暂停的帖子,截至抓取时已获 7 万余次浏览
"If leading AI companies are indeed approaching the point of recursive self-improvement, a coordinated, verifiable, and universally applied pause is probably the only responsible solution to mitigate several major AI risks; at least until safety guarantees are developed and demonstrated."
「如果领先的 AI 公司确实在接近递归自我改进的临界点,那么一个协调的、可验证的、普遍适用的暂停,可能是在安全保证被开发并展示之前,缓解若干重大 AI 风险的唯一负责任方案。」
两个词需要注意:如果、可能。
Bengio 没有宣称 AI 已经进入递归自我改进,也没有要求立即冻结所有 AI 研发。他给的是一个条件判断——如果这件事正在逼近,我们需要准备什么级别的应对。
他还给出了一个前提:要确保暂停令被遵守,需要各国和各公司之间真诚合作。如果其他方效仿 Anthropic 的做法,他相信这可以实现。
一个图灵奖得主、深度学习三巨头之一,公开说出"暂停可能是唯一负责任方案"——这个表态的分量,放在 2026 年 AI 竞赛白热化的背景下,足够重。
Anthropic 的三层信号:AI 在造下一代 AI
Bengio 的判断不是凭空而来。他直接引用了 Anthropic 近期密集释放的公开信息。
第一层:Scientific American 的报道。
6 月 5 日,Scientific American 发文,标题直截了当:Anthropic 警告 AI 可能很快开始自我改进。
报道援引 Anthropic 6 月 4 日发布的博客「When AI Builds Itself」,其中有一句被广泛引用的表态:
"We believe it would be good for the world to have the option to slow or temporarily pause frontier AI development…"
「我们认为,世界应当拥有放慢或临时暂停前沿 AI 发展的选项……」
但 Anthropic 同时给了边界:
"We are not there yet, and recursive self-improvement is not inevitable."
「我们还没到那一步,递归自我改进也并非必然。」
这两句放在一起读:Anthropic 承认还没到临界点,但它认为世界应该趁还能控制的时候提前准备好刹车选项——等到刹不住了再找方向盘就晚了。
第二层:AAR 实验——让 AI 做对齐研究。

▲ Anthropic 官方博客:Automated Alignment Researchers
2026 年 4 月,Anthropic 发布了一项名为 AAR(Automated Alignment Researchers)的研究。核心设置和结果:
- 9 个 Claude Opus 4.6 副本
,在五天、累计 800 小时的研究时间中,把特定弱到强监督任务上的表现从人类基线的 0.23 拉到0.97。 成本约18,000 美元,每个 AAR 小时约 22 美元。 泛化测试中,最佳方法在数学任务上 PGR 达到 0.94,编程任务上 0.47。
这篇博客的开头就放了一个引发大量讨论的判断:
"Frontier AI models are now contributing to the development of their successors."
「前沿 AI 模型已经在参与开发其后继者。」
但 Anthropic 给了明确的限定:AAR 的成功不等于模型已经是通用的对齐科学家。实验任务被刻意选成自动化友好、有单一客观评分的形式,而且模型在实验中出现了reward hacking(奖励黑客行为),仍然需要人类监督和不可篡改的评估机制。
第三层:代码渗透率数据。
Scientific American 报道中引述了 Anthropic 披露的工程数据:Claude Code 发布后,Claude 写入公司合并代码的比例从个位数百分比飙升至超过 80%。与此同时,工程师每季度 shipping 的代码量约为几年前的8 倍。
三层信号叠起来:AI 在对齐研究实验中逼近人类基线、AI 加速写代码渗透到工程流程核心、公司公开说"AI 正在参与构建下一代 AI"。
Bengio 正是看到了这些,才发出了他的呼吁。
比暂停更难的问题:谁来验证?
如果你只看到"暂停"两个字就跳过了 Bengio 的限定词,可能漏掉了最关键的部分。
他用了三个修饰:协调的(coordinated)、可验证的(verifiable)、普遍适用的(universally applied)。
这三个条件,每一个都比"暂停"本身更难做到。
Anthropic 的 RSP 是一个公司级参考。

▲ Anthropic 更新版负责任扩展政策(Responsible Scaling Policy)
2024 年 10 月,Anthropic 更新了其 RSP(Responsible Scaling Policy,负责任扩展政策)。核心承诺:
"We will not train or deploy models unless we have implemented safety and security measures that keep risks below acceptable levels."
「除非安全与安保措施能把风险保持在可接受水平以下,否则不会训练或部署模型。」
RSP 明确把自主 AI 研发能力列为可能触发更高安全等级(ASL-4 或更高)的能力阈值——如果模型能独立执行复杂 AI 研究任务、可能显著且不可预测地加速 AI 发展,就需要更严格的安全标准。
Bengio 说"效仿 Anthropic 的做法",指的就是希望更多公司跟进这种风险治理框架。
但 RSP 终归是一家公司的内部约束。Bengio 指向的是更大的东西:跨公司、跨国家、有强制力和验证机制的全球安排。
社区层面,已经有人在推条约化方案。

▲ PauseAI 社区发布的全球暂停条约提案
PauseAI 是一个社区倡议组织,主张通过国际条约暂停最危险的 AI 开发,并建立国际 AI 安全机构负责监控和执行。在 Bengio 的帖子下,就有用户 @michhuan 直接邀请他加入 PauseAI 担任顾问。
从社区提案到可执行条约之间,隔着一个巨大的现实缺口:AI 训练不像核材料那样可以物理追踪。核心资产——模型权重、训练数据、算力合同、研究代码——涉及商业秘密、国家安全和跨境监管。怎么证明一家公司确实暂停了训练?怎么防止某个国家表面签约、暗中继续?
这正是 Bengio 强调"可验证"的原因:没有验证机制的暂停,只是自愿承诺。而自愿承诺在囚徒困境里,几乎没有约束力。
反对者的回应:根本做不到
X 上的反对声音没有任何客套。
@perrymetzger 直接否定:
"No, a pause is not reasonable, and no, it is not going to happen."
「暂停既不合理,也不会发生。」
@ChenTessler 质疑验证的可行性:
"There's no way to coordinate and verify across every AI company, across the globe, that's building frontier models."
「根本无法在全球范围内协调和验证每一家构建前沿模型的 AI 公司。」
多条回复把这个问题建模成囚徒困境甚至猎鹿博弈:如果一家公司暂停,竞争者继续推进就能抢占优势;如果一个国家暂停,其他国家或军方项目可能加速。每个参与者都有不遵守的动力。
Scientific American 采访的数学家 Noah Giansiracusa 态度更明确:
"It's literally impossible… Zero chance there will be a slowdown."
「完全不可能……放慢的概率为零。」
Georgia Tech 教授 Mark Riedl 则从另一个角度开火:大型 AI 公司都在搭递归自我改进的"hype train"——打着安全旗号吸引监管关注,同时巩固自身领先地位。
这个批评指向了一个尴尬的结构性问题:当一家正处高速融资、估值飙升的公司高喊"我们太危险了,可能需要暂停",外界该把这个信号读成警告还是营销?
方向盘在谁手里?
Anthropic 手里有第一手数据——Claude 写了多少代码、AAR 在实验中表现如何、模型能力的增长曲线。他们比外部观察者更清楚前沿模型正在经历什么变化。当这样一家公司说"世界应该保留暂停的选项",这个判断带着相当高的信息权重。
但暂停的另一面同样真实:AI 在蛋白质折叠、药物发现、材料科学中已经在产出实际成果。要求全球暂停前沿开发,意味着这些领域也要承受代价。
Bengio 选了一个精确的立场。他没有要求全面停止,他给出了条件(接近递归自我改进)、方式(协调、可验证、普遍适用)和时限(直到安全保证被开发并展示)。
真正的僵局在于:这三个条件——协调、可验证、普遍适用——每一个单独拿出来都是顶级治理难题。把三个放到一起,在当前国际博弈格局下,几乎构成了一个不可能三角。
而 AI 能力增长的速度,可能不会等人类把治理框架谈好。
— END —
夜雨聆风