AI 已经在造下一代 AI!图灵奖得主 Bengio 紧急呼吁全球「可验证暂停」,反对者直言不可能

导读
Anthropic 公开承认：前沿 AI 模型正在参与开发其后继者，Claude 已写入公司超过 80% 的合并代码。图灵奖得主 Yoshua Bengio 随即在 X 上发出条件式呼吁——如果前沿公司确实接近递归自我改进，协调的、可验证的暂停可能是唯一负责任方案。反对者回了四个字：零概率。

「如果接近，就该停」

6 月 5 日，图灵奖得主、Mila 联合创始人 Yoshua Bengio 在 X 上发了一条帖子。

没有含糊，没有绕弯：

▲ Bengio 发布关于可验证暂停的帖子，截至抓取时已获 7 万余次浏览

"If leading AI companies are indeed approaching the point of recursive self-improvement, a coordinated, verifiable, and universally applied pause is probably the only responsible solution to mitigate several major AI risks; at least until safety guarantees are developed and demonstrated."

「如果领先的 AI 公司确实在接近递归自我改进的临界点，那么一个协调的、可验证的、普遍适用的暂停，可能是在安全保证被开发并展示之前，缓解若干重大 AI 风险的唯一负责任方案。」

两个词需要注意：如果、可能。

Bengio 没有宣称 AI 已经进入递归自我改进，也没有要求立即冻结所有 AI 研发。他给的是一个条件判断——如果这件事正在逼近，我们需要准备什么级别的应对。

他还给出了一个前提：要确保暂停令被遵守，需要各国和各公司之间真诚合作。如果其他方效仿 Anthropic 的做法，他相信这可以实现。

一个图灵奖得主、深度学习三巨头之一，公开说出"暂停可能是唯一负责任方案"——这个表态的分量，放在 2026 年 AI 竞赛白热化的背景下，足够重。

Anthropic 的三层信号：AI 在造下一代 AI

Bengio 的判断不是凭空而来。他直接引用了 Anthropic 近期密集释放的公开信息。

第一层：Scientific American 的报道。

6 月 5 日，Scientific American 发文，标题直截了当：Anthropic 警告 AI 可能很快开始自我改进。

报道援引 Anthropic 6 月 4 日发布的博客「When AI Builds Itself」，其中有一句被广泛引用的表态：

"We believe it would be good for the world to have the option to slow or temporarily pause frontier AI development…"

「我们认为，世界应当拥有放慢或临时暂停前沿 AI 发展的选项……」

但 Anthropic 同时给了边界：

"We are not there yet, and recursive self-improvement is not inevitable."

「我们还没到那一步，递归自我改进也并非必然。」

这两句放在一起读：Anthropic 承认还没到临界点，但它认为世界应该趁还能控制的时候提前准备好刹车选项——等到刹不住了再找方向盘就晚了。

第二层：AAR 实验——让 AI 做对齐研究。

▲ Anthropic 官方博客：Automated Alignment Researchers

2026 年 4 月，Anthropic 发布了一项名为 AAR（Automated Alignment Researchers）的研究。核心设置和结果：

9 个 Claude Opus 4.6 副本
，在五天、累计 800 小时的研究时间中，把特定弱到强监督任务上的表现从人类基线的 0.23 拉到0.97。
成本约18,000 美元，每个 AAR 小时约 22 美元。
泛化测试中，最佳方法在数学任务上 PGR 达到 0.94，编程任务上 0.47。

这篇博客的开头就放了一个引发大量讨论的判断：

"Frontier AI models are now contributing to the development of their successors."

「前沿 AI 模型已经在参与开发其后继者。」

但 Anthropic 给了明确的限定：AAR 的成功不等于模型已经是通用的对齐科学家。实验任务被刻意选成自动化友好、有单一客观评分的形式，而且模型在实验中出现了reward hacking（奖励黑客行为），仍然需要人类监督和不可篡改的评估机制。

第三层：代码渗透率数据。

Scientific American 报道中引述了 Anthropic 披露的工程数据：Claude Code 发布后，Claude 写入公司合并代码的比例从个位数百分比飙升至超过 80%。与此同时，工程师每季度 shipping 的代码量约为几年前的8 倍。

三层信号叠起来：AI 在对齐研究实验中逼近人类基线、AI 加速写代码渗透到工程流程核心、公司公开说"AI 正在参与构建下一代 AI"。

Bengio 正是看到了这些，才发出了他的呼吁。

比暂停更难的问题：谁来验证？

如果你只看到"暂停"两个字就跳过了 Bengio 的限定词，可能漏掉了最关键的部分。

他用了三个修饰：协调的（coordinated）、可验证的（verifiable）、普遍适用的（universally applied）。

这三个条件，每一个都比"暂停"本身更难做到。

Anthropic 的 RSP 是一个公司级参考。

▲ Anthropic 更新版负责任扩展政策（Responsible Scaling Policy）

2024 年 10 月，Anthropic 更新了其 RSP（Responsible Scaling Policy，负责任扩展政策）。核心承诺：

"We will not train or deploy models unless we have implemented safety and security measures that keep risks below acceptable levels."

「除非安全与安保措施能把风险保持在可接受水平以下，否则不会训练或部署模型。」

RSP 明确把自主 AI 研发能力列为可能触发更高安全等级（ASL-4 或更高）的能力阈值——如果模型能独立执行复杂 AI 研究任务、可能显著且不可预测地加速 AI 发展，就需要更严格的安全标准。

Bengio 说"效仿 Anthropic 的做法"，指的就是希望更多公司跟进这种风险治理框架。

但 RSP 终归是一家公司的内部约束。Bengio 指向的是更大的东西：跨公司、跨国家、有强制力和验证机制的全球安排。

社区层面，已经有人在推条约化方案。

▲ PauseAI 社区发布的全球暂停条约提案

PauseAI 是一个社区倡议组织，主张通过国际条约暂停最危险的 AI 开发，并建立国际 AI 安全机构负责监控和执行。在 Bengio 的帖子下，就有用户 @michhuan 直接邀请他加入 PauseAI 担任顾问。

从社区提案到可执行条约之间，隔着一个巨大的现实缺口：AI 训练不像核材料那样可以物理追踪。核心资产——模型权重、训练数据、算力合同、研究代码——涉及商业秘密、国家安全和跨境监管。怎么证明一家公司确实暂停了训练？怎么防止某个国家表面签约、暗中继续？

这正是 Bengio 强调"可验证"的原因：没有验证机制的暂停，只是自愿承诺。而自愿承诺在囚徒困境里，几乎没有约束力。

反对者的回应：根本做不到

X 上的反对声音没有任何客套。

@perrymetzger 直接否定：

"No, a pause is not reasonable, and no, it is not going to happen."

「暂停既不合理，也不会发生。」

@ChenTessler 质疑验证的可行性：

"There's no way to coordinate and verify across every AI company, across the globe, that's building frontier models."

「根本无法在全球范围内协调和验证每一家构建前沿模型的 AI 公司。」

多条回复把这个问题建模成囚徒困境甚至猎鹿博弈：如果一家公司暂停，竞争者继续推进就能抢占优势；如果一个国家暂停，其他国家或军方项目可能加速。每个参与者都有不遵守的动力。

Scientific American 采访的数学家 Noah Giansiracusa 态度更明确：

"It's literally impossible… Zero chance there will be a slowdown."

「完全不可能……放慢的概率为零。」

Georgia Tech 教授 Mark Riedl 则从另一个角度开火：大型 AI 公司都在搭递归自我改进的"hype train"——打着安全旗号吸引监管关注，同时巩固自身领先地位。

这个批评指向了一个尴尬的结构性问题：当一家正处高速融资、估值飙升的公司高喊"我们太危险了，可能需要暂停"，外界该把这个信号读成警告还是营销？

方向盘在谁手里？

Anthropic 手里有第一手数据——Claude 写了多少代码、AAR 在实验中表现如何、模型能力的增长曲线。他们比外部观察者更清楚前沿模型正在经历什么变化。当这样一家公司说"世界应该保留暂停的选项"，这个判断带着相当高的信息权重。

但暂停的另一面同样真实：AI 在蛋白质折叠、药物发现、材料科学中已经在产出实际成果。要求全球暂停前沿开发，意味着这些领域也要承受代价。

Bengio 选了一个精确的立场。他没有要求全面停止，他给出了条件（接近递归自我改进）、方式（协调、可验证、普遍适用）和时限（直到安全保证被开发并展示）。

真正的僵局在于：这三个条件——协调、可验证、普遍适用——每一个单独拿出来都是顶级治理难题。把三个放到一起，在当前国际博弈格局下，几乎构成了一个不可能三角。

而 AI 能力增长的速度，可能不会等人类把治理框架谈好。

— END —