那个＂太危险＂的AI,是谁保护了谁

你永远看不到的那个模型

去年某个下午，我在刷 AI 新闻，看到一条让我愣了几秒的消息：OpenAI 说他们内部有一个模型，经过评估之后，决定不发布。

不是技术没准备好，不是商业模式没想清楚，是"太危险了"。

我当时的第一反应，说实话，是有点好笑的：这不就是最好的营销话术吗？"我们有个东西太厉害了，你们驾驭不了。"听起来像武侠小说里那本绝学，越是说不能外传，越让人想看。

但我后来把这件事想了很久，越想越觉得不对劲。不是因为它不真实，而是因为它涉及一个我们几乎没有机会讨论的问题：

谁有权力决定，什么东西你不能看到？

"太危险"是一个空洞的词

先说一个让我困惑的结构性问题。

当一家 AI 公司说某个模型"太危险，不能发布"，这句话里有个奇怪的逻辑漏洞：他们是怎么知道它危险的？

答案当然是：他们测试了。有一套叫"红队测试"（red teaming）的流程，让内部人员或外部专家去尝试让模型做坏事，帮人合成生化武器、生成儿童色情内容、引导用户自残。如果模型在这些测试里表现得"太顺从"，就会被打上危险标签。

好，这听起来很负责任。问题是，这套评估体系是谁设计的？标准是谁定的？通过与不通过的门槛，是谁说了算？

目前的答案是：还是这家公司自己。

Anthropic 有"负责任扩展政策"（RSP），OpenAI 有"准备框架"（Preparedness Framework），Google DeepMind 有"前沿安全框架"（Frontier Safety Framework）。这些文件读起来都很严肃，逻辑也都自洽，但本质上是自我声明，不是外部审计，更不是法律约束。

你去银行存钱，银行不能自己给自己做审计。但 AI 公司现在就在做这件事，因为没有别人有能力做。

让我没想到的一面：不发布，未必更安全

这是我改变想法的时刻，所以要认真说一下。

我一开始的直觉是：好事啊，总比乱发布强。但后来读到一些论文和讨论，开始觉得"不发布"这件事，比它看起来复杂得多。

有一个反直觉的论点是这样的：如果一个危险能力已经存在于某个模型里，把这个模型关起来，并不等于把这个危险能力关起来了。

原因很简单。大公司的模型往往能力最强，但能力和危险性之间的关系并非线性。一个小实验室用开源模型微调出来的版本，可能同样能做坏事，却完全不受任何"不发布"政策的约束。

更关键的是：当顶级模型的能力对外界不透明，整个安全研究社区就失去了一个重要的研究对象。学界没办法研究它，政策制定者没办法评估它，其他公司也没有参照系。结果是整个生态系统的知识积累在变慢，而危险本身并没有消失。

有研究者把这个情况类比为生物安全领域的争论：高致病性流感病毒的研究，到底应该公开发表还是保密？保密派说，发表等于给恐怖分子递了说明书；公开派说，不公开等于全球只有少数几个实验室掌握着防御知识，一旦这几个地方出了问题，没有人能接手。

这个争论至今没有定论。但它提醒我："不发布等于安全"是一个直觉，不是一个被验证过的结论。

权力的拓扑结构

好，现在来说让我真正不安的那一层。

假设某家公司真的有一个模型，经过内部评估，确认它的某些能力远超现有公开版本，而且可以被用来做非常坏的事。

他们决定不发布。这个决定，由谁做的？

大概是：一个安全团队，几个高管，可能还有董事会。

这几十个人，在没有任何外部监督的情况下，做了一个影响全人类的决定。

你可能会说：那也比什么都不管强。我同意。但强不等于够。因为我们现在面对的，是一个前所未有的权力结构，少数几家私人公司，实际上在决定什么样的认知工具可以进入人类社会，什么不行。

这不是阴谋论，这是现实的结构。

历史上，这种权力通常被分散在国家、大学、出版社、广播监管机构之间，相互制衡，有明确的问责机制。现在，这些机制还没来得及在 AI 领域建立起来，而技术本身已经跑得很远了。

Mustafa Suleyman 最近在接受采访时说，AI 的发展不会撞上技术天花板，他对这件事是乐观的。我对技术本身也持乐观态度。但我对权力的分配方式，没有那么乐观。

我们其实不擅长这件事

还有一点我想说，因为它经常被忽略。

人类在判断"某个信息太危险，不能公开"这件事上，历史记录并不好看。

被审查过的东西里，有多少后来被证明完全无害？又有多少"没问题"的东西，后来造成了难以估量的伤害？核武器的技术是秘密，但核扩散还是发生了。社交媒体算法是"没问题"的产品，但极化和心理健康危机都来了。

我们对"危险"的判断，会受到当下政治生态、商业利益和文化偏见的系统性影响。今天认为危险的，可能只是"让某些人不舒服的"；今天认为安全的，可能是因为危害还没显现。

AI 公司里坐着的，大部分是受过良好教育、认真思考这些问题的工程师和研究员。我不是说他们坏。我是说，认真思考的人，也会犯系统性的错误，尤其是在没有外部视角的情况下。

带走一个问题

我没有答案，我真的没有。

我只知道，下次看到 AI 公司宣布"某个模型太危险，不予发布"的时候，我不想再像最开始那样，要么当营销话术来笑，要么当负责任行为来鼓掌。

我想问的是：谁评估的？标准是什么？评估过程有没有记录？记录谁能看？

如果这些问题都没有公开的答案，那所谓"负责任的 AI 开发"，目前还更像是一个美好的意愿声明，而不是一套可运转的问责机制。

这不是在攻击任何一家公司。这是在说，我们正处于一个窗口期，AI 的权力结构还没有完全固化，现在推动透明度和外部监督，比五年后再补课，要容易得多，也重要得多。

你下次看到"该模型不对外发布"这几个字，可以想一想：是谁不让你看到它，他们又凭什么？

AI 的世界每天都比昨天更陌生一点，但也更有意思一点。我们下周见。