你永远看不到的那个模型
去年某个下午,我在刷 AI 新闻,看到一条让我愣了几秒的消息:OpenAI 说他们内部有一个模型,经过评估之后,决定不发布。
不是技术没准备好,不是商业模式没想清楚,是"太危险了"。
我当时的第一反应,说实话,是有点好笑的:这不就是最好的营销话术吗?"我们有个东西太厉害了,你们驾驭不了。"听起来像武侠小说里那本绝学,越是说不能外传,越让人想看。
但我后来把这件事想了很久,越想越觉得不对劲。不是因为它不真实,而是因为它涉及一个我们几乎没有机会讨论的问题:
谁有权力决定,什么东西你不能看到?"太危险"是一个空洞的词
先说一个让我困惑的结构性问题。
当一家 AI 公司说某个模型"太危险,不能发布",这句话里有个奇怪的逻辑漏洞:他们是怎么知道它危险的?
答案当然是:他们测试了。有一套叫"红队测试"(red teaming)的流程,让内部人员或外部专家去尝试让模型做坏事,帮人合成生化武器、生成儿童色情内容、引导用户自残。如果模型在这些测试里表现得"太顺从",就会被打上危险标签。
好,这听起来很负责任。问题是,这套评估体系是谁设计的?标准是谁定的?通过与不通过的门槛,是谁说了算?
目前的答案是:还是这家公司自己。
Anthropic 有"负责任扩展政策"(RSP),OpenAI 有"准备框架"(Preparedness Framework),Google DeepMind 有"前沿安全框架"(Frontier Safety Framework)。这些文件读起来都很严肃,逻辑也都自洽,但本质上是自我声明,不是外部审计,更不是法律约束。
你去银行存钱,银行不能自己给自己做审计。但 AI 公司现在就在做这件事,因为没有别人有能力做。
让我没想到的一面:不发布,未必更安全
这是我改变想法的时刻,所以要认真说一下。
我一开始的直觉是:好事啊,总比乱发布强。但后来读到一些论文和讨论,开始觉得"不发布"这件事,比它看起来复杂得多。
有一个反直觉的论点是这样的:如果一个危险能力已经存在于某个模型里,把这个模型关起来,并不等于把这个危险能力关起来了。
原因很简单。大公司的模型往往能力最强,但能力和危险性之间的关系并非线性。一个小实验室用开源模型微调出来的版本,可能同样能做坏事,却完全不受任何"不发布"政策的约束。
更关键的是:当顶级模型的能力对外界不透明,整个安全研究社区就失去了一个重要的研究对象。学界没办法研究它,政策制定者没办法评估它,其他公司也没有参照系。结果是整个生态系统的知识积累在变慢,而危险本身并没有消失。
有研究者把这个情况类比为生物安全领域的争论:高致病性流感病毒的研究,到底应该公开发表还是保密?保密派说,发表等于给恐怖分子递了说明书;公开派说,不公开等于全球只有少数几个实验室掌握着防御知识,一旦这几个地方出了问题,没有人能接手。
这个争论至今没有定论。但它提醒我:"不发布等于安全"是一个直觉,不是一个被验证过的结论。
权力的拓扑结构
好,现在来说让我真正不安的那一层。
假设某家公司真的有一个模型,经过内部评估,确认它的某些能力远超现有公开版本,而且可以被用来做非常坏的事。
他们决定不发布。这个决定,由谁做的?
大概是:一个安全团队,几个高管,可能还有董事会。
这几十个人,在没有任何外部监督的情况下,做了一个影响全人类的决定。
你可能会说:那也比什么都不管强。我同意。但强不等于够。因为我们现在面对的,是一个前所未有的权力结构,少数几家私人公司,实际上在决定什么样的认知工具可以进入人类社会,什么不行。
这不是阴谋论,这是现实的结构。
历史上,这种权力通常被分散在国家、大学、出版社、广播监管机构之间,相互制衡,有明确的问责机制。现在,这些机制还没来得及在 AI 领域建立起来,而技术本身已经跑得很远了。
Mustafa Suleyman 最近在接受采访时说,AI 的发展不会撞上技术天花板,他对这件事是乐观的。我对技术本身也持乐观态度。但我对权力的分配方式,没有那么乐观。
我们其实不擅长这件事
还有一点我想说,因为它经常被忽略。
人类在判断"某个信息太危险,不能公开"这件事上,历史记录并不好看。
被审查过的东西里,有多少后来被证明完全无害?又有多少"没问题"的东西,后来造成了难以估量的伤害?核武器的技术是秘密,但核扩散还是发生了。社交媒体算法是"没问题"的产品,但极化和心理健康危机都来了。
我们对"危险"的判断,会受到当下政治生态、商业利益和文化偏见的系统性影响。今天认为危险的,可能只是"让某些人不舒服的";今天认为安全的,可能是因为危害还没显现。
AI 公司里坐着的,大部分是受过良好教育、认真思考这些问题的工程师和研究员。我不是说他们坏。我是说,认真思考的人,也会犯系统性的错误,尤其是在没有外部视角的情况下。
带走一个问题
我没有答案,我真的没有。
我只知道,下次看到 AI 公司宣布"某个模型太危险,不予发布"的时候,我不想再像最开始那样,要么当营销话术来笑,要么当负责任行为来鼓掌。
我想问的是:谁评估的?标准是什么?评估过程有没有记录?记录谁能看?
如果这些问题都没有公开的答案,那所谓"负责任的 AI 开发",目前还更像是一个美好的意愿声明,而不是一套可运转的问责机制。
这不是在攻击任何一家公司。这是在说,我们正处于一个窗口期,AI 的权力结构还没有完全固化,现在推动透明度和外部监督,比五年后再补课,要容易得多,也重要得多。
你下次看到"该模型不对外发布"这几个字,可以想一想:是谁不让你看到它,他们又凭什么?
AI 的世界每天都比昨天更陌生一点,但也更有意思一点。我们下周见。
夜雨聆风