前沿 AI 模型在公开发布之前要不要做一次专门的安全评估,是过去三年里 AI 安全圈里讨论得最多、但落地最慢的一个问题。技术侧的研究者大多支持,理由是前沿模型的能力跨越非常快,一个版本的能力跃迁可能在不到一年的时间里把可被滥用的风险面整体抬高一个量级,发布之后再做评估意味着风险已经流入真实世界。工业侧的态度更复杂一些,企业普遍同意安全测试有必要,但对"由谁来测、测什么、测试结果如何处理、是否影响发布节奏"这一整套机制的具体设计有非常具体的诉求。也就是说,过去三年里"要不要做"已经基本不再是争议,争议集中在"怎么做"。

本周二,美国商务部所属的 AI 标准与创新中心(AI Standards and Innovation Center,下文按其官方缩写称 CAISI)公布了一份新协议。Google 旗下 DeepMind、Microsoft、xAI 三家加入了 CAISI 的自愿安全测试合作框架。这意味着加上此前已经签约的 OpenAI 和 Anthropic,美国本土所有最常被提及的前沿模型实验室,已经全部进入同一个预发布安全评估机制。CAISI 主任 Chris Fall 同时披露,截至本次公告,CAISI 已经累计完成 40 次评估,其中部分针对的是"尚未公开发布的前沿模型"。
把这两件事放在一起看,事情的意义并不是又一次的合作公告。它真正提供的信号是——前沿 AI 预发布安全测试这个机制,第一次走完了一个从"先驱企业自愿配合"到"全部头部企业纳入"的完整闭环。
▎自愿测试不是新事物,但"全员纳入"是新状态
CAISI 这个机构本身不算新。它的前身是 NIST 旗下的 AI Safety Institute(AISI),后被并入新成立的 AI Standards and Innovation Center。CAISI 与企业之间的合作模式也不算新——OpenAI 和 Anthropic 在 2024 年就已经分别与当时还叫 AISI 的机构签署了模型预评估协议。这两份协议在过去两年里被反复引用,作为"政企合作开展前沿模型安全测试"的开创性范本。
新的地方不在于机制本身,而在于覆盖面。在此之前,CAISI 的评估工作只覆盖两家实验室,这意味着哪怕这套测试做得再细,仍然有大量同样具备前沿能力的模型从未经历过类似的预发布审视。Google 的 Gemini 系列、Microsoft 的 CoPilot 体系、xAI 的 Grok 系列,每一家手里的旗舰模型都已经具备了与 OpenAI 和 Anthropic 同级别甚至局部领先的能力。Gemini 已经被多家美国国防与军事机构在自有任务环境中部署使用,Grok 在过去一年里因为某些争议性功能被外界质疑,CoPilot 则深度嵌入了大量企业生产工作流。这三家在能力分布上的实际权重,决定了 CAISI 在没有覆盖它们之前,所谓的预发布测试只是一个"局部样本"。
这次的关键变化,是这个局部样本第一次扩展到了完整样本。也就是说,今后任何一款由美国头部实验室推出的前沿模型,理论上都将先经过 CAISI 的预发布评估,再走向公开市场。这是一种治理机制层面的状态变化,而不仅仅是一次签约规模的扩张。
▎测试的真正难点不在"测",在"测什么"
要理解 CAISI 这套机制的实际有效性,必须先把"预发布安全测试"这件事本身拆开来看。这类测试的难点从来不在执行层,而在范畴层。一个模型可以被测的维度极多——常规对齐、越狱抗性、输出毒性、信息泄漏、长上下文崩溃、工具使用越权、自主行为边界、生物化学辅助风险、大规模网络攻击辅助能力、关键基础设施操控潜力、深度伪造质量上限——每一项都需要单独设计测试集、独立的评估方法、独立的风险阈值。
CAISI 在公告中并没有完整披露它针对各家具体模型的测试细项,但根据它过去两年公开的工作内容可以推断,它实际承担的是一种国家安全风险维度上的有限聚焦评估。换句话说,CAISI 不会替代企业内部的常规对齐评测,也不会去做泛泛的产品安全验收,它真正关心的是那些只有在国家级视角下才会被识别为风险的能力——前沿模型在生物化学领域的辅助能力是否触及具备社会危害性的合成路径、模型在网络攻击侧的零日漏洞挖掘与利用能力是否压缩了攻防窗口、模型在关键基础设施操控相关任务上的成功率是否到了具备实际威胁的水平。
这种聚焦带来的好处是评估能落地,因为国家安全风险维度本身有相对清晰的事故定义和量化基线。坏处是它无法覆盖前沿模型在其他维度上的潜在隐患,比如那些不会立刻造成国家级危害、但可能长期累积成系统性风险的能力——长期行为偏移、对敏感人群的隐性影响、与多智能体协作时的涌现行为。这些维度目前没有进入 CAISI 的核心议程,主要原因是它们尚未形成可被量化的评估方法论。
▎"过强不能发布"的案例为这套机制提供了第一个真实数据点
任何一种安全治理机制,能不能站得住脚,最终都要看它在第一个真实测试场景里能不能拿出可被接受的处置结果。Anthropic 的 Mythos 模型是 CAISI 这套机制目前最具代表性的真实案例。
Mythos 能力指标(Anthropic 公开披露)
某主流浏览器内核可武器化漏洞数:约 20(前代)→ 近 300(Mythos)
全局发现潜在漏洞总量:达"数以万计"量级
能力意涵:从单点漏洞披露升级为攻防节奏的根本改变
Mythos 是 Anthropic 内部研发出的一款被其自身团队判定为"能力过于强大、不能直接公开发布"的模型。Anthropic 的 CEO Dario Amodei 在多个公开场合披露过 Mythos 的部分能力指标,包括在某主流浏览器内核代码库内发现的可被武器化漏洞从前代模型的约 20 个跃升到 Mythos 的近 300 个,同时全局发现的潜在漏洞数量已经达到"数以万计"的量级。这一组数字所对应的能力意味着 Mythos 已经具备了对真实软件供应链造成系统性影响的潜力——它不是单点漏洞披露,而是一种攻防节奏的根本改变。
Anthropic 选择不直接发布 Mythos,而是先与 CAISI 进行了相关评估和讨论,并将其能力以受控方式提供给特定政府用户和合作伙伴。这件事的意义不在于具体的访问安排,而在于它第一次出现了一个由企业主动判定为"能力风险高于发布收益"、并通过预发布评估机制完成处置的真实案例。在此之前,所有关于"模型过强是否应当延迟发布"的讨论都停留在假设层。Mythos 让这个假设第一次有了对应的实操路径。
需要明确的是,Anthropic 这一处置是企业自身的能力风险判断,并不是 CAISI 强制要求的结果。这个细节非常重要,因为它揭示了当前美国 AI 治理机制的一个结构性特征——所有发布前安全测试都是建立在企业自愿配合基础上的,CAISI 没有强制评估权,也没有禁止发布权,企业可以选择是否提交测试、可以选择如何处理评估结果,理论上甚至可以选择无视评估结论坚持发布。
▎自愿模式既是这套机制的支点,也是它的脆弱点
把视角拉到机制设计层来看,CAISI 当前的运作模式,本质上是一种"信任型协同"。它依赖于企业主动配合、依赖于评估结论被尊重、依赖于评估过程中接触到的内部模型信息不被滥用。这种模式在过去两年的实际表现是相对良好的,OpenAI 和 Anthropic 提供了大量内部模型用于评估,CAISI 也建立了相应的保密与合作流程。
但自愿模式天然存在结构性脆弱。第一,它依赖企业的长期一致性。一家原本配合的企业,在某次具体的发布节奏与评估结论冲突时,理论上有权选择跳过测试。第二,它依赖评估能力本身的相对领先。CAISI 必须比每一家被测企业更早识别出能力跃迁所带来的新风险维度,否则评估只能验证已知风险,而无法预警未知风险。第三,它依赖政治与机构延续性。一个完全建立在自愿合作上的机制,其稳定性最终取决于政府机构、企业意愿、行业共识三者长期对齐——任何一方的态度发生变化,整个机制的有效性都会立刻被影响。
正因为这些脆弱性的存在,CAISI 这种"自愿协同+全员覆盖"的状态,与其说是治理终点,不如说是治理过渡。它把"前沿模型应当接受发布前安全评估"这件事变成了行业默认实践,但它并没有把这件事变成强制制度。从过渡到稳定,中间还需要一系列的工作——评估方法论的标准化、评估结论的可信背书、跨机构协同的明确分工、评估能力的持续投入。这些工作本身在国际范围内都还没有形成成熟答案。
▎全球三种 AI 治理范式正在形成各自的稳定形态
如果把视角再放大一层,CAISI 模式只是全球前沿 AI 治理三种主要范式中的一种。中国的大模型备案制度走的是另一条路径——通过国家网信部门主导的备案登记和算法评估,把前沿模型的合规审查嵌入到产品上线流程的前端,构成一种制度化的事前介入。欧盟 AI 法案则采取了第三条路径,它通过分级合规义务把不同风险等级的 AI 系统纳入差异化的法律框架,强制特定能力等级的模型必须满足明确的透明度、安全性、可追溯性要求。
这三种路径在治理哲学上并不完全相同。CAISI 模式偏向工程协同与技术评估,强调由具备技术能力的政府机构与企业共同完成具体评估工作,机制相对灵活但缺乏强制力。中国的备案模式偏向制度内嵌,把合规审查放到产品上线前置环节,制度刚性较强但对评估方法论的工程深度要求相对开放。欧盟模式偏向法律驱动,通过法案的强制条款把治理义务写入企业责任,制度刚性最强但执行路径相对漫长。三者之间没有简单的优劣之分,每一种模式都在其所处的制度环境与产业结构中找到了对应的平衡。
值得注意的一点是,三种范式在过去两年里实际上都在朝着对方的方向有所靠拢。CAISI 模式正在通过覆盖范围的扩展逐渐获得"事实上的全员覆盖"特征,向制度化方向走了一步。中国的备案制度也在引入越来越多的工程性评测内容,向技术评估方向走了一步。欧盟在 AI 法案具体执行细则中,越来越依赖技术评测方法的标准化输出,向工程化方向走了一步。换句话说,三种范式之间的差距,可能并不像最初假设的那么大。
▎真正在变化的是治理机制的"完整度",不是治理理念的方向
兜回来看 CAISI 这次三家加盟的事件,它的真实意义并不在于多签了三家协议,而在于美国头部前沿模型预发布安全测试这件事,第一次具备了机制层面的完整度——评估机构有了、被评估对象齐了、评估累积有 40 次的工程经验、还有 Mythos 这种"过强不能发布"的真实处置案例做支撑。从机制完整度的角度看,这是过去两年最具实质性的一次推进。
但完整度不等于稳定度。这套机制目前仍然建立在企业自愿、政府推动、行业默契三者共同维系的基础上。任何一个支点的位移,都可能在短期内动摇整个机制的运作。下一阶段真正值得观察的,不是又有多少家公司加入,而是评估方法论本身的工程化程度能不能跟上模型能力的跃迁速度——这件事远比签约本身要难得多,也重要得多。
夜雨聆风