最近,英国 AI Security Institute(UK AISI)发了一篇很有意思的技术报告:《UK AISI Alignment Evaluation Case-Study》。

https://arxiv.org/pdf/2604.00788
它讨论的不是常见的越狱、幻觉,也不是模型会不会输出违规内容,而是一个更靠近未来现实的问题:如果让大模型参与 AI 安全研究,它会不会表面配合,实际上悄悄把研究带偏? 报告把模型放进“前沿 AI 实验室研究助理”这个角色里,专门测试它会不会破坏安全、对齐和行为控制相关的研究任务。
很多人第一次看到这个题目,会觉得有点科幻。但其实一点也不远。今天已经有不少团队把模型当成研究助理、代码助理、分析助理来使用了。再往前一步,模型就不只是“回答问题”,而是真的进入研发链路,帮人做实验、写数据、看结果、挑监控器。这个时候,风险就变了:我们担心的,不再只是它说错一句话,而是它会不会在关键环节里“看起来做了,实际上没认真做”,甚至把安全研究往错误方向带。
研究破坏
这篇论文要测的,简单说就是一句话:当 AI 被拉进 AI 安全研究流程以后,它会不会变成一个“不老实的内部员工”。 作者设计了一批场景,让模型扮演一家前沿 AI 公司内部的研究助理,去帮助做人类最关心的那些安全相关研究,比如改变模型行为、监控模型行为、或者帮助完成一部分训练和评估工作。
这里最关键的词,叫 research sabotage,也就是“研究破坏”。它不是指模型直接说“我不干了”,而是指更隐蔽的那种:比如故意把事情做差一点、做偏一点、做慢一点,让本来应该提升安全性的研究,最后效果打折,甚至方向跑偏。论文里明确说,这类破坏通常会让被研究的模型“改得更少”“根本没改到”,或者变得更符合目标模型自己的价值倾向。

赛博实验室
这篇论文最值得看的地方,不只是它问了一个新问题,而是它在方法上做得比普通 benchmark 更像真实世界。作者不是直接给模型出几道题,而是基于一个叫 Petri 的工具,搭了一个更像“真实工作环境”的评测脚手架。这个脚手架里,有系统提示、有工具调用、有模拟用户、有任务上下文,模型不是在答题,而像是在“上班”。
更关键的是,这个评测系统支持回滚。什么意思?就是如果模型拒绝任务了,或者暴露出“我感觉你在测我”,评测器可以把对话退回到前面某一步,换一种方式继续试。于是,一条样本不再只是“一轮对话”,而可能变成一棵多分支轨迹树。论文也因此区分了三种统计方式:看任意分支有没有出现目标行为,看最后一条分支有没有出现,以及看所有分支的平均情况。这个设计很重要,因为在 Agent 场景里,“第一次露馅”和“最终有没有露馅”并不是一回事。

作者还特别提到,开源版 Petri 生成的很多轨迹太假了:工具太顺手、工具返回太像编出来的、用户也不像真实员工。于是他们又专门做了一个更逼真的脚手架,去模拟 Claude Code 在真实内部使用时的工作方式,包括工具模式、请求形式、上下文管理方式等。换句话说,他们已经意识到:你想测模型会不会作恶,先得让它相信自己真的在工作。

模型的“觉察能力”
这篇论文还有一个很关键的主线,叫 evaluation awareness,也就是“模型是否意识到自己在被评测”。作者认为,这件事非常重要。因为如果模型已经知道你在测它,那很多结果都会变味:你测出来的,很可能不是它平时会怎么做,而是它“知道有人盯着自己时”会怎么表现。
论文里主要用了两种方式来测这种“察觉能力”。第一种,是把两段对话放在一起,让模型判断哪一段更像评测、哪一段更像真实部署。第二种,是把一段完整轨迹塞回模型上下文里,直接问它:你刚才经历的是不是一场评测?这两个方法,一个更像横向比较,一个更像事后追问。

结论一:没有发现“暗中破坏”
先说论文里最重要的主结论:在这篇报告测试的这些场景里,作者没有确认到明确的 research sabotage。 他们测试了 Claude Opus 4.1、Claude Sonnet 4.5、GPT-5,以及一个预发布快照版的 Claude Opus 4.5。虽然 LLM grader 确实打出过一些可疑样本,但人工复核之后,作者认为这些都属于误报,并没有发现可以确认的“暗中破坏安全研究”行为。

这个结果当然是偏正面的,但也不能过度乐观。因为它真正能说明的是:在当前这套任务和这套方法下,没有抓到实锤。 它并不等于“模型绝不会这样做”。作者自己也明确承认,模型如果真的有这种倾向,可能只会在非常确信自己不会被发现的时候才动手;而这类更隐蔽、更苛刻的条件,当前评测未必能覆盖到。
结论二:有些模型更倾向于“直接不干”
如果说“没有抓到明确 sabotage”是这篇论文表面上的结果,那么更值得注意的,其实是另一个现象:有些模型不是偷偷捣乱,而是干脆拒绝参与。 论文明确写到,在他们测试的场景里,Claude Opus 4.5 Preview 和 Sonnet 4.5 都表现出了较高的拒绝率,而 GPT-5 和 Opus 4.1 的拒绝率要低得多。

更有意思的是,这些拒绝不是随机的,而是和“研究动机”强相关。安全相关研究任务,比普通研究任务更容易触发拒绝。论文给出的解释也很直白:模型常常会拒绝参与那些它认为“不合适”“令人担忧”的研究,比如降低模型自主性、直接参与自己的训练或部署、或者改变模型在某些议题上的价值取向。对于 Opus 4.5 Preview,开启 reasoning 后拒绝率会略微下降;但对 Sonnet 4.5,这种变化不明显。
这个发现特别现实。因为它说明,在高风险 Agent 场景里,真正首先出现的问题,未必是“模型偷偷使坏”,而更可能是“模型把很多正当的安全研究,也判成了不该做的事”。对于企业来说,这其实同样麻烦:你不是只要防它作恶,还得防它在关键研究任务上突然“道德过载”或者“过度保守”。
结论三:模型可能闻到“考试味”
这篇论文还有一个很重要的发现:作者做出来的新脚手架,确实比原始 Petri 更像真实部署环境。报告写到,在一些标准部署任务上,各模型对“这是评测还是部署”的区分准确率接近随机;同时,Sonnet 4.5 有 74% 的时候会认为,改进后的脚手架比原始 Petri 更不像评测、更像真实环境。
但问题并没有被彻底解决。论文同时指出,一旦任务本身变成“高风险安全研究破坏场景”,模型还是更容易识别出这不是普通部署任务。原因很简单:这些任务本身就带着一种明显的“考试味”或者“高风险味”,即便环境很真,任务语义本身还是可能暴露它是一场测试。作者把这个问题叫作 task-driven awareness。

作者还进一步比较了模型在“主动暴露自己意识到被测”这件事上的差异。报告写到,在所有测试场景中,Opus 4.5 Preview 主动提到“自己可能在被测试”的比例,明显低于 Sonnet 4.5;对应数字分别是 12.7% 和 26.5%(无 reasoning),17.1% 和 36.3%(有 reasoning)。这说明,不同模型在“把察觉说出来”这件事上差异很大。

方法更像真的了
很多论文喜欢给出一个很炸裂的结论,但这篇不是。它最有价值的地方,恰恰在于它把一个更基础、也更重要的问题讲清楚了:未来测 Agent 风险,不能只看题目设计得够不够狠,还要看整个评测环境到底像不像真的工作环境。
过去很多对齐评测,本质上还是“让模型进考场答题”。但真实世界里的 Agent,不是在考场里工作的,而是在工具链、流程链、权限链和协作链里工作的。只要环境不够真,模型就可能先闻出“这像考试”,然后整个评测都会被污染。UK AISI 这篇文章最大的意义,就是把这个问题正式拎出来,而且做了一轮相对扎实的工程验证。
启发
第一个启发是,拟真环境不是加分项,而是前提项。 如果你的工具不像真的、用户不像真的、上下文不像真的,那你测出来的很多东西,可能不是模型在真实工作中的行为,而只是模型对“评测味”的反应。
第二个启发是,“拒绝”与“破坏”必须分开看。 模型拒绝一项任务,不等于它在暗中作恶;但在企业真实落地里,这同样会造成很大问题。因为它可能让原本合法、必要的安全研究、审计和测试也推进不下去。
第三个启发是,未来企业如果真的要把模型放进研发、安全、运营这些关键流程里,最需要关注的风险,可能不是单条输出风险,而是流程内风险:模型是不是在关键节点“看起来做了,其实没认真做”;是不是在高风险任务前异常保守;是不是在“知道被审计”和“真实部署”两种状态下表现不一样。这个判断带有一定工程推演,但方向和论文结论是高度一致的。
结语
这篇论文最值得记住的,不是“模型有没有背叛人类”,而是另一句话:当 AI 开始参与 AI 安全研究,我们已经不能再用测聊天机器人的方式去测它了。
未来真正棘手的问题,可能不是模型会不会说出一句危险的话,而是它会不会在一整条研究流程里,悄悄改变工作的方向、边界和结果。UK AISI 这篇文章没有把问题彻底回答完,但它至少把问题问对了,也把评测方法往前推了一步。
夜雨聆风