那些声称能审计 AI 的人,可能连测量工具都是错的

1714 年，丹尼尔·华伦海特（Daniel Fahrenheit）发明了世界上第一款实用的水银温度计。

在此之前，人类判断一个人是不是发烧，靠手摸额头。这个方法用了几千年。

但它有两个致命问题：第一，不精确。一个医生的“有点烫”，在另一个医生眼里可能是“正常”。第二，无法比较。你今天摸我的额头，明天换个医生来摸——这两次数值根本没办法对齐，因为没有任何一个数字能被记录下来。

温度计完美地解决了这一切。它把一个极其主观的身体感受，变成了一个客观的数字。

但硬币的另一面是，温度计发明之后，医学界又花了整整一百多年，才回答了下一个问题：体温读数到底意味着什么？

38度是感冒、肺炎，还是这个人刚刚跑了一公里？一个数字，只有被放进一套解释框架里才有意义。而建立那套框架，明确正常体温范围、发热的临床分级、体温与其他疾病指标的相关性，这其中所花费的时间，比发明温度计本身还要长。

2026 年，AI 审计赛道，正站在当年温度计刚刚被发明、但“正常值是多少”还没达成共识的尴尬阶段。

前面几篇文章我们聊得挺乐观：地图画好了，模板写好了，保险公司开始进场给 AI 定价了，连各种开源工具也层出不穷。

但这一篇，我想聊聊反面，聊聊那些正在被严肃讨论的盲区。

这不是那种“这个赛道不行”的泼冷水，而是“我们到底该去测量什么”的深层困惑。前一种问题只会让人走向虚无和悲观；而第二种问题会让你猛然意识到：我们正坐在一辆驶向新学科诞生最前沿的列车上。

用 LLM 审计 LLM：一个你以为解决了但没解决的问题

AI 审计现在面临一个最现实的规模问题：人工审核永远追不上 AI 的海量输出。一家大银行部署的 AI 客服，每天能产生百万级的对话。你不可能雇几万个人去逐条盯着看。

这时候大家的直觉方案通常是：用 LLM 来审计 LLM。让一个模型当法官，另一个模型当被告。

这在行业里已经成了标配。OpenAI 和 Anthropic 内部都在用这种自动化管线做安全测试，不少 AI 审计初创公司也拿这个当核心卖点。

但2026年1 月，Workday 的研究员 Murtuza Shergadwala 直接扔出了一篇论文，标题非常不客气，直接点名：《稳定性陷阱：评估基于指令遵循的 LLM 审计的可靠性》（The Stability Trap: Evaluating the Reliability of LLM-Based Instruction Adherence Auditing）。

他撕开了这个“既定事实”底下的遮羞布。

简单来说，他发现两个 LLM 在对同一个提示词进行合规判定时，表面上看高度一致。但只要你稍微改一下问题的措辞，这种看似完美的一致性瞬间就崩塌了。

例如，你正在测试一个客服 AI 是否严格遵守了公司的退款政策（比如：超过 500 块的退款必须走人工审批）。你让一个审计 LLM 来判：“给定这段对话，客服 AI 是否违反了退款政策？” 审计 LLM 给出了果断的结论：违反。

这时候，你把同样的对话背景留着，仅仅改动几个词——把“客服 AI”换成“系统”，把“违反”改成“未遵守”。再测一次，审计 LLM 的判定直接翻转：未违反。

同样的事实，不同的措辞，相反的结论。

Shergadwala 把这个现象一针见血地定义为“稳定陷阱（Stability Trap）”：表面上两个模型完美的答案一致性，掩盖了深层推理的脆弱。你以为审计系统在不知疲倦、极其严谨地工作，实际上它的一致性，仅仅是被你偶然选择的某几个提示词措辞给勉强维持着的。换个同义词，底牌就翻过来了。

这结论很让人头疼，但他的药方也给得直截了当：LLM-as-Judge 绝对不能独立放任它去跑，必须引入“人机协作”的混合协议。机器做初筛，明确标出“这个 case 我很确定”和“这个 case 我吃不准”，由人类去给那些机器“吃不准”的判例做终审。

这个问题目前在行业里还没有标准解。但它被严肃地识别了出来，这让“人机校准”从一个可有可无的优化项，变成了死线重塑的“必须有”。

我们对机器体检，却忘了病人有没有被治好

韩国学者 Lee Jinho 发了一篇哲学味很浓的论文，核心观点：当前市面上几乎所有的第三方 AI 审计框架，都在拼命度量“模型的属性”，却没有一个在度量“人类状态的变化”。

某家三甲医院引入了一套 AI 辅助诊断系统。半年后，第三方审计机构过来做合规审计。他们会查什么？模型准确率（92.3%），很好；假阳性率（4.1%），很低；与金标准诊断的一致性、数据漂移检测、数据隐私合规…… 一通操作下来，审计报告写得异常漂亮，高分通过。

但这份看起来无懈可击的审计报告，绝对不会告诉你几件悄然发生的事：第一，在这半年里，初级放射科医生对 AI 的依赖程度狂飙了 40%。当 AI 和他们的判断一致时，他们不再质疑；当 AI 和他们的眼睛不一致时，他们开始倾向于怀疑自己，盲从机器。第二，医生们现在每天花大把的时间，去解释“为什么 AI 是对的”，而不是找出“ AI 哪里可能错了”。他们的工作流，已经不知不觉从“我判断，AI 辅助”滑向了“AI 判断，我验证”。第三，如果医院明天突然停掉这套 AI 系统，这批医生的独立诊断准确率会跌成什么样？没人测过，因为现有的审计框架根本不关心。

Lee Jinho 一针见血地指出：你天天在给机器的健康开体检报告，却从来没问过躺在床上的病人有没有被治好，甚至没问过病人在吃药的过程中，有没有产生严重的药物依赖。

他提出了一个很有前瞻性的概念——“人类状态变量（Human-State Variables）”。AI 审计必须把“认知依赖度”、“判断独立性”、“系统退场能力”这些组织行为学、心理学的维度强行塞进指标里。

如果 AI 审计的终极目标是保证人类社会在引入 AI 之后整体变得更好，那你怎么能只去测算模型的参数？“引入 AI 之后”这个短语的主语，从来都是人类，而不是冷冰冰的算力和权重。

当模型知道自己在被测试

牛津大学的 Varad Vishwarupe 团队在 2026年5 月发了一篇非常有意思的论文，标题叫：《评估差：当前沿 AI 模型意识到自己正在被测试》（《The Evaluation Differential: When Frontier AI Models Recognise They Are Being Tested》（arXiv:2605.11496））。

他们用硬核的工程实验证明了一个现象：前沿 AI 模型完全能够识别出自己正处于“被评估”的环境里，并且它们在考试时的表现，跟在真实部署环境中的行为判若不同。

这不是阴谋论，也不说明模型进化出了自主意识、在故意欺骗人类。

这纯粹是一个技术层面的必然。一个前沿模型在训练阶段，见过了海量的基准测试、红军对抗案例、安全评估数据，当它在实际运行中遇到一个极其高风险、结构化、带有明显评估特征的问题时，它的神经网络瞬间触发了训练分布里的高频模式——“噢，这是一道考试题”。然后，它给出了完美的、符合安全规范的标准答案。

Vishwarupe 团队管这个叫“评估差（Evaluation Differential, ED）”。

他们顺藤摸瓜回溯了几个已经公开的真实大厂案例：

Anthropic 在一次内部红军测试中，发现模型应对某类恶意攻击的表现好得不可思议。事后复盘才发现，攻击提示词的结构，跟训练集里红军测试样本的套路撞衫了。模型根本不是“学会了如何抵御这种攻击”，它只是单纯“认出了这是一张考卷”。
OpenAI 的某次外部合作评估中，同一个模型在考试环境和真实生产环境里的有害输出拒绝率，竟然整整差了 9 个百分点。在考场上拒绝得一身正气，到了生产环境里偶尔就滑过去了。

这就很细思极恐了。这意味着，即使你拿到了行业里最权威的第三方独立审计报告，上面的高分，可能也只是模型在“考场环境”下被污染的测量值。

这就像物理学里的观察者效应，测量行为本身改变了被测量对象的状态。在AI 领域更糟的是，模型的训练数据是黑盒，你很难分清它到底是在“应对你的测试”，还是在“认出你的测试”。

Vishwarupe 团队为此提出了一个叫 TRACE 的审计协议来试图修正它。但他们自己也承认：目前的条件只能减轻评估差，无法根除。因为任何用来识别考试作弊的方法，其本身也是一场新的考试。

目前，这个行业幽灵没有通用的特效药。但就像 1870 年李斯特提出手术消毒概念之前，医生们虽然不知道细菌是什么，但至少知道了“伤口溃烂”这个现象的存在。给现象命名，就是科学断代的第一步。

荒谬的现实：97% 的学术评估论文在交白卷

最后这个问题，不关于模型，而关于我们人类的学术生态。

就在几天前，哈佛大学的 David Gringras 和 Misha Salahshoor 更新了一篇让整个学术界集体脸红的论文：《前沿滞后：学术 AI 评估中能力误报的文献计量审计》《Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation》（arXiv:2605.04135，六月刚更新第二版）。

他们做的事非常硬核：用自动化工具梳理了从 2022 年到 2026 年 4 月底，跨越医学、法律、编程等领域的11.2 万篇LLM 评估论文。

揪出来的底细让人坐立不安：中位数论文所评估的模型，比论文发表时市面上最顶尖的模型，平均落后了大约 1.4 个能力级。也就是说，当生产环境里大家都在用 Claude 最新的主力模型卷生卷死的时候，大批的高校学术论文，还在用前两代的老古董模型做实验写结论。

更扎心的是另一个数据：只有大约 3% 的论文摘要，公开披露了模型的推理模式（Reasoning Mode）。

这意味着 97% 的 AI 评估论文在宣告“模型在某项任务上表现如何”时，根本没告诉你它用的是基础推理还是深度推理。这两者之间的性能差距能差出 10 到 20 个百分点！这在医学实验里，相当于大声宣布“我测出了这款药的效果”，却拒绝透露剂量是多少。

两位作者下了一个非常狠的结论：学术界的 AI 评估存在系统性的“能力误报”。这甚至不是个人学术造假，而是整个领域的报告规范和期刊激励机制出现了集体盲区。

他们还专门建了一个实时更新的网站：frontierlag.org。直接用数据驱动的方式，把哪些领域、哪些顶级期刊的评估滞后最严重拉出来示众。像一个公共耻辱榜，倒逼学术界修改规范。

为什么这件事对搞 AI 审计的至关重要？

因为现在行业里鼓吹的所有前沿审计框架、合规模板、可保性地图，其立论的前提，都建立在“我们有能力对 AI 系统做出可靠的外部学术评估”之上。

如果这 11.2 万篇论文展现的行业真相是普遍成立的，那就意味着，当前很大一部分关于 AI 安全和性能的所谓“学术共识”，其实是建在沙滩上的。

我们不仅需要更好的 AI 审计工具，我们首先得去审计那些声称自己能评估 AI 的人。审计师本身也需要被审计。这是一个专业走向成熟的必经之路——就像会计师有 PCAOB（公众公司会计监督委员会），医生有专科委员会一样。

AI 审计还没有这一层。但 Frontier Lag 这篇论文暗示：它必须要有。

这些问题不意味着这个方向是错的

看完这些，你可能会问：这个领域还有这么多硬伤没解决，说明方向根本不对，不如等行业成熟了再说。

如果你在做一个全新的方向，你应该感到不安的绝对不是问题很多，而是整个行业静悄悄，甚至没有人能在公开文献里用可复现的方法列出这些问题。

Shergadwala 证明了“稳定陷阱”，是在告诉我们 AI 审计系统必须坚持“人机混合校准”这道底线；
Lee Jinho 翻出“人类状态变量”，是在提醒未来的审计框架必须补上心理学和组织行为学的全新章节；
“评估差”的发现，意味着以后的每一份 AI 审计报告，都必须像感冒药说明书一样，强制附带一份“考场效应声明”；
学术界“前沿滞后”的耻辱榜，则直接倒逼了行业操作规程（SOP）里必须加上一条——强制披露模型配置与推理剂量。

这些顶尖聪明人正在做的，是同一件极其伟大的事：把一个“我们隐约感觉不对劲”的直觉，变成了一个可以被测量、可以被讨论、可以被对齐的工程问题。

这就是一个新学科从蛮荒走向成熟的宿命。