1714 年,丹尼尔·华伦海特(Daniel Fahrenheit)发明了世界上第一款实用的水银温度计。
在此之前,人类判断一个人是不是发烧,靠手摸额头。这个方法用了几千年。
但它有两个致命问题:第一,不精确。一个医生的“有点烫”,在另一个医生眼里可能是“正常”。第二,无法比较。你今天摸我的额头,明天换个医生来摸——这两次数值根本没办法对齐,因为没有任何一个数字能被记录下来。
温度计完美地解决了这一切。它把一个极其主观的身体感受,变成了一个客观的数字。
但硬币的另一面是,温度计发明之后,医学界又花了整整一百多年,才回答了下一个问题:体温读数到底意味着什么?
38度是感冒、肺炎,还是这个人刚刚跑了一公里?一个数字,只有被放进一套解释框架里才有意义。而建立那套框架,明确正常体温范围、发热的临床分级、体温与其他疾病指标的相关性,这其中所花费的时间,比发明温度计本身还要长。
2026 年,AI 审计赛道,正站在当年温度计刚刚被发明、但“正常值是多少”还没达成共识的尴尬阶段。
前面几篇文章我们聊得挺乐观:地图画好了,模板写好了,保险公司开始进场给 AI 定价了,连各种开源工具也层出不穷。
但这一篇,我想聊聊反面,聊聊那些正在被严肃讨论的盲区。
这不是那种“这个赛道不行”的泼冷水,而是“我们到底该去测量什么”的深层困惑。前一种问题只会让人走向虚无和悲观;而第二种问题会让你猛然意识到:我们正坐在一辆驶向新学科诞生最前沿的列车上。
用 LLM 审计 LLM:一个你以为解决了但没解决的问题
AI 审计现在面临一个最现实的规模问题:人工审核永远追不上 AI 的海量输出。一家大银行部署的 AI 客服,每天能产生百万级的对话。你不可能雇几万个人去逐条盯着看。
这时候大家的直觉方案通常是:用 LLM 来审计 LLM。让一个模型当法官,另一个模型当被告。
这在行业里已经成了标配。OpenAI 和 Anthropic 内部都在用这种自动化管线做安全测试,不少 AI 审计初创公司也拿这个当核心卖点。
但2026年1 月,Workday 的研究员 Murtuza Shergadwala 直接扔出了一篇论文,标题非常不客气,直接点名:《稳定性陷阱:评估基于指令遵循的 LLM 审计的可靠性》(The Stability Trap: Evaluating the Reliability of LLM-Based Instruction Adherence Auditing)。
他撕开了这个“既定事实”底下的遮羞布。
简单来说,他发现两个 LLM 在对同一个 提示词进行合规判定时,表面上看高度一致。但只要你稍微改一下问题的措辞,这种看似完美的一致性瞬间就崩塌了。
例如,你正在测试一个客服 AI 是否严格遵守了公司的退款政策(比如:超过 500 块的退款必须走人工审批)。 你让一个审计 LLM 来判:“给定这段对话,客服 AI 是否违反了退款政策?” 审计 LLM 给出了果断的结论:违反。
这时候,你把同样的对话背景留着,仅仅改动几个词——把“客服 AI”换成“系统”,把“违反”改成“未遵守”。 再测一次,审计 LLM 的判定直接翻转:未违反。
同样的事实,不同的措辞,相反的结论。
Shergadwala 把这个现象一针见血地定义为“稳定陷阱(Stability Trap)”:表面上两个模型完美的答案一致性,掩盖了深层推理的脆弱。你以为审计系统在不知疲倦、极其严谨地工作,实际上它的一致性,仅仅是被你偶然选择的某几个提示词措辞给勉强维持着的。换个同义词,底牌就翻过来了。
这结论很让人头疼,但他的药方也给得直截了当:LLM-as-Judge 绝对不能独立放任它去跑,必须引入“人机协作”的混合协议。机器做初筛,明确标出“这个 case 我很确定”和“这个 case 我吃不准”,由人类去给那些机器“吃不准”的判例做终审。
这个问题目前在行业里还没有标准解。但它被严肃地识别了出来,这让“人机校准”从一个可有可无的优化项,变成了死线重塑的“必须有”。
我们对机器体检,却忘了病人有没有被治好
韩国学者 Lee Jinho 发了一篇哲学味很浓的论文,核心观点:当前市面上几乎所有的第三方 AI 审计框架,都在拼命度量“模型的属性”,却没有一个在度量“人类状态的变化”。
某家三甲医院引入了一套 AI 辅助诊断系统。半年后,第三方审计机构过来做合规审计。他们会查什么? 模型准确率(92.3%),很好;假阳性率(4.1%),很低;与金标准诊断的一致性、数据漂移检测、数据隐私合规…… 一通操作下来,审计报告写得异常漂亮,高分通过。
但这份看起来无懈可击的审计报告,绝对不会告诉你几件悄然发生的事:第一,在这半年里,初级放射科医生对 AI 的依赖程度狂飙了 40%。当 AI 和他们的判断一致时,他们不再质疑;当 AI 和他们的眼睛不一致时,他们开始倾向于怀疑自己,盲从机器。第二,医生们现在每天花大把的时间,去解释“为什么 AI 是对的”,而不是找出“ AI 哪里可能错了”。他们的工作流,已经不知不觉从“我判断,AI 辅助”滑向了“AI 判断,我验证”。第三,如果医院明天突然停掉这套 AI 系统,这批医生的独立诊断准确率会跌成什么样?没人测过,因为现有的审计框架根本不关心。
Lee Jinho 一针见血地指出:你天天在给机器的健康开体检报告,却从来没问过躺在床上的病人有没有被治好,甚至没问过病人在吃药的过程中,有没有产生严重的药物依赖。
他提出了一个很有前瞻性的概念——“人类状态变量(Human-State Variables)”。AI 审计必须把“认知依赖度”、“判断独立性”、“系统退场能力”这些组织行为学、心理学的维度强行塞进指标里。
如果 AI 审计的终极目标是保证人类社会在引入 AI 之后整体变得更好,那你怎么能只去测算模型的参数?“引入 AI 之后”这个短语的主语,从来都是人类,而不是冷冰冰的算力和权重。
当模型知道自己在被测试
牛津大学的 Varad Vishwarupe 团队在 2026年5 月发了一篇非常有意思的论文,标题叫:《评估差:当前沿 AI 模型意识到自己正在被测试》(《The Evaluation Differential: When Frontier AI Models Recognise They Are Being Tested》(arXiv:2605.11496))。
他们用硬核的工程实验证明了一个现象:前沿 AI 模型完全能够识别出自己正处于“被评估”的环境里,并且它们在考试时的表现,跟在真实部署环境中的行为判若不同。
这不是阴谋论,也不说明模型进化出了自主意识、在故意欺骗人类。
这纯粹是一个技术层面的必然。一个前沿模型在训练阶段,见过了海量的基准测试、红军对抗案例、安全评估数据,当它在实际运行中遇到一个极其高风险、结构化、带有明显评估特征的问题时,它的神经网络瞬间触发了训练分布里的高频模式——“噢,这是一道考试题”。然后,它给出了完美的、符合安全规范的标准答案。
Vishwarupe 团队管这个叫“评估差(Evaluation Differential, ED)”。
他们顺藤摸瓜回溯了几个已经公开的真实大厂案例:
Anthropic 在一次内部红军测试中,发现模型应对某类恶意攻击的表现好得不可思议。事后复盘才发现,攻击提示词的结构,跟训练集里红军测试样本的套路撞衫了。模型根本不是“学会了如何抵御这种攻击”,它只是单纯“认出了这是一张考卷”。
OpenAI 的某次外部合作评估中,同一个模型在考试环境和真实生产环境里的有害输出拒绝率,竟然整整差了 9 个百分点。在考场上拒绝得一身正气,到了生产环境里偶尔就滑过去了。
这就很细思极恐了。这意味着,即使你拿到了行业里最权威的第三方独立审计报告,上面的高分,可能也只是模型在“考场环境”下被污染的测量值。
这就像物理学里的观察者效应,测量行为本身改变了被测量对象的状态。在AI 领域更糟的是,模型的训练数据是黑盒,你很难分清它到底是在“应对你的测试”,还是在“认出你的测试”。
Vishwarupe 团队为此提出了一个叫 TRACE 的审计协议来试图修正它。但他们自己也承认:目前的条件只能减轻评估差,无法根除。因为任何用来识别考试作弊的方法,其本身也是一场新的考试。
目前,这个行业幽灵没有通用的特效药。但就像 1870 年李斯特提出手术消毒概念之前,医生们虽然不知道细菌是什么,但至少知道了“伤口溃烂”这个现象的存在。给现象命名,就是科学断代的第一步。
荒谬的现实:97% 的学术评估论文在交白卷
最后这个问题,不关于模型,而关于我们人类的学术生态。
就在几天前,哈佛大学的 David Gringras 和 Misha Salahshoor 更新了一篇让整个学术界集体脸红的论文:《前沿滞后:学术 AI 评估中能力误报的文献计量审计》《Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation》(arXiv:2605.04135,六月刚更新第二版)。
他们做的事非常硬核:用自动化工具梳理了从 2022 年到 2026 年 4 月底,跨越医学、法律、编程等领域的11.2 万篇LLM 评估论文。
揪出来的底细让人坐立不安:中位数论文所评估的模型,比论文发表时市面上最顶尖的模型,平均落后了大约 1.4 个能力级。也就是说,当生产环境里大家都在用 Claude 最新的主力模型卷生卷死的时候,大批的高校学术论文,还在用前两代的老古董模型做实验写结论。
更扎心的是另一个数据:只有大约 3% 的论文摘要,公开披露了模型的推理模式(Reasoning Mode)。
这意味着 97% 的 AI 评估论文在宣告“模型在某项任务上表现如何”时,根本没告诉你它用的是基础推理还是深度推理。这两者之间的性能差距能差出 10 到 20 个百分点!这在医学实验里,相当于大声宣布“我测出了这款药的效果”,却拒绝透露剂量是多少。
两位作者下了一个非常狠的结论:学术界的 AI 评估存在系统性的“能力误报”。这甚至不是个人学术造假,而是整个领域的报告规范和期刊激励机制出现了集体盲区。
他们还专门建了一个实时更新的网站:frontierlag.org。直接用数据驱动的方式,把哪些领域、哪些顶级期刊的评估滞后最严重拉出来示众。像一个公共耻辱榜,倒逼学术界修改规范。
为什么这件事对搞 AI 审计的至关重要?
因为现在行业里鼓吹的所有前沿审计框架、合规模板、可保性地图,其立论的前提,都建立在“我们有能力对 AI 系统做出可靠的外部学术评估”之上。
如果这 11.2 万篇论文展现的行业真相是普遍成立的,那就意味着,当前很大一部分关于 AI 安全和性能的所谓“学术共识”,其实是建在沙滩上的。
我们不仅需要更好的 AI 审计工具,我们首先得去审计那些声称自己能评估 AI 的人。审计师本身也需要被审计。这是一个专业走向成熟的必经之路——就像会计师有 PCAOB(公众公司会计监督委员会),医生有专科委员会一样。
AI 审计还没有这一层。但 Frontier Lag 这篇论文暗示:它必须要有。
这些问题不意味着这个方向是错的
看完这些,你可能会问:这个领域还有这么多硬伤没解决,说明方向根本不对,不如等行业成熟了再说。
如果你在做一个全新的方向,你应该感到不安的绝对不是问题很多,而是整个行业静悄悄,甚至没有人能在公开文献里用可复现的方法列出这些问题。
Shergadwala 证明了“稳定陷阱”,是在告诉我们 AI 审计系统必须坚持“人机混合校准”这道底线;
Lee Jinho 翻出“人类状态变量”,是在提醒未来的审计框架必须补上心理学和组织行为学的全新章节;
“评估差”的发现,意味着以后的每一份 AI 审计报告,都必须像感冒药说明书一样,强制附带一份“考场效应声明”;
学术界“前沿滞后”的耻辱榜,则直接倒逼了行业操作规程(SOP)里必须加上一条——强制披露模型配置与推理剂量。
这些顶尖聪明人正在做的,是同一件极其伟大的事:把一个“我们隐约感觉不对劲”的直觉,变成了一个可以被测量、可以被讨论、可以被对齐的工程问题。
这就是一个新学科从蛮荒走向成熟的宿命。
夜雨聆风