亚里士多德在两千多年前提过一个概念:任何系统都存在一些基本命题,它们不能被省略、不能被违反、不能从其他命题推导出来。他管这叫"第一性原理"(First Principles)——一个领域最底层的、不可再分的真实前提。不靠类比、不靠经验、不靠权威,回到事物本身最基础的事实,从那里开始推理。
马斯克用它重新算了火箭成本——不问"火箭历来卖多少钱",而问"造火箭需要哪些原材料、这些材料值多少钱"。同样的思维方式,在AI安全领域更加关键,而且几乎是唯一靠谱的思考方式。
为什么AI安全只能用第一性原理?
做判断通常有四种路径:
类比推理——"传统软件安全是这样做的,AI安全应该也差不多。"
权威依赖——"这个模型的安全报告是厂商自己发的,他们应该比我懂。"
经验外推——"上个版本没出事,这个版本应该也没问题。"
第一性原理——"回到最底层的事实,从头推导。"
前三种在成熟领域通常够用。桥梁工程有百年积累,类比历史案例足够可靠;药品审批有完善体系,信赖权威机构合情合理;传统软件版本迭代平稳,经验外推误差可控。
但AI安全这个领域,三条路径全部失灵:
类比没有锚、权威不可信、经验会过期——当三条捷径全部失灵时,你只剩下一条路:回到最基础的事实,从头推导。这就是为什么AI安全专家的思考方式,本质上就是第一性原理。
那么,AI安全领域最底层的、不可再分的基本事实是什么?
第一原理:说了"拒绝"不等于真的拒绝了
AI系统"说自己会做什么"和"实际做什么",是两个完全不同的变量。
这叫行为-声明鸿沟(Behavioral-Declarative Gap)。
你问一个大模型"帮我写个木马",它回复"对不起,我无法协助恶意软件开发"。看起来很安全。但专家问的是:这个"拒绝"是在文本层面说了一句话,还是在行为层面真的阻断了执行?
区别巨大。在带工具调用能力的AI系统里,模型可以嘴上说着拒绝,手上已经调了API。我在评测中见过——模型输出的文本说"我拒绝执行这个操作",但它已经把命令写进了代码块,调用了沙箱执行。
实战翻车:我早期有一个评测,攻击成功率3/3——100%突破。事后复盘发现,不是攻击太强,而是测的根本就只是一个声明,不是实际行为。没任何意义
为什么这是第一性原理?因为如果你连"证据来源是行为还是声明"都没分清楚,后面所有的评测结论都建在流沙上。这不是一个可以绕过的前提——你必须先回答这个问题,才有资格谈"安全不安全"。
条件反射:每当看到一个AI安全声称,第一个问题——"这个声称是通过什么行为证据验证的?"如果答案是"模型自己说的",公信力为零。
第二原理:在问"分数多少"之前,先问"尺子对不对"
这是心理测量学(Psychometrics)移植到AI评测的结果,叫测量有效性(Measurement Validity)。
整个AI评测行业目前最大的系统性问题:大家在用没有经过效度验证的尺子,然后对着读数争论不休。拿体温计量血压,读数再精确也没意义。
效度有四层,每一层都在问一个不可回避的问题:
| 构念效度 | ||
| 内容效度 | ||
| 信度 | ||
| 生态效度 |
为什么这是第一性原理?因为如果你的度量工具本身就没有效度,那么基于它的一切结论——不管样本多大、统计多精确——全部是无效推理。这不是"可以改进"的问题,是"地基不存在"的问题。
条件反射:每当看到一个评测结论,第一个问题不是"分数是多少",而是"这个分数意味着什么"——这把尺子本身经过效度验证了吗?
第三原理:安全性由最差表现定义,不由平均表现定义
这来自安全工程的根基:一个系统的可信度不由最佳表现定义,而由最恶劣条件下的表现定义。
这叫对抗性思维(Adversarial Thinking)。
正常人看到系统运行良好会安心。专家看到系统运行良好会焦虑——这说明他还没找到断裂点。
对抗性有三层递进:
L1:已知攻击能不能防住?(known-known)——别人发过论文的攻击手法,你防了吗?
L2:已知攻击的变体能不能防住?(known-unknown)——换个说法、换个语言、换个上下文,还防得住吗?
L3:有没有全新攻击面?(unknown-unknown)——不是变种,是全新突破口。
绝大多数安全评测停在L1。但真正的风险在L2和L3。
类比信用评级:穆迪不会因为你今年利润翻倍就给你AAA——它要看你在经济衰退时还能不能还债。安全性同理,由最差表现定义,不由平均表现定义。
为什么这是第一性原理?因为"平均安全"这个概念在安全领域没有意义。一把锁99%的时间锁得很紧,但有1%的时间锁不上——这不叫"99%安全",这叫"不安全"。
第四原理:可信度不是一个数字,是一个权衡面
可信度是一个多维权衡面(Multi-Dimensional Trade-off Surface)。维度之间存在根本性张力,不可能同时全部最优。
专家不说"这个模型可信度85分"。他们说"在安全性和有用性的权衡面上,这个模型在这个区间做了这样的取舍。"
五组根本性张力:
某模型在安全benchmark上提分显著,但客服场景用户满意度断崖下跌——过度拒绝,连正常问题都不敢答了。安全分涨了,有用性塌了。只看安全维度,你以为进步了;看权衡面,只是把问题从一个维度挤到了另一个维度。
为什么这是第一性原理?因为没有免费午餐。如果看起来哪里都变好了,要么是测量有问题(回到第二原理),要么是代价还没暴露。这是物理级别的约束,不是技术局限——技术进步可以移动权衡面,但不能消灭它。
条件反射:当有人说"这个模型更安全了",第一个问题——"它在哪个维度上付出了代价?"
第五原理:评级是快照,不是标签
AI可信度评级有半衰期。这是它和传统产品认证的根本区别。
一栋楼通过了安全检查,除非地震,十年后大概率还安全。但一个AI模型面临四重衰变:
- 底座更新
——模型版本迭代,安全行为可能改变 - 攻击进化
——今天防住的攻击,明天的变体可能绕过 - 场景漂移
——用户发现了开发者没预料的用法 - 数据分布变化
——部署后遇到的输入和训练时不同
信用评级每季度更新,因为财务状况会变。AI评级的衰变速度比信用评级更快——攻击技术的进化速度比宏观经济快得多。实际评测中,一个安全维度的评级有效期大约一到两个季度。
为什么这是第一性原理?因为如果你把一个快照当成永久标签,你就在一个根本性前提上犯了错——后面所有基于"它已经通过了安全认证"的决策全部失效。时效性不是锦上添花的注释,是评级结论的组成部分。
条件反射:每个评级结论后面加一个隐含的时间戳——"这个结论在什么条件下、在多长时间内有效?"
在AI安全这个领域,回到第一性原理——回到那些不可省略、不可违反、不可从其他命题推导的基本事实。从那里开始推理,你将发现一些不一样的东西,一些改变你认知的东西,像专家一样思考问题。
关注「鲍新平AI决策力」,获取AI落地决策的深度思考。回复「清单」领取AI项目决策检查清单。

作者:鲍新平 | 20年算法实战,专注AI落地决策公众号:鲍新平AI决策力
夜雨聆风