AI说「我90%确定」,这句话本身就是个谎言

AI说「我90%确定」,这句话本身就是个谎言
当一个人说「我有八九成把握」,你会本能地判断他是不是在吹牛。但当AI说出同样的话,大多数人直接信了。问题在于:AI的「置信度」根本不是你以为的那种确定感,它是另一种东西,而且很可能系统性地骗了你。
先从一个场景说起。你用AI辅助做医学查询,它回答:「该症状与X疾病的相关性为87%。」你松了口气,觉得挺靠谱。但87%是怎么来的?它代表什么意思?如果我告诉你,这个数字在很多情况下是模型自己「感觉」出来的,而不是统计计算出来的,你还会那么安心吗?
置信度不是概率,是模型的「语气词」
语言模型输出置信度的方式,和人类说话时的语气词本质上很像。「可能」「大概」「我认为」——这些词在人类对话里是模糊的情绪信号,不是精确的统计量。AI输出的置信度数字,表面上更精确,但精确的外壳里装的,依然是模糊的内容。
技术上解释一下。语言模型在生成每个词时,会对词表里所有词计算一个概率分布,选概率最高的那个输出。这个过程确实涉及概率。但当模型说「我有90%的把握」,它并不是在做贝叶斯推断,不是在统计训练数据里有多少比例的案例支持这个结论。它只是在学习:在这种语境下,人类通常会说什么样的置信度表述。换句话说,模型是在模仿表达置信度,而不是在计算置信度。
「
一个擅长模仿自信的系统,和一个真正可靠的系统,从外表上很难区分。
」
什么是「校准」:一把量尺坏了,所有测量都没意义
置信度校准(Calibration)研究的就是这个问题:当模型说「我X%确定」,它说的那个X,和现实中它真正答对的比例,到底有多匹配?
90%
如果模型说「我90%确定」的问题,真实答对率只有60%,这个模型就是过度自信的——也叫「校准偏差」
一个校准良好的模型,应该满足这样的标准:在所有它声称「90%确定」的回答里,大约真的有90%是对的;在所有它声称「50%确定」的回答里,大约真的有50%是对的。听起来简单,做到却极难。研究表明,大多数语言模型在高置信度区间存在系统性高估,也就是说,越自信的回答,反而越需要警惕。
为什么模型会「不知道自己不知道」
人类有一种元认知能力——知道自己知道什么,也知道自己不知道什么。这种能力是后天习得的,需要大量的失败反馈来校正。一个从没考过砸的学生,往往是最容易高估自己的那个。
语言模型的训练过程有一个结构性缺陷:它主要从「正确表达」中学习,而不是从「表达错误后被纠正」中学习。人类写下来的文字,本来就倾向于自信、确定、完整——没人会在文章里大量记录自己的疑惑和错误。模型吃进去的是人类最「确定」的那部分输出,于是它学会了:说话要听起来确定。
1训练数据偏向确定性表达,不确定的内容天然被过滤掉
2模型没有「不知道就停下来」的内在机制,它总要输出些什么
3RLHF等对齐训练有时反而强化了流畅自信的风格,因为这样的回答更受人类评分者青睐
这三点叠加,造成了一个系统性的倾向:模型在不确定的领域,仍然会用确定的语气说话。这不是模型在撒谎,而是它根本没有能力感知自己的无知边界。
校准的代价与两难
既然知道问题所在,为什么不直接修?现实是,提升校准质量本身就充满矛盾。
一方面,过度追求校准会让模型变得「废话连篇」。每句话都加上「但我不确定」「这只是我的估计」,用户体验会很差,而且大量的不确定声明反而会淹没真正重要的警示信号。另一方面,如果让模型学会在不确定时明确说「我不知道」,它可能会把这个策略用在它其实知道答案的地方——毕竟「我不知道」是最安全的回答。
「
真正的校准不是让模型更谦虚,而是让它的谦虚程度精确匹配它真实的无知程度。
」
目前学界在做的事情,包括用专门的校准损失函数训练模型、引入温度缩放(Temperature Scaling)来调整概率分布、以及用对比解码等方法让模型输出更真实的不确定性估计。但这些方法都有局限,校准是个持续工程,没有一劳永逸的解法。
你能做什么:和AI打交道的一条实用原则
理解了置信度校准,对普通用户来说最有价值的结论只有一条:不要用「AI说得多自信」来判断信息是否可靠。自信程度和准确程度,在语言模型这里是两条几乎独立的线。
●在高风险决策场景(医疗、法律、金融),AI给出的置信度数字参考意义极为有限,必须引入外部验证。低风险的日常问答,置信度可以作为粗略参考,但别当真理对待。
有一个反直觉的小技巧:如果你想判断AI对某个问题的真实把握程度,与其看它有多自信,不如换个方式问同一个问题,或者直接问「你在这个问题上可能会犯什么错」。模型在被迫审视自身局限时,有时候会暴露出它在正向作答时藏起来的不确定性。
✦ 小结
置信度校准说的是一件很简单的事:模型说的「我确定」,和它真的对,是两码事。这不是AI的道德问题,是它的结构性局限。真正理解这一点的人,会把AI当一个「知识面极广但自我感知有偏差的顾问」来用——多听它的信息输出,少信它的置信度标签。
夜雨聆风