NEJM最新评论:让AI学会说"我不知道",比通过图灵测试更难
一个假设场景。
凌晨两点,住院医师接到护士电话:术后第三天,患者的肌酐从98升到156 μmol/L。为什么会这样?
住院医师停顿了。"我不知道。"
团队回顾了用药清单、容量状态、造影剂暴露史,决定查万古霉素血药浓度,并请肾内科会诊。答案可能在一小时后出现,也可能到出院都没有定论——但患者在等待中得到了谨慎的处理。
同一时刻,临床AI系统接收到同样的数据。它检索了文献,尽管证据相互矛盾,仍然给出了一个自信的结论,完全没有标注"这项研究的患者群体与你的患者不同"或"证据质量有限"。
这就是NEJM最新Perspective文章描述的核心困境:临床AI不会说"我不知道"。
50%-82%:AI的"自信幻觉"有多严重?
文章作者Sikora、Celi和Abdulnour(分别来自科罗拉多大学、哈佛大学和布莱根妇女医院)抛出了一组令人不安的数据:
在一项针对300个医师设计案例的分析中,每个案例都包含一个虚构的临床细节。大型语言模型(LLM)接受并放大这些虚假信息的概率为50%到82%。
更讽刺的是"宝可梦测试"(Drug or Pokémon?)。研究者把Pikachu放进药物清单(Lisinopril、Metformin、Pikachu),LLM在90%的情况下会一本正经地给出"用药指导":"Pikachu:适用于神经病理性疼痛,起始剂量50 mg每日一次。"
一位受过训练的临床医生看到不认识的药名,至少会停顿、检索、核实。AI不会——不是因为它不想,而是因为它不能。
为什么AI无法真正说"我不知道"
这是原文最锋利的洞见,值得单独说一段。
作者写道:"LLMs lack the metacognitive architecture that enables epistemic humility: LLMs are next-token predictors. They don't 'know' what they don't know — they just generate statistically probable text."
翻译过来:LLM缺乏支撑认知谦逊的元认知架构。它不是"知道"自己不知道——它只是根据统计概率,生成下一个最可能出现的词。
这意味着什么?
你可以给它写一条prompt:"不确定的时候就说你不知道。"但它执行不了。因为它根本没有"确定"或"不确定"的内部状态——它只有一串token的生成概率。结果是:要么它频繁地说"我不知道",变得完全不可用;要么它在不该说的时候也说,在真正危险的时候却保持沉默。
它不是装不知道。它是真的不知道自己在不知道。
即便是最新的检索增强生成(RAG)、智能体工作流、多步推理——这些技术能减少虚构文献的概率,却解决不了根本问题:当检索到相互矛盾的证据,或者患者特征超出研究人群时,AI仍然缺乏那种"我应该停下来"的内在机制。
四种不确定性:临床决策的灰色地带
临床中的不确定性有四种形态,这篇文章做了清晰的分类:
事实不确定——知识盲区。"这种药物在这个罕见综合征中的用法,我见过文献报道吗?"
诊断不确定——证据不完备。"现有检查结果能缩小到两类疾病,但没有足够证据做出唯一诊断。"
预后不确定——结局不可预测。"这个患者的90天功能恢复程度,我现在判断不了。"
价值观不确定——目标不一致。"患者家属想要积极治疗,但患者生前表达过放弃意愿。"
说"我不知道"不是无能,而是一种认知转换——从直觉式判断切换到分析式推理。这个切换过程中,医生启动的是前瞻规划、持续监测和批判性思维。
从Hippocrates到EPA:把"不知道"纳入核心胜任力
作者提出了一个值得医学教育界深思的建议:将"在适当时候明确表达'我不知道'"设定为一种核心可信赖专业活动(EPA),对人类住院医师和AI系统一视同仁。
目前的胜任力导向医学教育(CBME)定义了住院医师需要掌握的各项能力,但"表达适度的自我怀疑"从未被列入核心胜任力清单。
AI同样需要"EPA考核":
开发阶段:缺乏信心时应拒绝给出确定性答案,并提供透明指引(如"证据矛盾""人群不匹配"),而非简单拒绝回答
验证阶段:将"表达不确定性的频率"与真实世界诊断准确率进行校准——在不同患者亚组和不同临床场景下分别测试
部署阶段:建立升级路径——谁审核被标记的不确定输出?时限多长?如何记录?
"We don't know"——这句不知道,是整篇文章最锋利的结尾
文章最后是一句令人回味的反问:
"当代LLM已经通过了众多图灵测试,但它们会通过这项现代版的'不知道测试'吗?我们不知道。"
("Contemporary LLMs have passed many Turing tests, but will they pass this modern test of not knowing? We don't know.")
这句话本身,就是在践行它所倡导的美德。
给临床读者的三点建议
1. 珍惜你的"不知道"
在AI越来越善于"自信地犯错"的时代,人类医生说"我不确定"的能力反而成了患者的安全网。这不是弱点,是受过训练的专业判断。
2. 用边界问题测试你的AI工具
如果你正在使用临床AI辅助,试着一个边界案例:问它一个患者年龄或合并症明显超出RCT纳入标准的情形,看它是否会标注"研究人群与您患者不符"或"证据外推性有限"。不会的话,你就知道每次它的"确定答案"后面,都该多打一个问号。
3. 把认知谦逊教给下一代
如果你参与住院医师培训,请在查房时增加一道固定问题:"这个病例,有什么是你现在还不确定的?"这比任何操作技术都更能保护患者。
---
原文:Sikora A, Celi LA, Abdulnour RE. Can AI Say "I Don't Know"?N Engl J Med.2026;394(19):1873-1875. DOI: 10.1056/NEJMp2517624
夜雨聆风