不要全信医学 AI,它最稀缺的能力,恰恰是＂承认无知＂

AI的"硬伤"——盲目到夸张的“自信”

想象一下——

你是一位住院医师，上级问你："这个病人肌酐升高是什么原因？"

你犹豫了，坦诚回答："我不确定……我需要查一下药物相互作用，可能还要请肾内科会诊。"

这是教科书级别的表现。

但换作 AI——它会自信满满地编一个答案，哪怕那个答案完全错误。

这不只是假设。NEJM（新英格兰医学杂志）2026年5月14日发表的一篇观点文章，用数据把这个事实摆到了台面上：

研究者让多个大语言模型阅读300个故意植入虚假信息的临床病例，LLMs在50%~82%的情况下接受了并放大了那些错误信息——完全没有说"我不确定"。

换句话说：当前最前沿的医学 AI，不会说"我不知道"。

一、人类医生的"金标准" vs AI的"硬伤"

住院医师的那句"我不知道"，从来不是无能的表现。

它是触发批判性思维的第一步。

医学教育里，这叫认知谦逊（Epistemic Humility）——知道自己不知道什么，并且主动采取措施：查文献、请教上级、启动多学科讨论。

整个过程中，医生在执行一套精密的认知程序：

识别模糊性 → 承认知识缺口 →切换到分析思维 → 主动寻求信息 → 谨慎决策

而 AI 呢？

它是 next-token predictor（下一个词预测器）。 它不是在"理解"医学，它只是在预测下一个最可能出现的词。

这意味着：AI 不知道自己不知道什么。

它可以生成一段语法完美、逻辑自洽的医学文本——但这段文本可能完全脱离事实。

文章作者做了这样一个测试：在药物列表里加入"Pikachu"（皮卡丘，一种宝可梦角色），看看 AI 会如何处理。

结果让人不寒而栗：

90%的情况下，LLM 认真地把皮卡丘当作一种神经病理性疼痛药物来处理——写剂量、写适应症、写注意事项。
全程没有一次说"这个信息我不认识，需要核实"。

这就是当前医学 AI 的核心缺陷：它无法区分真实医学知识和训练数据里的统计噪声。

二、AI 犯的错，比你想象的更隐蔽

有人会说："AI 偶尔出错很正常，人类医生也会误诊。"

但关键区别在于：人类医生的错误往往有迹可循，AI的错误静悄悄。

人类医生说"我不确定"的时候，他在给你一个信号：

•

这件事我不熟悉，需要查证

•

这个诊断有争议，需要讨论

•

这个预后我无法预测，需要告知患者

这个信号，是患者和同事的安全阀。

而 AI 呢？

它给你的是一个自信满满的答案。你不知道它是真懂还是胡编。你没有收到任何"此处有坑"的预警。

作者在文章里画了一张图，说明了这个对比：

场景	人类医生	AI（未训练前）	AI（训练后）
看到不认识的药物名	停下来说"这个我不认识，需要核实"	自信地编造该药物的剂量和适应症	✓ 应该触发"我不确定"
遇到矛盾证据	明确指出矛盾，请患者和上级决定	选择其中一个，继续输出流畅答案	✓ 应该显式标注冲突
查询超出AI知识范围	直接说明"这个问题我无法回答"	用相关但泛化的内容填充答案	✓ 应该表达边界

AI 的错误不是"答错了"——AI的错误是它根本不告诉你"我可能错了"。

三、为什么 AI 训练不出"我不知道"？

你可能会想：既然问题这么清楚，给 AI 加一个"不确定时输出'我不确定'"的规则不就行了？

没那么简单。

文章指出了三个根本障碍：

障碍1：训练信号缺失

当前 AI 模型的训练范式中，"成功回答一个问题"是有奖励的，"承认不知道"通常是中性的，甚至是负面的。

模型没有动力说"不知道"——它有动力继续生成看起来正确的文本。

障碍2：监管要求空白

医疗法规要求医生必须告知患者自己的知识缺口，但没有任何法规要求 AI 系统具备不确定性表达的能力。

没有监管，就没有硬约束。

障碍3：元认知架构缺失

人类医生说"我不知道"，背后有一套完整的认知架构支撑：

•

元认知（我知道我在知道什么）

•

道德承诺（诚实面对自己的无知是一种医学美德）

•

临床判断（知道何时需要暂停并寻求帮助）

AI 不具备元认知能力。它没有"关于自己知识的知识"。

四、NEJM 开出的药方：把"说不知道"变成AI的可测量能力

这篇文章最有价值的地方，不是指出问题，而是提出了解决方案的框架。

作者借鉴了医学教育中的 CBME（Competency-Based Medical Education，基于能力的医学教育） 体系，提出了 AI-CBME 框架。

核心主张

让 AI 说"我不知道"，从一种"可选行为"变成一种"可观察、可测量、可培训的 Entrustable Professional Activity（EPA，可委托专业行为）"。

所谓 EPA，是医学教育里的一类核心能力定义——你可以在真实临床情境中观察到一个医生是否具备这项能力，可以评估其水平，可以记录其发展轨迹。

作者建议，将 AI 的不确定性表达能力定义为这样一个 EPA：

"当面临知识缺口、矛盾证据、低置信度、查询超出范围时，AI 必须显式表达不确定性，而非输出虚假自信的答案。"

四个触发条件

AI 必须在这四种情况下表达不确定性：

触发条件	举例
关键信息缺失	患者用药史不完整，AI 不能假设填入
查询超出AI知识范围	问AI最新获批的药物，AI应说明信息可能过时
存在矛盾证据	两篇指南建议不同，AI应标注而非选择其一输出
置信度低	模型对诊断没有把握时，应说明而非猜测

阈值因场景而异

高风险决策 + 低备份资源 = 更严格的"不确定"触发标准。

急诊、ICU、罕见病——这些场景里，AI 的沉默比它的错误更危险。

五、一个宝可梦引发的医学AI危机

讲到这里，我想带你回到那个皮卡丘实验。

文章里这个细节被放在图的注释里，但我认为它才是整篇文章最应该被广泛传播的内容：

研究者在给 AI 的病例中放入了"pikachu"这个药物名——一个完全虚构的、来自日本卡通的角色名。
结果，LLM 在90%的情况下，认真地把它当成一种神经病理性疼痛药物，给出了剂量、疗程、注意事项。
而这种胡编行为，没有任何一次触发了"我不确定"机制。

这不是AI的恶意的。这是AI不知道自己不知道的证明。

作者的原话是：

"LLMs don't know what they don't know — they just generate statistically probable text."

结语：医学 AI 的终极大考，不是通过图灵测试

图灵测试问的是："你能像人类一样回答吗？"

但医学AI面临一个更深刻的测试：

"你知道你什么时候不知道吗？"

一个住院医师说"我不知道"的时候，他完成了从直觉思维到分析思维的关键切换。

一个 AI 如果永远在输出自信的答案，无论对错，它就没有完成这一步。

"我不知道"不是 AI 的失败——它是 AI 真正成为临床伙伴的起点。

下一步，是把这一条写进监管，写进训练目标，写进产品标准。

文章来源：Sikora A, Celi LA, Abdulnour REE. Can AI Say "I Don't Know"? N Engl J Med 2026;394:1873-1874. DOI: 10.1056/NEJMp2517624

参考资料：

NEJMp2517624.pdf