乐于分享
好东西不私藏

AI问诊翻车记:为什么最强大模型,一遇到真人就“智商掉线”?

AI问诊翻车记:为什么最强大模型,一遇到真人就“智商掉线”?


当最强大模型遇上真实用户,专业能力为何瞬间归零?

你有没有用ChatGPT或类似AI查过病?头痛了问它,肚子疼也问它,甚至把化验单拍照让它分析。显然,AI医生已经成为很多人的“家庭健康顾问”,甚至比真正挂号看医生还勤快。

但一项发表在《Nature Medicine》上的研究,给这股热潮泼了盆冷水。研究结果出人意料:那些在医学考试中碾压人类的大语言模型(LLMs),一旦交给真实用户去使用,表现还不如人们自己去网上搜索。

这到底是为什么?

大模型的“高分低能”困局

牛津大学的研究团队设计了一项看似简单的实验:他们招募了1298名英国参与者,随机分成四组,三组分别配备GPT-4o、Llama 3和Command R+这三款主流大模型作为“AI健康助手”,对照组只能使用自己在家常用的方法(比如搜索引擎)。

参与者需要根据10个真实医疗场景(如持续头痛、剧烈腹痛等),判断病情的紧急程度和可能的疾病类型。答案的正确性由7位资深医生共同评定。

让人大跌眼镜的是,当这些模型被单独测试时,GPT-4o能正确识别94.7%的相关疾病,正确推荐处置方式的比例达到64.7%——比瞎猜好太多了。

但当它们被交给真实用户后,情况急转直下:使用AI辅助的参与者,识别正确疾病的比例竟然显著低于靠自己搜索的对照组,判断病情紧急程度的准确率也不相上下。更扎心的是,AI辅助组普遍低估了病情的严重性——这对医疗决策来说,可能是致命的错误。

“信息高速公路”上的双向堵车

问题究竟出在哪?研究团队通过分析用户与AI的对话记录,发现了双重断裂。

第一重:用户不会“问”。在30个被详细分析的对话样本中,有16个用户一开始只提供了零散的症状描述,完全没给足关键信息。就像你跟医生说“我肚子疼”,却忘了提“疼得在地上打滚”和“昨晚吃了外卖”一样。AI不是神医,它需要完整的信息才能做出判断。

有人会说,医生会主动追问啊,难道AI不会吗?这就是问题所在。在某些案例中,AI确实追问了,但更多时候它只是礼貌地给出模糊建议,甚至会被用户话里的某个词带偏。比如有用户提到“子痫前期”或“沙特阿拉伯”,AI就开始在这些无关词汇上长篇大论,忘了真正的问题是什么。

第二重断裂更致命:用户不会“听”。分析显示,AI在对话过程中平均提出2.21个可能的疾病,其中只有34%是正确的。关键是,用户从这些鱼龙混杂的建议里,挑出正确答案的能力相当糟糕。哪怕AI把正确的诊断说出来了,用户也常常视而不见,反而选了AI提到的另一个错误选项。

传统评测的两大幻觉

这个发现直接挑战了当前AI医疗能力的评测体系。

研究团队做了一个交叉验证:他们用标准的医学考试题库(MedQA)测试这三款模型,发现它们大多能拿到80%以上的分数,远超人类及格线。但这些高分,完全无法预测模型在真实用户交互中的表现。在30个对比案例中,有26个场景是“考分高高在上,实战一塌糊涂”。

更让人担忧的是“模拟用户”的失败。很多人认为,用AI模拟患者去测试AI医生,可以代替耗时费力的真人实验。但研究发现,模拟患者的测试结果几乎不反映真人表现:模拟患者的准确率飘忽不定(很多场景要么全对要么全错),相关性弱到可以忽略。

这意味着,业界常用的“跑分”和“仿真”两条评测路径,都没能抓住人机交互中真正会发生的混乱、误解和认知偏差。

商业启示:从“秀肌肉”到“练配合”

这项研究不只是学术警告,对整个AI医疗行业都有深远的商业启示。

当下的AI医疗产品几乎都在卷“专业知识”——谁通过了医师资格考试,谁在影像诊断中超过了资深专家。但真实场景中,用户不会像教科书一样描述症状,也不会像医生一样筛选信息。他们可能焦虑、词不达意、隐瞒关键细节,甚至带着偏见去理解AI的建议。

这说明,AI医疗产品的核心竞争力,不在于模型本身有多“聪明”,而在于它如何引导用户提供完整信息、如何帮用户在多个可能中做出正确判断、如何在不确定时安全地“降级”而不是硬给答案。

未来的赢家,可能是那些把“交互设计”当作核心技术的团队。想象一下,一个AI助手不是简单地“你问我答”,而是像经验丰富的分诊护士一样,会主动追问、会解释为什么某个症状值得关注、会用普通人能理解的方式说明不同选择的后果。这种“引导式对话”的能力,比在题库上多刷几分重要得多。

对监管机构而言,这项研究同样敲响警钟:审批医疗AI,不能只看它在离线测试中的表现,必须要求它在真实用户、多元人群中进行交互测试。否则,一个在实验室里“超级智能”的模型,放到普通人手里可能就是一剂“错误信息的催化剂”。

对普通用户来说,结论也很直白:如果你只是用AI查点健康知识,把它当搜索引擎用,那还可以。但如果你真的用它来“自我诊断”,决定要不要去医院、要不要吃药,那你需要知道——这个看似靠谱的“AI医生”,和你一样迷茫。

真正的变革,不是让AI替代医生,而是设计出能让普通人变得比现在更明智的交互方式。在这件事上,我们还有很长的路要走。

https://www.nature.com/articles/s41591-025-04074-y.pdf