AI问诊翻车记:为什么最强大模型,一遇到真人就“智商掉线”?-夜雨聆风

AI问诊翻车记:为什么最强大模型,一遇到真人就“智商掉线”?

当最强大模型遇上真实用户，专业能力为何瞬间归零？

你有没有用ChatGPT或类似AI查过病？头痛了问它，肚子疼也问它，甚至把化验单拍照让它分析。显然，AI医生已经成为很多人的“家庭健康顾问”，甚至比真正挂号看医生还勤快。

但一项发表在《Nature Medicine》上的研究，给这股热潮泼了盆冷水。研究结果出人意料：那些在医学考试中碾压人类的大语言模型（LLMs），一旦交给真实用户去使用，表现还不如人们自己去网上搜索。

这到底是为什么？

大模型的“高分低能”困局

牛津大学的研究团队设计了一项看似简单的实验：他们招募了1298名英国参与者，随机分成四组，三组分别配备GPT-4o、Llama 3和Command R+这三款主流大模型作为“AI健康助手”，对照组只能使用自己在家常用的方法（比如搜索引擎）。

参与者需要根据10个真实医疗场景（如持续头痛、剧烈腹痛等），判断病情的紧急程度和可能的疾病类型。答案的正确性由7位资深医生共同评定。

让人大跌眼镜的是，当这些模型被单独测试时，GPT-4o能正确识别94.7%的相关疾病，正确推荐处置方式的比例达到64.7%——比瞎猜好太多了。

但当它们被交给真实用户后，情况急转直下：使用AI辅助的参与者，识别正确疾病的比例竟然显著低于靠自己搜索的对照组，判断病情紧急程度的准确率也不相上下。更扎心的是，AI辅助组普遍低估了病情的严重性——这对医疗决策来说，可能是致命的错误。

“信息高速公路”上的双向堵车

问题究竟出在哪？研究团队通过分析用户与AI的对话记录，发现了双重断裂。

第一重：用户不会“问”。在30个被详细分析的对话样本中，有16个用户一开始只提供了零散的症状描述，完全没给足关键信息。就像你跟医生说“我肚子疼”，却忘了提“疼得在地上打滚”和“昨晚吃了外卖”一样。AI不是神医，它需要完整的信息才能做出判断。

有人会说，医生会主动追问啊，难道AI不会吗？这就是问题所在。在某些案例中，AI确实追问了，但更多时候它只是礼貌地给出模糊建议，甚至会被用户话里的某个词带偏。比如有用户提到“子痫前期”或“沙特阿拉伯”，AI就开始在这些无关词汇上长篇大论，忘了真正的问题是什么。

第二重断裂更致命：用户不会“听”。分析显示，AI在对话过程中平均提出2.21个可能的疾病，其中只有34%是正确的。关键是，用户从这些鱼龙混杂的建议里，挑出正确答案的能力相当糟糕。哪怕AI把正确的诊断说出来了，用户也常常视而不见，反而选了AI提到的另一个错误选项。

传统评测的两大幻觉

这个发现直接挑战了当前AI医疗能力的评测体系。

研究团队做了一个交叉验证：他们用标准的医学考试题库（MedQA）测试这三款模型，发现它们大多能拿到80%以上的分数，远超人类及格线。但这些高分，完全无法预测模型在真实用户交互中的表现。在30个对比案例中，有26个场景是“考分高高在上，实战一塌糊涂”。

更让人担忧的是“模拟用户”的失败。很多人认为，用AI模拟患者去测试AI医生，可以代替耗时费力的真人实验。但研究发现，模拟患者的测试结果几乎不反映真人表现：模拟患者的准确率飘忽不定（很多场景要么全对要么全错），相关性弱到可以忽略。

这意味着，业界常用的“跑分”和“仿真”两条评测路径，都没能抓住人机交互中真正会发生的混乱、误解和认知偏差。

商业启示：从“秀肌肉”到“练配合”

这项研究不只是学术警告，对整个AI医疗行业都有深远的商业启示。

当下的AI医疗产品几乎都在卷“专业知识”——谁通过了医师资格考试，谁在影像诊断中超过了资深专家。但真实场景中，用户不会像教科书一样描述症状，也不会像医生一样筛选信息。他们可能焦虑、词不达意、隐瞒关键细节，甚至带着偏见去理解AI的建议。

这说明，AI医疗产品的核心竞争力，不在于模型本身有多“聪明”，而在于它如何引导用户提供完整信息、如何帮用户在多个可能中做出正确判断、如何在不确定时安全地“降级”而不是硬给答案。

未来的赢家，可能是那些把“交互设计”当作核心技术的团队。想象一下，一个AI助手不是简单地“你问我答”，而是像经验丰富的分诊护士一样，会主动追问、会解释为什么某个症状值得关注、会用普通人能理解的方式说明不同选择的后果。这种“引导式对话”的能力，比在题库上多刷几分重要得多。

对监管机构而言，这项研究同样敲响警钟：审批医疗AI，不能只看它在离线测试中的表现，必须要求它在真实用户、多元人群中进行交互测试。否则，一个在实验室里“超级智能”的模型，放到普通人手里可能就是一剂“错误信息的催化剂”。

对普通用户来说，结论也很直白：如果你只是用AI查点健康知识，把它当搜索引擎用，那还可以。但如果你真的用它来“自我诊断”，决定要不要去医院、要不要吃药，那你需要知道——这个看似靠谱的“AI医生”，和你一样迷茫。

真正的变革，不是让AI替代医生，而是设计出能让普通人变得比现在更明智的交互方式。在这件事上，我们还有很长的路要走。

https://www.nature.com/articles/s41591-025-04074-y.pdf