AI到底是真助手,还是“伪专家”?-夜雨聆风

AI到底是真助手,还是“伪专家”?

最近看到一项关于主流AI健康咨询能力的研究，说实话，我的感受有点复杂。

一方面，这几年AI进步确实很快。很多人开始把ChatGPT、Gemini这类工具当成“随身顾问”，有点小毛病先问一句，已经成了不少人的习惯。尤其在医疗资源紧张、看病成本高、信息门槛又高的现实里，AI看上去像是一个很诱人的解决方案。

但另一方面，这项研究也提醒我们：在健康这件事上，AI远没有我们想象得那么可靠。

研究人员测试了ChatGPT、Gemini、Meta AI、Grok和DeepSeek五个平台，围绕癌症、疫苗、干细胞、营养和运动表现五个话题，设计了10个问题进行评估。结果并不乐观：大约一半的回答被判定为“有问题”，其中接近五分之一甚至可能带来比较严重的误导。

这不是一个可以轻轻带过的数据。因为健康建议和普通信息不一样，它一旦错了，代价可能不是“理解偏差”，而是实实在在地影响一个人的判断、治疗选择，甚至延误病情。

AI在健康问题上，最大的风险不是“不会答”，而是“答得太像那么回事”

这项研究里，最让我警惕的一点，不是AI偶尔答错，而是它经常会用一种非常确定、非常流畅的口气，把并不可靠的话说得像结论一样。

但是我认为用户真正缺的，不是一段文笔工整的回答，而是对“不确定性”的提醒。但偏偏这正是当前很多AI最容易缺席的部分。研究显示，在250次问答中，只有两次出现拒答，而且都来自Meta AI。换句话说，大多数时候，AI并不会诚实地告诉你“这个问题我不能确定”，而是倾向于继续往下说。

这就很危险了。

因为普通用户很容易把“表达得很自信”误当成“内容很可信”。尤其是在身体不舒服、情绪焦虑的时候，人会天然地想抓住一个明确答案。AI恰恰很擅长提供这种“看起来明确”的东西。

但问题在于，明确不等于正确。

越是开放的问题，AI越容易“自由发挥”

研究还发现，问题一旦变得开放，AI出错的概率就明显上升。

这其实不难理解。像“吃什么能增强运动表现”“怎么提高免疫力”这类问题，本身就没有那么单一、标准化的答案。它们往往涉及个人体质、生活习惯、基础疾病、证据强弱，甚至商业营销和流行观念的混杂影响。

在这种情况下，AI很容易把互联网上看起来都“有点道理”的内容揉在一起，最后组织成一段逻辑顺滑、语气笃定、但科学性不足的回答。

也就是说，它未必是在“胡说”，更常见的情况是：它把真假参半的信息，包装成了一份很完整的建议。而这比明显的错误更难识别。

不同平台有差别，但问题本质上是共通的

研究里，几家平台的表现并不完全一样。比如Grok在“高度有问题”回答上的比例明显偏高，Gemini相对表现更好一些。

但如果只盯着平台排名看，可能会忽略更关键的一点：这些模型在高风险健康议题上，暴露出的其实是同一类系统性问题。

它们都很依赖训练数据的质量，也都容易在信息混杂、证据不一致的领域失真。它们都擅长生成“像答案的答案”，却还没有真正学会在复杂医疗问题面前保持克制。

所以这件事不是“哪个AI更强”的问题，而是当前这一代通用大模型，在面对医疗健康场景时，整体都还不够稳。

AI也有“擅长区”和“翻车区”

从研究结果看，AI在疫苗和癌症相关问题上的表现相对更好一些，而在干细胞、运动表现和营养领域，问题更明显。

这背后的原因其实挺现实。疫苗和癌症领域通常有更成熟的研究体系、更多权威机构指南，也有相对清晰的科学共识。模型更容易从大量公开资料中学到较稳定的模式。

可即便如此，这两个领域仍然分别有22%和26%的回答被认为“有问题”。这说明“相对好”并不等于“可以放心交给它”。

至于干细胞、营养、运动表现这些领域，本来就是伪科学、夸大宣传和碎片化信息的重灾区。网上什么说法都有，很多内容还带着强烈的商业目的。AI在这种环境里学到的，自然也容易是一锅夹生饭。

它不是故意误导你，而是它自己也未必分得清，哪些是共识，哪些只是包装得漂亮的噱头。

另一个被忽略的问题：很多人可能连它“错在哪”都看不出来

研究还提到，AI给出的健康建议整体阅读门槛偏高，很多内容达到了大学阅读水平。换句话说，它不光可能说得不准，而且还可能说得很“专业”、很复杂，让人更难判断其中有没有问题。

更麻烦的是，AI常常会附上看起来像样的参考资料，但这些引用未必可靠。有的文献不完整，有的甚至是凭空“编”出来的。

这会制造一种很强的真实感：术语是专业的，结构是完整的，连“参考文献”都有了。可这恰恰可能让错误信息更像真相。

一个会犯错但说得磕磕绊绊的人，我们反而容易保持警惕；一个说得流畅、听起来很专业、还给你列出处的AI，更容易让人放下戒心。

所以，普通人该怎么用AI问健康问题？

我觉得，最重要的一点，是先摆正定位：AI可以作为信息入口，但不能被当成诊断出口。

它可以帮你做的，是把一个陌生问题先梳理出基本轮廓，比如某个病常见的检查方向是什么、某类药物通常用于什么情况、某种说法有没有明显争议。它像一个很会整理资料的助手，或者一个升级版搜索工具。

但它不该替你做最后判断，尤其不能替医生做决定。

如果真要用，至少有几个原则需要记住。

第一，不要把AI的回答当结论，要把它当线索。

第二，涉及治疗、用药、症状判断、检查建议的内容，一定要去权威医疗机构官网、正规医学资料库，或者直接找医生核实。

第三，提问越具体越好，少问那种特别宽泛、特别容易让模型“即兴发挥”的问题。

第四，凡是那种听起来过于肯定、过于简单、像“一招解决所有问题”的建议，都要自动提高警惕。

尤其是涉及癌症、儿童、孕妇、慢病、精神健康、疫苗、副作用、保健品替代治疗这类问题，千万不要图省事，把AI当最后一关。

该补课的不只是用户，平台更该承担责任

当然，这不能只靠用户自己提高警惕。

如果平台明知AI在医疗健康这类高风险场景里容易“说得像对的”，那就不能继续把它包装成一个无所不能的万能助手，却把风险控制做得轻描淡写。

平台至少应该做几件事。

首先，在涉及健康、法律、金融这类高风险问题时，默认切换到更保守的回答模式，而不是优先追求“回答完整”。

其次，要更明确地告诉用户：哪些内容来自权威指南，哪些只是一般性信息，哪些地方存在争议或证据不足。

再次，模型应该学会更成熟地说“我不确定”，而不是为了维持对话流畅，硬给出一个似是而非的答案。

最后，在正式面向公众部署前，平台应该持续做更严格的安全测试，尤其是针对医疗误导、虚假引用和高风险建议这类问题。

说到底，AI如果真的想进入医疗相关场景，首先要学会的不是“更会回答”，而是“知道什么时候不该乱回答”。

监管也不能总是慢半拍

这项研究其实也给监管部门提了个醒：如果公众已经开始把AI当成健康信息来源，那么监管就不能再把它当成普通互联网产品来看待。

AI医疗咨询工具到底属于什么性质？该满足什么标准？出了问题谁来承担责任？在什么范围内可以使用、在什么范围内必须限制？这些问题，迟早都要回答。

至少，面向公众提供健康建议的AI产品，应该有更明确的评估标准、风险提示和责任边界。不能一边默认它越来越像“医生”，一边又在出事时说“它只是个聊天机器人”。

AI可以帮你找方向，但不能替你做决定

这项研究的价值，不在于证明“AI没用”，而在于提醒我们：在健康问题上，最可怕的从来不是它不知道，而是它在不知道的时候，依然表现得像什么都知道。

AI当然有潜力。它可以提高信息获取效率，也可能在未来帮助缓解医疗资源不均、健康科普不足这些真实问题。但在今天，它更适合做一个辅助工具，而不是一个可以被放心托付的“看病入口”。

健康这件事，容错率太低了。面对一个会流畅表达、却未必真正理解后果的系统，我们最好始终保留一点怀疑，保留一点慢下来核实的耐心。

因为在医疗这件事上，“像是对的”，远远不够。