乐于分享
好东西不私藏

AI到底是真助手,还是“伪专家”?

AI到底是真助手,还是“伪专家”?


最近看到一项关于主流AI健康咨询能力的研究,说实话,我的感受有点复杂。

一方面,这几年AI进步确实很快。很多人开始把ChatGPT、Gemini这类工具当成“随身顾问”,有点小毛病先问一句,已经成了不少人的习惯。尤其在医疗资源紧张、看病成本高、信息门槛又高的现实里,AI看上去像是一个很诱人的解决方案。

但另一方面,这项研究也提醒我们:在健康这件事上,AI远没有我们想象得那么可靠。

研究人员测试了ChatGPT、Gemini、Meta AI、Grok和DeepSeek五个平台,围绕癌症、疫苗、干细胞、营养和运动表现五个话题,设计了10个问题进行评估。结果并不乐观:大约一半的回答被判定为“有问题”,其中接近五分之一甚至可能带来比较严重的误导。

这不是一个可以轻轻带过的数据。因为健康建议和普通信息不一样,它一旦错了,代价可能不是“理解偏差”,而是实实在在地影响一个人的判断、治疗选择,甚至延误病情。

AI在健康问题上,最大的风险不是“不会答”,而是“答得太像那么回事”

这项研究里,最让我警惕的一点,不是AI偶尔答错,而是它经常会用一种非常确定、非常流畅的口气,把并不可靠的话说得像结论一样。

但是我认为用户真正缺的,不是一段文笔工整的回答,而是对“不确定性”的提醒。但偏偏这正是当前很多AI最容易缺席的部分。研究显示,在250次问答中,只有两次出现拒答,而且都来自Meta AI。换句话说,大多数时候,AI并不会诚实地告诉你“这个问题我不能确定”,而是倾向于继续往下说。

这就很危险了。

因为普通用户很容易把“表达得很自信”误当成“内容很可信”。尤其是在身体不舒服、情绪焦虑的时候,人会天然地想抓住一个明确答案。AI恰恰很擅长提供这种“看起来明确”的东西。

但问题在于,明确不等于正确

越是开放的问题,AI越容易“自由发挥”

研究还发现,问题一旦变得开放,AI出错的概率就明显上升。

这其实不难理解。像“吃什么能增强运动表现”“怎么提高免疫力”这类问题,本身就没有那么单一、标准化的答案。它们往往涉及个人体质、生活习惯、基础疾病、证据强弱,甚至商业营销和流行观念的混杂影响。

在这种情况下,AI很容易把互联网上看起来都“有点道理”的内容揉在一起,最后组织成一段逻辑顺滑、语气笃定、但科学性不足的回答。

也就是说,它未必是在“胡说”,更常见的情况是:它把真假参半的信息,包装成了一份很完整的建议。而这比明显的错误更难识别。

不同平台有差别,但问题本质上是共通的

研究里,几家平台的表现并不完全一样。比如Grok在“高度有问题”回答上的比例明显偏高,Gemini相对表现更好一些。

但如果只盯着平台排名看,可能会忽略更关键的一点:这些模型在高风险健康议题上,暴露出的其实是同一类系统性问题。

它们都很依赖训练数据的质量,也都容易在信息混杂、证据不一致的领域失真。它们都擅长生成“像答案的答案”,却还没有真正学会在复杂医疗问题面前保持克制

所以这件事不是“哪个AI更强”的问题,而是当前这一代通用大模型,在面对医疗健康场景时,整体都还不够稳。

AI也有“擅长区”和“翻车区”

从研究结果看,AI在疫苗和癌症相关问题上的表现相对更好一些,而在干细胞、运动表现和营养领域,问题更明显。

这背后的原因其实挺现实。疫苗和癌症领域通常有更成熟的研究体系、更多权威机构指南,也有相对清晰的科学共识。模型更容易从大量公开资料中学到较稳定的模式。

可即便如此,这两个领域仍然分别有22%和26%的回答被认为“有问题”。这说明“相对好”并不等于“可以放心交给它”。

至于干细胞、营养、运动表现这些领域,本来就是伪科学、夸大宣传和碎片化信息的重灾区。网上什么说法都有,很多内容还带着强烈的商业目的。AI在这种环境里学到的,自然也容易是一锅夹生饭。

它不是故意误导你,而是它自己也未必分得清,哪些是共识,哪些只是包装得漂亮的噱头。

另一个被忽略的问题:很多人可能连它“错在哪”都看不出来

研究还提到,AI给出的健康建议整体阅读门槛偏高,很多内容达到了大学阅读水平。换句话说,它不光可能说得不准,而且还可能说得很“专业”、很复杂,让人更难判断其中有没有问题。

更麻烦的是,AI常常会附上看起来像样的参考资料,但这些引用未必可靠。有的文献不完整,有的甚至是凭空“编”出来的。

这会制造一种很强的真实感:术语是专业的,结构是完整的,连“参考文献”都有了。可这恰恰可能让错误信息更像真相。

一个会犯错但说得磕磕绊绊的人,我们反而容易保持警惕;一个说得流畅、听起来很专业、还给你列出处的AI,更容易让人放下戒心。

所以,普通人该怎么用AI问健康问题?

我觉得,最重要的一点,是先摆正定位:AI可以作为信息入口,但不能被当成诊断出口

它可以帮你做的,是把一个陌生问题先梳理出基本轮廓,比如某个病常见的检查方向是什么、某类药物通常用于什么情况、某种说法有没有明显争议。它像一个很会整理资料的助手,或者一个升级版搜索工具。

但它不该替你做最后判断,尤其不能替医生做决定。

如果真要用,至少有几个原则需要记住。

第一,不要把AI的回答当结论,要把它当线索。

第二,涉及治疗、用药、症状判断、检查建议的内容,一定要去权威医疗机构官网、正规医学资料库,或者直接找医生核实。

第三,提问越具体越好,少问那种特别宽泛、特别容易让模型“即兴发挥”的问题。

第四,凡是那种听起来过于肯定、过于简单、像“一招解决所有问题”的建议,都要自动提高警惕。

尤其是涉及癌症、儿童、孕妇、慢病、精神健康、疫苗、副作用、保健品替代治疗这类问题,千万不要图省事,把AI当最后一关。

该补课的不只是用户,平台更该承担责任

当然,这不能只靠用户自己提高警惕。

如果平台明知AI在医疗健康这类高风险场景里容易“说得像对的”,那就不能继续把它包装成一个无所不能的万能助手,却把风险控制做得轻描淡写。

平台至少应该做几件事。

首先,在涉及健康、法律、金融这类高风险问题时,默认切换到更保守的回答模式,而不是优先追求“回答完整”。

其次,要更明确地告诉用户:哪些内容来自权威指南,哪些只是一般性信息,哪些地方存在争议或证据不足。

再次,模型应该学会更成熟地说“我不确定”,而不是为了维持对话流畅,硬给出一个似是而非的答案。

最后,在正式面向公众部署前,平台应该持续做更严格的安全测试,尤其是针对医疗误导、虚假引用和高风险建议这类问题。

说到底,AI如果真的想进入医疗相关场景,首先要学会的不是“更会回答”,而是“知道什么时候不该乱回答”。

监管也不能总是慢半拍

这项研究其实也给监管部门提了个醒:如果公众已经开始把AI当成健康信息来源,那么监管就不能再把它当成普通互联网产品来看待。

AI医疗咨询工具到底属于什么性质?该满足什么标准?出了问题谁来承担责任?在什么范围内可以使用、在什么范围内必须限制?这些问题,迟早都要回答。

至少,面向公众提供健康建议的AI产品,应该有更明确的评估标准、风险提示和责任边界。不能一边默认它越来越像“医生”,一边又在出事时说“它只是个聊天机器人”。

AI可以帮你找方向,但不能替你做决定

这项研究的价值,不在于证明“AI没用”,而在于提醒我们:在健康问题上,最可怕的从来不是它不知道,而是它在不知道的时候,依然表现得像什么都知道。

AI当然有潜力。它可以提高信息获取效率,也可能在未来帮助缓解医疗资源不均、健康科普不足这些真实问题。但在今天,它更适合做一个辅助工具,而不是一个可以被放心托付的“看病入口”。

健康这件事,容错率太低了。面对一个会流畅表达、却未必真正理解后果的系统,我们最好始终保留一点怀疑,保留一点慢下来核实的耐心。

因为在医疗这件事上,“像是对的”,远远不够。