缺乏独立验证的AI健康工具正在涌向美国大众

近期,微软、亚马逊、OpenAI等科技巨头纷纷推出或开放了基于大语言模型的健康聊天机器人,试图为大众提供一条获取医疗建议的新捷径。科技公司的发布速度已经明显跑在了独立科学验证的前面。
从微软的Copilot Health,到亚马逊全面开放的Health AI,再到OpenAI的ChatGPT Health和Anthropic的Claude,面向消费者的AI健康助手已形成一股不可忽视的浪潮。然而,尽管这些工具展现出巨大潜力,研究人员普遍警告,在缺乏严格、独立的第三方评估的情况下,仓促推广这类产品可能带来难以预料的风险。
需求驱动
—
为什么科技巨头纷纷押注AI健康?
科技公司争相布局AI健康,并非凭空想象,而是源于真实而强烈的市场需求。据微软披露,其Copilot每日收到约5000万个健康问题,健康已成为该应用最热门的讨论话题。OpenAI健康团队负责人卡兰·辛格尔也观察到,早在公司正式发布健康产品之前,ChatGPT上健康相关问题的使用率就在“快速、快速地增长”。
许多专家认为,这一趋势折射出的不仅是技术吸引力,更是现实医疗系统的痛点。西奈山卫生系统首席人工智能官吉里什·纳达卡尼指出:“这些工具之所以存在并在整体格局中占有一席之地,是因为获得医疗服务很困难,对某些特定人群来说尤其困难。”正因如此,一个24小时可用、不带评判眼光的AI助手,对于难以获得常规医疗服务的群体来说,具有天然的吸引力。
目标收益
—
缓解系统压力,改善健康可及性
支持者认为,AI健康助手有望在减轻医疗系统负担的同时改善用户健康。
例如分诊这一典型场景中,AI可以帮助用户判断自己的症状是否需要紧急就医。如果分诊功能有效,急重症患者可能更早寻求帮助,而轻症患者则可以在AI指导下居家管理,避免不必要地挤占急诊室和医生办公室。
牛津互联网研究所博士生安德鲁·比恩对此持开放态度:“考虑到我们总是需要更多的医疗服务,我认为一切可能有效的途径都值得探索。这些模型完全有可能已经达到了值得推广的程度。”对于只能偶尔见到医生的群体而言,一个持续可及、即使偶尔出错的AI助手,只要错误不太严重,也可能比现状有明显改善。
核心风险
—
未经充分测试,安全性与有效性存疑
然而,理想很丰满,现实却充满风险。最直接的证据来自一项由纳达卡尼及其西奈山团队进行的研究。他们发现,ChatGPT Health有时会为轻微病症推荐过多的护理,却难以识别真正的紧急情况,有时甚至威胁到患者安全。
更令人担忧的是用户误用的风险。尽管这些工具普遍附有“不适用于诊断或治疗”的免责声明,但贝斯以色列女执事医疗中心的内科医生兼研究员、谷歌访问学者亚当·罗德曼一针见血地指出:“我们都知道人们会用它来进行诊断和治疗。”换句话说,免责声明很容易被忽视。
此外,人机协作的鸿沟也不容小觑。比恩及其同事上个月发表的一项研究表明,即使AI能从一个书面场景中准确识别出某种疾病,但在现实世界中,非专业用户在AI的辅助下能够正确判断的概率也只有三分之一。原因在于,用户缺乏医学知识,不知道哪些关键信息需要输入提示词,也可能误解AI给出的回复。比恩提醒,如果AI模型在主动向用户索取更多信息方面表现不佳,那么用户一开始就无法提供足够的信息,得到的建议可能是毫无帮助甚至错误的。而OpenAI自己的数据显示,其旗舰模型GPT-5.4在寻求上下文信息的能力上,反而比早期版本GPT-5.2更差。这也表明模型性能并非稳定提升,存在不确定性。
评估困境
—
公司所谓的“自评”水平有限
面对这些风险,AI公司声称他们已经在进行测试。OpenAI发布了名为HealthBench的基准测试,用于评估模型在健康相关对话中的表现,并报告其GPT-5模型得分远超前代。但研究人员对此持怀疑态度。比恩指出,HealthBench等公司内部评估存在局限,例如使用AI生成对话而非真实用户交互,无法完全模拟复杂的实际情况。
专家们一致认为,目前市场上的AI工具存在最大的问题在于,这些工具在广泛发布前,几乎没有接受过独立研究机构的安全审查。西奈山的纳达卡尼、牛津的比恩、斯坦福的尼加姆·沙阿教授等六位受访专家均表达了这一担忧。OpenAI的辛格尔虽然表示“非常支持外部评估”,并称发布HealthBench就是为了给社区提供“一个非常好的评估样本”,但他也承认,进行高质量评估成本高昂,不相信任何一个学术实验室能做出“一统天下的评估”。他更赞赏像斯坦福大学MedHELM这样的综合性评估框架,该框架在多种医疗任务上测试模型,目前OpenAI的GPT-5得分最高。
然而,领导MedHELM项目的斯坦福教授尼加姆·沙阿坦言,该框架也有局限——它只能评估单次回复,而真实用户往往与AI进行多轮对话。沙阿正计划构建能评估复杂对话的框架,但这需要时间和资金。他无奈地表示:“你和我完全没有能力阻止这些公司发布新的健康AI产品,所以他们想做什么就做什么。我们唯一能做的,就是想办法为基准测试找到资金。”
相比之下,谷歌采取了更为谨慎的路线。本月早些时候,谷歌发布了一项对旗下医学聊天机器人AMIE的缜密研究:真实患者先与AMIE讨论病情,再与医生会诊。结果显示AMIE的诊断准确率与医生相当,且未发现重大安全风险。但谷歌并未急于发布该工具。谷歌DeepMind研究科学家艾伦·卡西克塞萨林厄姆在邮件中写道:“在将诊断和治疗系统应用于现实世界之前,必须解决重大的局限性问题。”
与谷歌的保守形成对比,微软、亚马逊、OpenAI的产品已经面向公众开放。领导AMIE研究的罗德曼认为,像谷歌那样耗时数年的临床试验不一定适合生成式AI,但他强调,关键在于是否存在一个“可信赖的第三方基准,我们可以认同其有意义,并且实验室可以以此自律”。
结论
—
在便利与安全之间,证据仍是空白
本文采访的所有专家都不认为AI健康助手需要完美无缺才能发布——毕竟医生自己也会犯错。对于一个难以获得常规医疗服务的人来说,一个触手可及、虽然偶尔出错但错误不太严重的AI助手,或许仍然算是巨大的进步。然而,问题的核心在于,根据目前的证据状况,我们根本无法确定当前可用的这些工具究竟是利大于弊,还是风险远大于收益。
科技公司的发布速度已经明显跑在了独立科学验证的前面。“模型或许已准备好推广,但证据基础必须真正到位,否则就是空谈。”在第三方评估机制和资金到位之前,公众或许只能在便利与未知风险之间,独自摸索前行。






扩展阅读
夜雨聆风