乐于分享
好东西不私藏

缺乏独立验证的AI健康工具正在涌向美国大众

缺乏独立验证的AI健康工具正在涌向美国大众

近期,微软、亚马逊、OpenAI等科技巨头纷纷推出或开放了基于大语言模型的健康聊天机器人,试图为大众提供一条获取医疗建议的新捷径。科技公司的发布速度已经明显跑在了独立科学验证的前面。

从微软的Copilot Health,到亚马逊全面开放的Health AI,再到OpenAIChatGPT HealthAnthropicClaude,面向消费者的AI健康助手已形成一股不可忽视的浪潮。然而,尽管这些工具展现出巨大潜力,研究人员普遍警告,在缺乏严格、独立的第三方评估的情况下,仓促推广这类产品可能带来难以预料的风险。

需求驱动

为什么科技巨头纷纷押注AI健康?

科技公司争相布局AI健康,并非凭空想象,而是源于真实而强烈的市场需求。据微软披露,其Copilot每日收到约5000万个健康问题,健康已成为该应用最热门的讨论话题。OpenAI健康团队负责人卡兰·辛格尔也观察到,早在公司正式发布健康产品之前,ChatGPT上健康相关问题的使用率就在“快速、快速地增长”。

许多专家认为,这一趋势折射出的不仅是技术吸引力,更是现实医疗系统的痛点。西奈山卫生系统首席人工智能官吉里什·纳达卡尼指出:“这些工具之所以存在并在整体格局中占有一席之地,是因为获得医疗服务很困难,对某些特定人群来说尤其困难。”正因如此,一个24小时可用、不带评判眼光的AI助手,对于难以获得常规医疗服务的群体来说,具有天然的吸引力。

目标收益

缓解系统压力,改善健康可及性

支持者认为,AI健康助手有望在减轻医疗系统负担的同时改善用户健康。

例如分诊这一典型场景中,AI可以帮助用户判断自己的症状是否需要紧急就医。如果分诊功能有效,急重症患者可能更早寻求帮助,而轻症患者则可以在AI指导下居家管理,避免不必要地挤占急诊室和医生办公室。

牛津互联网研究所博士生安德鲁·比恩对此持开放态度:“考虑到我们总是需要更多的医疗服务,我认为一切可能有效的途径都值得探索。这些模型完全有可能已经达到了值得推广的程度。”对于只能偶尔见到医生的群体而言,一个持续可及、即使偶尔出错的AI助手,只要错误不太严重,也可能比现状有明显改善。

核心风险

未经充分测试,安全性与有效性存疑

然而,理想很丰满,现实却充满风险。最直接的证据来自一项由纳达卡尼及其西奈山团队进行的研究。他们发现,ChatGPT Health有时会为轻微病症推荐过多的护理,却难以识别真正的紧急情况有时甚至威胁到患者安全。

更令人担忧的是用户误用的风险。尽管这些工具普遍附有“不适用于诊断或治疗”的免责声明,但贝斯以色列女执事医疗中心的内科医生兼研究员、谷歌访问学者亚当·罗德曼一针见血地指出:“我们都知道人们会用它来进行诊断和治疗。”换句话说,免责声明很容易被忽视。

此外,人机协作的鸿沟也不容小觑。比恩及其同事上个月发表的一项研究表明,即使AI能从一个书面场景中准确识别出某种疾病,但在现实世界中,非专业用户在AI的辅助下能够正确判断的概率也只有三分之一。原因在于,用户缺乏医学知识,不知道哪些关键信息需要输入提示词,也可能误解AI给出的回复。比恩提醒,如果AI模型在主动向用户索取更多信息方面表现不佳,那么用户一开始就无法提供足够的信息,得到的建议可能是毫无帮助甚至错误的。而OpenAI自己的数据显示,其旗舰模型GPT-5.4在寻求上下文信息的能力上,反而比早期版本GPT-5.2更差。这表明模型性能并非稳定提升,存在不确定性。

评估困境

公司所谓的“自评”水平有限

面对这些风险,AI公司声称他们已经在进行测试。OpenAI发布了名为HealthBench的基准测试,用于评估模型在健康相关对话中的表现,并报告其GPT-5模型得分远超前代。但研究人员对此持怀疑态度。比恩指出,HealthBench等公司内部评估存在局限,例如使用AI生成对话而非真实用户交互,无法完全模拟复杂的实际情况。

专家们一致认为,目前市场上的AI工具存在最大的问题在于这些工具在广泛发布前,几乎没有接受过独立研究机构的安全审查。西奈山的纳达卡尼、牛津的比恩、斯坦福的尼加姆·沙阿教授等六位受访专家均表达了这一担忧。OpenAI的辛格尔虽然表示“非常支持外部评估”,并称发布HealthBench就是为了给社区提供“一个非常好的评估样”,但他也承认,进行高质量评估成本高昂,不相信任何一个学术实验室能做出“一统天下的评估”。他更赞赏像斯坦福大学MedHELM这样的综合性评估框架,该框架在多种医疗任务上测试模型,目前OpenAIGPT-5得分最高。

然而,领导MedHELM项目的斯坦福教授尼加姆·沙阿坦言,该框架也有局限——它只能评估单次回复,而真实用户往往与AI进行多轮对话。沙阿正计划构建能评估复杂对话的框架,但这需要时间和资金。他无奈地表示:“你和我完全没有能力阻止这些公司发布新的健康AI产品,所以他们想做什么就做什么。我们唯一能做的,就是想办法为基准测试找到资金。

相比之下,谷歌采取了更为谨慎的路线。本月早些时候,谷歌发布了一项对旗下医学聊天机器人AMIE缜密研究:真实患者先与AMIE讨论病情,再与医生会诊。结果显示AMIE的诊断准确率与医生相当,且未发现重大安全风险。但谷歌并未急于发布该工具。谷歌DeepMind研究科学家艾伦·卡西克塞萨林厄姆在邮件中写道:“在将诊断和治疗系统应用于现实世界之前,必须解决重大的局限性问题。”

与谷歌的保守形成对比,微软、亚马逊、OpenAI的产品已经面向公众开放。领导AMIE研究的罗德曼认为,像谷歌那样耗时数年的临床试验不一定适合生成式AI,但他强调,关键在于是否存在一个“可信赖的第三方基准,我们可以认同其有意义,并且实验室可以以此自律”。

结论

在便利与安全之间,证据仍是空白

本文采访的所有专家都不认为AI健康助手需要完美无缺才能发布——毕竟医生自己也会犯错。对于一个难以获得常规医疗服务的人来说,一个触手可及、虽然偶尔出错但错误不太严重的AI助手,或许仍然是巨大的进步。然而,问题的核心在于,根据目前的证据状况,我们根本无法确定当前可用的这些工具究竟是利大于弊,还是风险远大于收益。

科技公司的发布速度已经明显跑在了独立科学验证的前面。“模型或许已准备好推广,但证据基础必须真正到位,否则就是空谈。”在第三方评估机制和资金到位之前,公众或许只能在便利与未知风险之间,独自摸索前行。

原文标题:There are more AI health tools than ever—but how well do they work?
    END
    数实引擎

      扩展阅读