缺乏独立验证的AI健康工具正在涌向美国大众-夜雨聆风

缺乏独立验证的AI健康工具正在涌向美国大众

近期，微软、亚马逊、OpenAI等科技巨头纷纷推出或开放了基于大语言模型的健康聊天机器人，试图为大众提供一条获取医疗建议的新捷径。科技公司的发布速度已经明显跑在了独立科学验证的前面。

从微软的Copilot Health，到亚马逊全面开放的Health AI，再到OpenAI的ChatGPT Health和Anthropic的Claude，面向消费者的AI健康助手已形成一股不可忽视的浪潮。然而，尽管这些工具展现出巨大潜力，研究人员普遍警告，在缺乏严格、独立的第三方评估的情况下，仓促推广这类产品可能带来难以预料的风险。

需求驱动

—

为什么科技巨头纷纷押注AI健康？

科技公司争相布局AI健康，并非凭空想象，而是源于真实而强烈的市场需求。据微软披露，其Copilot每日收到约5000万个健康问题，健康已成为该应用最热门的讨论话题。OpenAI健康团队负责人卡兰·辛格尔也观察到，早在公司正式发布健康产品之前，ChatGPT上健康相关问题的使用率就在“快速、快速地增长”。

许多专家认为，这一趋势折射出的不仅是技术吸引力，更是现实医疗系统的痛点。西奈山卫生系统首席人工智能官吉里什·纳达卡尼指出：“这些工具之所以存在并在整体格局中占有一席之地，是因为获得医疗服务很困难，对某些特定人群来说尤其困难。”正因如此，一个24小时可用、不带评判眼光的AI助手，对于难以获得常规医疗服务的群体来说，具有天然的吸引力。

目标收益

—

缓解系统压力，改善健康可及性

支持者认为，AI健康助手有望在减轻医疗系统负担的同时改善用户健康。

例如分诊这一典型场景中，AI可以帮助用户判断自己的症状是否需要紧急就医。如果分诊功能有效，急重症患者可能更早寻求帮助，而轻症患者则可以在AI指导下居家管理，避免不必要地挤占急诊室和医生办公室。

牛津互联网研究所博士生安德鲁·比恩对此持开放态度：“考虑到我们总是需要更多的医疗服务，我认为一切可能有效的途径都值得探索。这些模型完全有可能已经达到了值得推广的程度。”对于只能偶尔见到医生的群体而言，一个持续可及、即使偶尔出错的AI助手，只要错误不太严重，也可能比现状有明显改善。

核心风险

—

未经充分测试，安全性与有效性存疑

然而，理想很丰满，现实却充满风险。最直接的证据来自一项由纳达卡尼及其西奈山团队进行的研究。他们发现，ChatGPT Health有时会为轻微病症推荐过多的护理，却难以识别真正的紧急情况，有时甚至威胁到患者安全。

更令人担忧的是用户误用的风险。尽管这些工具普遍附有“不适用于诊断或治疗”的免责声明，但贝斯以色列女执事医疗中心的内科医生兼研究员、谷歌访问学者亚当·罗德曼一针见血地指出：“我们都知道人们会用它来进行诊断和治疗。”换句话说，免责声明很容易被忽视。

此外，人机协作的鸿沟也不容小觑。比恩及其同事上个月发表的一项研究表明，即使AI能从一个书面场景中准确识别出某种疾病，但在现实世界中，非专业用户在AI的辅助下能够正确判断的概率也只有三分之一。原因在于，用户缺乏医学知识，不知道哪些关键信息需要输入提示词，也可能误解AI给出的回复。比恩提醒，如果AI模型在主动向用户索取更多信息方面表现不佳，那么用户一开始就无法提供足够的信息，得到的建议可能是毫无帮助甚至错误的。而OpenAI自己的数据显示，其旗舰模型GPT-5.4在寻求上下文信息的能力上，反而比早期版本GPT-5.2更差。这也表明模型性能并非稳定提升，存在不确定性。

评估困境

—

公司所谓的“自评”水平有限

面对这些风险，AI公司声称他们已经在进行测试。OpenAI发布了名为HealthBench的基准测试，用于评估模型在健康相关对话中的表现，并报告其GPT-5模型得分远超前代。但研究人员对此持怀疑态度。比恩指出，HealthBench等公司内部评估存在局限，例如使用AI生成对话而非真实用户交互，无法完全模拟复杂的实际情况。

专家们一致认为，目前市场上的AI工具存在最大的问题在于，这些工具在广泛发布前，几乎没有接受过独立研究机构的安全审查。西奈山的纳达卡尼、牛津的比恩、斯坦福的尼加姆·沙阿教授等六位受访专家均表达了这一担忧。OpenAI的辛格尔虽然表示“非常支持外部评估”，并称发布HealthBench就是为了给社区提供“一个非常好的评估样本”，但他也承认，进行高质量评估成本高昂，不相信任何一个学术实验室能做出“一统天下的评估”。他更赞赏像斯坦福大学MedHELM这样的综合性评估框架，该框架在多种医疗任务上测试模型，目前OpenAI的GPT-5得分最高。

然而，领导MedHELM项目的斯坦福教授尼加姆·沙阿坦言，该框架也有局限——它只能评估单次回复，而真实用户往往与AI进行多轮对话。沙阿正计划构建能评估复杂对话的框架，但这需要时间和资金。他无奈地表示：“你和我完全没有能力阻止这些公司发布新的健康AI产品，所以他们想做什么就做什么。我们唯一能做的，就是想办法为基准测试找到资金。”

相比之下，谷歌采取了更为谨慎的路线。本月早些时候，谷歌发布了一项对旗下医学聊天机器人AMIE的缜密研究：真实患者先与AMIE讨论病情，再与医生会诊。结果显示AMIE的诊断准确率与医生相当，且未发现重大安全风险。但谷歌并未急于发布该工具。谷歌DeepMind研究科学家艾伦·卡西克塞萨林厄姆在邮件中写道：“在将诊断和治疗系统应用于现实世界之前，必须解决重大的局限性问题。”

与谷歌的保守形成对比，微软、亚马逊、OpenAI的产品已经面向公众开放。领导AMIE研究的罗德曼认为，像谷歌那样耗时数年的临床试验不一定适合生成式AI，但他强调，关键在于是否存在一个“可信赖的第三方基准，我们可以认同其有意义，并且实验室可以以此自律”。

结论

—

在便利与安全之间，证据仍是空白

本文采访的所有专家都不认为AI健康助手需要完美无缺才能发布——毕竟医生自己也会犯错。对于一个难以获得常规医疗服务的人来说，一个触手可及、虽然偶尔出错但错误不太严重的AI助手，或许仍然算是巨大的进步。然而，问题的核心在于，根据目前的证据状况，我们根本无法确定当前可用的这些工具究竟是利大于弊，还是风险远大于收益。

科技公司的发布速度已经明显跑在了独立科学验证的前面。“模型或许已准备好推广，但证据基础必须真正到位，否则就是空谈。”在第三方评估机制和资金到位之前，公众或许只能在便利与未知风险之间，独自摸索前行。

原文标题：There are more AI health tools than ever—but how well do they work?

END

数实引擎

扩展阅读

知南课堂2026学年招生工作启动
关于举办“2026数智医疗知南大会”的通知
2026卫生健康重点工作：提质控本、数智赋能、投资于人…
中国科学院人才交流开发中心：“人工智能赋能药物研发全过程创新技术实践”高级研修班招生
知南课堂2025学年成绩放榜！——五年深耕医信人才培养，“数智赋能”迈入新阶段
数据要素如何加速医疗价值破局？聚焦2025-2026关键政策进展
释放医疗数据价值！国家医保局发布《医疗服务真实世界医保综合价值评价管理指南（试行）》
华山AI实操手册：以“智能预问诊”为例，拆解AI评估模型
一起系统“断供”风波，揭开了医院数字生命线的脆弱
数实纵横年度回顾：走过2025，拥抱2026
以“知”为灯，照亮“行”路——致知南课堂全体同仁

全国医疗机构信息部门组织架构与职能调研分析报告