安大略省审计长发现,家庭医生在检查过程中用来做笔记的新兴人工智能工具存在向医生提供不准确信息和产生幻觉的风险,这引发了人们对该软件在医疗保健系统中持续使用的质疑。
2023年,安大略省卫生厅开始向更广泛的医疗保健领域引入人工智能抄写员计划,允许医生、家庭医生、执业护士和治疗师采用该技术。
一旦患者授权使用,AI Scribe 便会聆听医疗检查,并生成一份“SOAP”病历记录,其中融合了患者和医生提供的主观和客观信息。最终的信息被归纳为四个部分:主观信息、客观信息、评估和治疗方案——这四个部分正是 SOAP 的首字母缩写。
虽然该工具旨在减轻医护人员不断面临的记笔记压力,但审计长发现这些系统可能不准确且不可靠。
安大略省审计长雪莉·斯宾塞周二发布的一份特别报告显示,AI Scribe 系统“没有得到充分评估”,有时还会“捏造信息”,并提供医生从未讨论过的治疗方案。
审计报告称:“人工智能医疗记录系统生成的医疗记录中的不准确之处可能会导致治疗方案不充分或有害,从而可能影响患者的健康结果。”
“对人工智能抄写系统进行测试非常重要,这可以确保其生成的笔记质量,并最大限度地减少错误。”

(图源:Global News)

公共和商业服务交付及采购部长斯蒂芬·克劳福德坚称,幻觉发生在测试和训练期间,而不是在就医期间。
他告诉记者:“这基本上是我们处于培训阶段,目的是看看是否要使用医疗记录员。需要明确的是,这目前还没有在医生实际工作中使用,这只是一个可选阶段,我们正在对不同的医疗记录员进行评估。”
他说这些问题“当时还在测试阶段,之后对人工智能系统进行了修改”。
尽管克劳福德承诺现实世界的系统不会捏造信息,但斯宾塞表示,她最近不得不告诉她的医生,让她仔细核查人工智能记录员提供的笔记。
“前几天我去看医生了——因为你们能听出来我的声音和平时不太一样——他们用了记录员,”她说。“我当时就说,‘请等我看完病后再看记录员的记录。’但他们确实在用记录员。”
审计长办公室在一份声明中表示,他们没有看到任何证据表明政府在购买这些系统后对其进行了测试。
声明中写道:“来自 20 家获批供应商的所有 AI 抄写系统在采购测试阶段都出现了一项或多项不准确之处——幻觉(捏造)、错误信息或缺失或不完整的信息——而且在审计时没有证据表明进行了额外的测试或评估以降低捏造的风险。”
“这是安大略省供应公司自己的测试,不是我们自己的。”
作为审查的一部分,审计办公室调查了安大略省供应公司采购 AI Scribe 系统的招标过程。
潜在供应商需要转录两段模拟的医患互动对话。转录结果提交给安大略省卫生厅及其数字部门 Ontario MD 进行评估。

(图源:Global News)

审查结果显示:
45%的AI医疗记录系统捏造信息,并对患者的治疗方案提出建议,例如建议患者接受治疗或进行血液检查,即使这些步骤在模拟记录中并未提及。
60%的AI抄写系统记录的药物与医生开具的处方不符。
在两次测试中,85%的AI记录系统至少有一次遗漏了有关患者心理健康问题的关键细节,即使这些细节在模拟录音中有所提及。
斯宾塞表示该工具存在问题,但他指出系统一直在改进。
斯宾塞说:“我认为这确实存在问题,但人工智能是一种能够提高效率和服务交付能力的工具。要达到完美状态,还需要循序渐进。”
她不愿透露是否认为政府行动过快,但审计员表示,她希望看到更多保障措施到位。
审计报告发现,安大略省供应部门没有要求 AI Scribe 供应商现场演示其系统或在评估人员面前操作这些系统,也没有对系统是否包含风险缓解策略进行全面评估。
审计人员还发现,20 家供应商中至少有 5 家没有按照招标流程的要求提交风险和隐私影响评估报告,但仍然获得了批准。
安大略省供应公司同意实施审计员的大部分建议,包括要求在授予人工智能合同之前进行并提交偏见测试,以及考虑在采用人工智能产品之前进行现场演示。
审计长表示,人工智能帮助编辑和“支持”了她的报告,但这些报告“绝不是由人工智能撰写的”。


谢谢!
夜雨聆风