Dr. Stephen Joslyn及其同事测试了帮助兽医解读X光片的AI程序的准确性,发现这些日益流行的工具会出错,其中一个案例尤其具有代表性。

一只犬吞下了一块河石,石子卡在了它的小肠里。Joslyn和他在澳大利亚默多克大学兽医学院的团队将这只犬的两张腹部X光片发送给六个不同的AI平台进行分析;其中四个平台位于美国,一个位于法国,一个位于韩国。
尽管在两张X光片中,这块石头都清晰地显示为犬肠道区域的一个椭圆形物体,但其中两个平台却将此案例归类为“正常”。他们的AI系统要么没有检测到那块石头,要么即使检测到了,也没有发现异常。第三个平台将该病例归类为“异常”,但并未检测到肠梗阻。相反,它诊断出了五种患者实际上并不存在的情况,例如犬脾脏明显肿大,以及胃部异物——而胃部与石头相距甚远。
其他三个平台在该特定病例中正确检测到了肠道内的石头。但研究人员发现,基于对总共53个病例的分析,这六个AI平台的整体性能“处于低到中等水平”。他们的论文总结道:“即使是性能最佳的算法也存在明显的局限性,而且就目前而言,似乎没有一个平台适合临床应用。”
Joslyn在一次采访中证实,这种明显的不适用性不仅适用于自主使用这些工具。他认为兽医目前根本不应该使用这些工具,即使是作为辅助工具也不行——尤其是那些放射学经验有限的兽医。
Joslyn说:“这能让他们获得多巴胺刺激,他们不知道情况有多糟糕,却感觉这很有帮助。不幸的是,目前的情况就像是盲人领着盲人。”
本文概要:
*根据澳大利亚默多克大学兽医学院研究人员领导的一项研究,六种利用人工智能解读X光片的工具的总体表现“低到中等”。
* 研究团队得出结论,这些工具似乎都不适合临床使用。
* 该研究结果与其他几项研究的结果相悖,后者对该技术的能力给出了更为积极的评价。
* 运营人工智能放射学平台的公司代表承认他们的产品存在局限性,但否认其产品不适合临床使用,并强调这些平台应该帮助兽医做出决策,而不是取代他们。
这项发表在美国兽医协会期刊上的研究,强化了一些兽医从业者多年来的担忧,即尽管人工智能平台制造商宣称其准确率很高,且其他几篇研究论文也证实了这一点,但仍应谨慎看待人工智能平台的读数。
VIN新闻联系到这些工具背后的公司代表时,他们都承认自己的产品存在局限性,但否认其不适合临床使用,并强调这些工具应该作为辅助工具,与其它诊断方法、患者的临床症状和病史相结合,帮助兽医进行诊断。
自大约8年前美国公司SignalPET和Vetology推出首批产品以来,这项技术的应用迅速增长。
全球最大的动物医院所有者玛氏公司(旗下拥有美国VCA、Banfield和BluePearl等品牌,欧洲大陆Anicura品牌以及英国Linnaeus品牌)于2024年通过其兽医诊断部门Anteck推出了自主研发的放射学人工智能产品RapidRead。全球第二大动物医院所有者、英国IVC Evidensia集团于2022年开始在其遍布欧洲和加拿大的数千家动物医院推广SignalPET平台。默多克大学研究中测试的其他三个平台分别由美国的Radimal公司、法国的FAS公司和韩国的SK Telecom公司开发。
兽医们在VIN论坛上对人工智能放射学工具褒贬不一。一些兽医称赞这些平台,称根据他们的经验,这些工具能够识别出他们自己无法发现的疾病。另一些研究发现,这些研究得出的结论模棱两可,或者诊断出并不存在的情况。
默多克大学的研究人员从澳大利亚的综合医院中选取了53个病例,所有病例均经过核实。这些病例均通过手术和组织病理学等确诊方法进行确认。病例于2024年9月至12月期间提交至各个人工智能平台。各平台的平均准确率在70%至90%之间。然而,“平衡准确率”(一种综合考虑了正确诊断出实际疾病的病例数(称为灵敏度)和正确诊断出非疾病病例数(称为特异性)的精细指标)则在60%至69%之间。
研究人员还应用了一种名为马修斯相关系数(MCC)的性能指标,该指标用于评估二元分类模型在数据集不平衡(例如异常病例多于正常病例)情况下的性能。论文指出,53个病例的MCC值差异很大,性能最差的平台甚至低于随机猜测的水平——换句话说,比抛硬币还糟糕。
Joslyn告诉VIN新闻:“我们试图通过其他指标表明,即使某些结果被证明是准确的,它也可能极具误导性。一个经典的例子是,如果你对所有情况都说“不”,如果你的测试数据集中没有这种情况,那么你的准确率可能达到100%。”
其他对人工智能更有利的研究
这项研究令人警醒的发现与之前的研究论文形成鲜明对比,其中包括去年发表在《兽医学前沿》(Frontiers in Veterinary Science)上的一篇论文。该论文发现,在面对50个选定的病例时,SignalPET的产品表现与参与研究的11位人类放射学专家一样出色,有时甚至更好。作者指出,人工智能在确认正常病例方面的表现优于检测异常结果。此外,在评估作者认为“低歧义”的病例时,人工智能的表现也优于评估更棘手的“高歧义”病例。
去年,Joslyn和他在默多克大学的几位同事向同一期刊提交了一篇评论文章,批评了这项研究的方法。他们指出,人工智能的解读并非通过“金标准”手段(例如实际手术或临床病理学发现)进行验证,而是通过放射科医生的共识以及人工智能自身的判断来验证的。评论指出:“真实情况应该独立于被评估的变量,因此将人工智能自身的输出纳入确定正确答案的考量范围是一种循环论证——被评估的工具反而帮助决定其预测是否正确。” 除其他担忧外,该评论还指出,11位放射科医生中,有些人评估的病例数量多于其他人,这可能会引入潜在的偏差,尤其是在表现较差的放射科医生审查的病例较多的情况下。
默多克大学团队在他们自己的论文中提到,另外,2022年和2023年发表的三篇关于Vetology人工智能工具的论文表明,该工具在分诊和筛查方面具有应用前景。默多克大学的研究人员接着指出,由于“兽医学评估仅使用了来自单一教学机构的高质量X光片,且病理特征清晰可见”,因此无法对该平台在广泛病例中的表现进行充分评估。
最近,2月份发表在《兽医放射学与超声》杂志上的一篇论文发现,Antech公司的产品在识别犬猫心力衰竭方面与人类放射科医生一样出色。Joslyn指出,该研究也是基于教学医院拍摄的X光片。
他认为,所有六个平台的性能都受到所分析X光片质量差异巨大的限制。他指出,应用于人类医学的人工智能工具虽然并非完美,但其表现优于兽医学领域。
他说道:“在人类医疗保健领域,我们有训练有素的放射技师,他们会告诉患者保持静止,深呼吸,不要移动。无论在哪里,X光片的质量都很高。而在兽医领域,大多数X光片都是由全科兽医拍摄的,他们往往是在进行牙科检查的同时拍摄X光片,而且人手不足,甚至还没吃午饭。”
此外,他还指出,兽医患者的个体差异比人类患者更大,例如,仅犬的体型和大小就千差万别。他说:“这些工具无法推广到真实案例中。人工智能公司声称,基于他们使用的训练数据集,人工智能表现良好,但当让人工智能评估来自附近小型诊所的病例时,它的表现却不尽如人意。”
相关公司回应
Antech首席医疗官Dr. James Barr对默多克团队的研究成果表示欢迎,并认为该研究提出了关于人工智能工具真实性的重要问题。他补充说,兽医应该使用该公司的RapidRead产品来辅助临床判断,而不是取代临床判断。
他在一次采访中说道:“想想临床医学的运作方式,你不可能拥有水晶球来预知未来,然后再回顾性地进行判断。你现在要处理你正在处理的事情,我们对待人工智能的方式与对待任何其他临床问题的方式非常相似。”
Barr驳斥了任何关于RapidRead对临床医生帮助不大的说法。他表示,该产品已经过超过1600万张来自真实场景的X光片训练,并由一支获得专科认证的放射科医生团队进行审核。他说道:“他们与开发人员密切合作,在产品发布前,他们对产品的质量非常严格。”
Barr表示,RapidRead会随着时间的推移不断改进,并指出JAVMA论文的研究大约是在18个月前进行的。
Radimal创始人兼首席执行官Alan Weissman表示赞同:“人工智能的发展速度几乎和犬的年龄一样快。从那时起,一切都发生了翻天覆地的变化。”
Weissman也对默多克团队的论文的探索精神表示欢迎,并承认人工智能工具还有很大的发展改进空间。
他说:“我们非常重视将其作为分诊工具、教育工具以及在患者前往专科医生诊疗途中快速收集信息的一种方式。同时,它也有助于提高宠物主人的依从性。如果你向他们提供更详细的全的病情信息,他们就更有可能进行治疗或其他诊断。”
Vetology首席执行官兼创始人Dr. Seth Wallack表示,公司仍在分析这项研究。他首先指出,该研究评估的53个病例数量相对较少。Wallack说:“只需要几个结果就能真正影响灵敏度和特异性,人工智能的训练和测试需要大量的样本——成百上千个病例。”
Wallack坚持认为,Vetology通过公开其性能数据,提供了所有平台中更透明的信息。这些数据基于放射科医生审查的30多万张X光片。Joslyn对数据的发布表示欢迎,称其为“朝着正确方向迈出的一大步”。
更多研究正在进行中
默多克大学的研究人员在论文中承认,样本量小是一个局限性。Joslyn本人是一位兽医放射科医生,也是一家将宠物健康记录与其微芯片连接的科技公司的创始人。他表示,找到符合要求的X光片……获得确诊诊断和相关病例记录的支持是一项挑战。
他说道:“随着时间的推移,我们希望建立更完善的流程来获取这些病例,从而获得更可靠的指标。”
该团队目前正在评估可重复性:如果同一张X光片两次提交给平台,结果是否会相同?他们还在研究将拍摄质量不佳的X光片提交给人工智能系统会对其性能产生怎样的影响。我们希望通过所有这些工作,将自己打造成为一个外部验证实验室,不仅对人工智能放射学系统进行评估和基准测试,还将评估范围扩展到其他使用人工智能的诊断测试,例如细胞学。”
本文来源|VIN新闻发布于2026年5月4日
本文作者|Ross Kelly
夜雨聆风