皮肤科中的增强智能:将人工智能重新定位为协作工具

小贴士

近期在美国皮肤病学会（AAD）2026年年会上的讨论，凸显了人工智能在皮肤病学领域定位的关键转变——从“替代”叙事转向支持临床医生专业能力的“增强智能”（AuI）模式。本次大会专题聚焦人机协作、AI在诊断、分诊及临床决策支持中的关键证据，以及这些工具对皮肤科实践的广泛影响。文章探讨了算法偏差、真实世界验证、深肤色人群代表性及健康公平性等持续存在的挑战，强调皮肤科医生需积极引导AI以负责任的方式融入患者诊疗。

引言

人工智能在医学领域的快速发展，在临床医生中既激发了热情，也引发了担忧。在皮肤病学这一根植于视觉模式识别的专科中，这些进展具有特殊意义。必须明确区分AI（基于机器的自主决策）与AuI（将AI驱动工具整合至临床实践以增强而非替代医生判断）。这一重新定义并非仅是语义之争。AAD关于AuI的立场声明明确支持将AuI作为一种模式，即AI技术与皮肤科医生“和谐”协作以改善患者诊疗[1]，而近期继续医学教育举措表明，这一概念已开始进入主流皮肤科教育体系。AuI在皮肤科的实际应用已颇具规模，尤其在皮肤癌检测、分诊以及能够支持超过100种皮肤疾病诊断的深度神经网络方面。然而，其发展仍不完善。算法偏差仍是紧迫问题——基于浅肤色人群训练的模型在多种肤色类型中表现下降。因此，AuI的目标不仅限于技术采纳，更在于培养皮肤科医生的AI素养，使其能够批判性评估、共同创建并公平实施这些工具[2]。AuI并非预示皮肤科医生将被淘汰，而是将其定位为积极参与塑造该专科未来技术负责任发展的主导力量。

人机协同的证据

性能数据

AuI在皮肤科的应用依据并非仅基于前景展望，而是基于日益增多的证据，这些证据表明临床医生与算法协同工作的表现优于任何一方的单独表现。

这种“人机协同”模式已在多种研究设计、临床环境及不同专业水平的从业者中得到验证。一项基础研究利用220,680张临床图像训练深度神经网络算法，结果表明AuI能够支持134种皮肤病的恶性检测、治疗预测及多类别疾病分类。在AI辅助下，临床医生对恶性病变预测的敏感性和特异性显著提升，缩小至前5位鉴别诊断的准确率很高，而前1位诊断的准确率提升幅度较小³。这凸显了AuI在辅助鉴别诊断生成方面的作用，而非作为自主诊断工具。一项随机对照试验将存在可疑病变的患者分为AI辅助诊断组与无辅助诊断组，发现AI辅助组的诊断准确率显著更高。非皮肤科受训人员的获益更大，而皮肤科住院医师的改善无统计学显著性，且AI辅助鉴别诊断的前1位准确率出现下降⁴。

一项前瞻性临床研究更令人信服地展示了人机协同的效果：皮肤科医生与传统卷积神经网络（CNN）合作进行真实世界的黑色素瘤筛查。引人注目的是，与CNN协作后，皮肤科医生在黑色素瘤检测中实现了100%的敏感性，同时特异性提高，接近临床理想目标——在减少不必要的切除手术的同时，最大程度避免漏诊黑色素瘤。皮肤镜经验较少的皮肤科医生获益最大。然而，该研究存在样本量小、非盲法设计、缺乏肢端及甲下病变数据、训练集主要基于欧洲白人群体的局限性，这凸显了在有色人种皮肤及多样化病变中开展进一步研究的必要性⁵。

纵观现有文献，AuI的获益程度因专业水平而异。一项综述发现，CNN在AI模型中诊断准确率最高，支持向量机也表现强劲，尤其在黑色素瘤检测方面。AI辅助提高了所有临床医生的诊断准确率，但全科医生和受训人员的获益程度高于经验丰富的皮肤科医生。在所有皮肤类型中，窄分类任务的表现均优于宽泛的黑色素瘤检测，这为如何最佳部署这些工具提供了依据⁶。另一项荟萃分析同样发现，AI对黑色素瘤的敏感性和特异性与皮肤科医生相当，而一项综述报告称，AI的表现不劣于甚至优于皮肤科医生和全科医生。

然而，许多研究存在选择偏倚和恶性病变过度代表的问题，这凸显了精选数据集与现实临床实践之间的差距，成为临床转化的关键障碍。

五重目标框架

美国皮肤病学会（AAD）2019年发布的《增强型人工智能立场声明》确立了AI融入皮肤科的基础原则。1 此后，新兴证据开始将这些原则落实到五重目标的各个维度：提升患者体验、改善人群健康、降低医疗成本、增强职业成就感，以及促进多样性、公平性与包容性。该框架为评估增强型人工智能（AuI）在皮肤科实践中的前景与局限提供了有效视角。提升患者体验

增强型人工智能（AuI）有望通过实时诊断支持、优化分诊缩短等待时间，以及借助诊断推理的可视化解释改善医患沟通，从而改变患者就诊体验。8 面向消费者的AI应用还可提升患者获取皮肤科信息的便利性，增强其识别皮肤问题的信心。然而，风险包括预测不准确、引发焦虑及不必要的医疗资源使用，这凸显了此类工具应作为临床评估的补充而非替代。

改善人群健康

增强型人工智能（AuI）的一个引人注目的应用在于扩大医疗资源匮乏地区的皮肤科专业服务可及性。儿科皮肤科AI模型仍十分有限，这为在亚专科资源受限的复杂病例中提供决策支持、改善农村地区分诊效率创造了机遇。早期应用已在面部婴儿血管瘤和X连锁少汗性外胚层发育不良的诊断中展开测试。10 在远程皮肤科、面对面诊疗及皮肤病理学中的应用也有助于实现早期检测。然而，现实世界的临床验证仍显不足，持续存在的挑战包括数据集偏倚、不同肤色人群的泛化能力降低以及可解释性问题。

降低医疗成本

增强型人工智能（AuI）可在维持或提升诊断准确性的同时，减少不必要的活检和转诊。正如Winkler等人5的研究所示，皮肤科医生与卷积神经网络（CNN）的协作在确保安全的前提下减少了不必要的切除手术，实现了100%的黑色素瘤检出灵敏度。

AI辅助分诊系统可通过将患者引导至适当级别的护理，进一步优化资源配置，减少皮肤病变的过度转诊和转诊不足。

提升职业成就感

美国皮肤病学会（AAD）立场声明支持一种模式，即临床医生专注于与其专业领域相符的任务，同时将算法流程交由机器处理。¹ 人工智能非但不会威胁职业身份，反而能通过优化工作流程减轻行政负担、缓解职业倦怠，使皮肤科医生能够专注于临床推理和医患关系。² 有证据表明，人工智能辅助对全科医生和受训者的帮助大于对经验丰富的皮肤科医生的帮助，这进一步支持了该模式。

增强多样性、公平性与包容性

第五个目标既代表了负责任实施人工智能的最大机遇，也构成了最显著的障碍。当前人工智能系统在不同肤色人群间表现出显著的性能差异，引发人们担忧人工智能是否会减轻或加剧现有的不平等现象。一项使用经病理学确认的多样化图像数据集的研究发现，人工智能模型在较深肤色和罕见疾病上的表现明显较差。值得注意的是，为数据集标注的皮肤科医生在这些类别中的准确性也有所降低，这表明模型开发的多个层面均存在偏差。微调模型有助于缩小不同肤色间的性能差距，凸显了多样化训练数据的重要性。¹² 另一项综述指出，仅有30%的人工智能项目报告了针对深肤色人群的皮肤科数据，这反映出持续存在的代表性不足问题以及图像质量和标准化方面的挑战。这些因素使得当前人工智能程序在识别深肤色人群病变时表现不佳成为必然。¹³ 因此，除非明确关注训练数据集的多样性、跨人群验证以及以公平为核心的框架开发，否则人工智能无法克服这一障碍。

关键实施挑战

偏差与公平性危机

人工智能在皮肤科领域发展迅速，但支持这些工具的证据却未能同步跟进。目前可用的应用中，很大一部分仍缺乏有意义的临床验证或透明度。一项分析发现，约88%的人工智能皮肤科应用缺乏支持证据，近90%未报告其监管状态。¹⁴ 这引发了人们对这些工具是否已准备好投入临床使用的切实担忧。与此同时，不同皮肤类型间的性能差异仍然是一个主要问题。

主要基于浅色皮肤训练的模型在深色皮肤上的表现仍然较差。¹² 这不仅是技术局限，更直接关系到医疗公平性。许多研究也未能清晰描述其数据集的人口统计学特征，导致难以判断模型是否适用于多样化的患者群体。美国皮肤病学会（AAD）已直接指出，数据集必须反映这些工具实际应用的人群特征。若做不到这一点，即便是设计精良的模型也可能在实践中不可靠，甚至可能加剧而非改善现有的医疗差距。

真实世界验证的鸿沟

皮肤科领域对人工智能的诸多期待源于使用受控或回顾性数据集的研究。尽管这些结果看似亮眼，却未必能转化为真实的临床场景。这一点在前瞻性研究中尤为明显。2023年一项基层医疗研究显示，在常规诊疗条件下，人工智能的Top 1诊断准确率为39%，而全科医生为64%，皮肤科医生则达到72%。¹⁵ 这一差距凸显了真实世界表现与精选数据集报告结果之间的显著差异。结论很明确：在受控环境中的优异表现，并不代表该工具已具备临床应用条件。这些系统必须在实际工作流程中接受检验

来源：速研