文献讨论:人工智能乳腺超声工具在妊娠期和哺乳期患者中的诊断准确性

Diagnostic accuracy of an artificial intelligence-based breast ultrasound tool in pregnant and lactating patients

期刊：European Radiology

作者：Dennis Dwan, Leslie R. Lamb, Hana L. Haver, Catherine S. Giess, Michael D. C. Fishman, Pamela J. DiPiro, Manisha Bahl

通讯作者：Manisha Bahl (mbahl1@mgh.harvard.edu)

机构：Massachusetts General Hospital; Brigham and Women's Hospital

DOI：10.1007/s00330-026-12659-5

文章类型：原创研究（Retrospective observational study）

一、研究背景与意义

妊娠期和哺乳期女性因乳腺相关症状就诊影像科的情况十分常见。这一特殊群体因独特的激素变化，乳腺体积和密度往往发生不对称增加，使得影像学评估面临极大挑战。在该人群中，妊娠相关乳腺癌（pregnancy-associated breast cancer, PABC）的发病率在近几十年来持续上升，但由于生理改变的存在，无论临床还是影像学诊断都颇具难度。虽然大多数乳腺影像学表现为良性，但部分良性病变可表现出类似恶性的特征，从而导致不必要的活检推荐，增加患者的焦虑、操作风险和医疗成本。超声因其无辐射、敏感性高，已成为妊娠期和哺乳期乳腺评估的首选影像学检查方式，但其操作依赖性较强，解读具有主观性和变异性。近年来，人工智能（AI）辅助决策支持工具在乳腺超声领域展现出改善诊断性能的潜力，尤其对于经验不足或非亚专科培训的放射科医师，AI工具已被证明能够提高诊断准确性并减少不必要的活检推荐。然而，目前尚无已发表的研究评估AI辅助乳腺超声工具在妊娠和哺乳期患者中的诊断表现。

二、研究目的

本研究旨在评估一种AI辅助决策支持工具（Koios DS, version 3.7.0; Koios Medical）在妊娠期和哺乳期患者乳腺超声中的诊断表现，并将其BI-RADS分类结果与放射科医师的判读进行比较，以探索AI工具在这一特殊人群中的临床应用价值。

三、研究方法

3.1 研究设计与人群

本研究为回顾性观察性研究，获得了机构审查委员会（IRB）批准并豁免了书面知情同意。研究纳入2018年1月至2021年12月期间，在两家学术医学中心因乳腺症状接受诊断性超声检查的连续妊娠期或哺乳期女性患者。通过电子病历系统以关键词（包括breastfeed、lactating、pregnancy、pregnant、trimester等）筛选影像学报告，并排除BI-RADS 0、1、6分类或缺少BI-RADS评估的报告。纳入标准为至少一项超声发现被放射科医师评估为BI-RADS 2–5分类，且接受了活检或至少两年的影像学和/或临床随访。因淋巴结评估超出AI工具的适用范围，淋巴结发现亦被排除。

3.2 影像采集与判读

所有超声检查均使用高频线阵探头手持完成。检查由乳腺影像科放射科医师、超声技师、乳腺影像科fellow和/或放射科住院医师执行，并由一名经过fellowship培训的乳腺影像科放射科医师实时判读，分配BI-RADS分类。BI-RADS分类直接从原始临床报告中提取，单次检查由一名放射科医师判读，未进行二次审查。当同一检查中存在多个病变时，每个病变获得独立的BI-RADS分类。

3.3 AI辅助决策支持工具

每例超声检查均使用经FDA批准的AI辅助决策支持工具（Koios DS, version 3.7.0）进行回顾性分析。由一名乳腺影像科fellow为每例选择两张正交图像，通过点击病灶中心将其输入软件，以原始研究中标注的卡尺作为参考。在大多数情况下，软件会自动基于识别的发现生成感兴趣区域（ROI），否则由用户手动绘制ROI。Koios DS随后生成恶性概率，并根据FDA批准软件中内置的固定制造商定义阈值，将输出映射到BI-RADS评估分类（2、3或4）。这些阈值为专有属性，不可由用户调整，本研究未进行额外校准。

3.4 统计分析

参考标准定义为接受活检病变的组织病理学结果，或通过至少两年的影像学和/或临床随访确认的良性或恶性结果。AI与放射科医师判读之间的配对比较采用McNemar检验进行，敏感性采用Clopper-Pearson精确法计算精确95%置信区间（CI）。BI-RADS 2和3被归类为阴性评估，BI-RADS 4和5被归类为阳性评估。亚组分析排除了乳汁潴留囊肿、液体积聚和皮肤病变。p值<0.05被认为具有统计学意义。

四、研究结果

4.1 研究人群

研究期间共纳入504名妊娠期或哺乳期女性（平均年龄33岁，范围19–45岁），共有639个乳腺超声发现被纳入分析。其中19名女性有乳腺癌家族史，3名有乳腺癌个人史，2名活检显示不典型增生，1名有斗篷野放疗史。在108例（16.9%）中同时进行了乳腺X线检查。

图1（原文Fig. 1）患者入组流程图：从2018年1月1日至2021年12月31日在≤46岁女性中进行的27,924次乳腺超声检查出发，经关键词搜索排除26,057次检查后剩余1,867次，再经BI-RADS排除（n=599）、患者排除（n=147）、随访排除（n=317）、技术排除（n=286），最终获得518次检查，经分离多发现检查为单个病灶后共纳入639个病灶

4.2 恶性发现

在639个乳腺发现中，5个（0.8%）为活检证实的乳腺癌。放射科医师和AI工具均正确地将其中4个分类为BI-RADS 4或5，敏感性为80.0%（4/5）（95% CI：28.4–99.5）。4例正确识别的癌症均为浸润性导管癌，分别来自33、34和39岁的女性。唯一的假阴性病例涉及一名29岁的浸润性导管癌患者，其在初始评估中被放射科医师和AI工具均分类为BI-RADS 3，但在随访中确诊为癌症。另外2例非上皮性恶性肿瘤（恶性叶状肿瘤和弥漫大B细胞淋巴瘤）在分析中被归类为良性，这与BI-RADS图谱对乳腺恶性肿瘤的定义一致。

图2（原文Fig. 2）一名33岁正在哺乳的女性因左乳肿块就诊。a 横切面和b 矢状面超声图像显示一个3.4厘米的低回声不规则形态肿块。判读放射科医师建议活检（BI-RADS 4分类），病理结果为3级浸润性导管癌。在图像的回顾性评估中，AI工具也正确地将该肿块评估为BI-RADS 4分类

图3（原文Fig. 3）一名29岁正在哺乳的女性因右乳肿块就诊。a 横切面和b 矢状面超声图像显示一个对应肿块，被认为代表簇状微囊，并推荐短期随访影像学检查（BI-RADS 3分类）。在随访检查中，肿块增大，患者随后被诊断为3级浸润性导管癌。在图像的回顾性评估中，AI工具也将该肿块评估为BI-RADS 3分类

4.3 BI-RADS分类比较

在634个良性乳腺发现中，AI工具相比放射科医师赋予了更高比例的BI-RADS 4评估（37.1% [235/634] vs 21.0% [133/634]，p<0.001）。BI-RADS 2评估比例在AI工具和放射科医师之间相似（43.8% [278/634] vs 40.5% [257/634]，p=0.24）。然而，AI工具赋予BI-RADS 3评估的比例显著低于放射科医师（19.1% [121/634] vs 38.5% [244/634]，p<0.001）。

表1 AI与放射科医师对所有良性病变的BI-RADS评估分布（n=634）

BI-RADS分类	AI评估	放射科医师评估	p值
2	43.8% (278/634)	40.5% (257/634)	0.24
3	19.1% (121/634)	38.5% (244/634)	< 0.001
4	37.1% (235/634)	21.0% (133/634)	< 0.001

排除乳汁潴留囊肿、液体积聚和皮肤病变后（n=441），BI-RADS 4评估比例在AI工具和放射科医师之间不再具有统计学差异（27.4% [121/441] vs 23.8% [105/441]，p=0.18）。然而，AI工具仍展现出更高比例的BI-RADS 2评估（53.1% [234/441] vs 32.9% [145/441]，p<0.001）和更低比例的BI-RADS 3评估（19.5% [86/441] vs 43.3% [191/441]，p<0.001）。良性病变的谱系总结于表2中。

表2 良性诊断谱系（n=634）

发现类型	活检/穿刺（n=195）	推测诊断*（n=439）
囊肿	12 (6.2)	107 (24.4)
纤维上皮性病变	43 (22.1)	67 (15.3)
乳汁潴留囊肿	28 (14.4)	64 (14.6)
不确定肿块	0 (0.0)	85 (19.4)
液体积聚	47 (24.1)	11 (2.5)
皮肤病变	0 (0.0)	43 (9.8)
良性组织/泌乳改变	22 (11.3)	9 (2.1)
泌乳性腺瘤	24 (12.3)	7 (1.6)
纤维腺瘤或泌乳性腺瘤	0 (0.0)	13 (3.0)
良性肿块	0 (0.0)	11 (2.5)
错构瘤	4 (2.1)	6 (1.4)

* 推测诊断为未接受活检的发现，基于影像学报告。

表3 排除乳汁潴留囊肿、液体积聚和皮肤病变后，良性病变的BI-RADS评估分布（n=441）

BI-RADS分类	AI评估	放射科医师评估	p值
2	53.1% (234/441)	32.9% (145/441)	< 0.001
3	19.5% (86/441)	43.3% (191/441)	< 0.001
4	27.4% (121/441)	23.8% (105/441)	0.18

图4（原文Fig. 4）一名33岁妊娠期女性因左乳肿块就诊。a 横切面和b 矢状面超声图像显示一个1.6厘米椭圆形低回声边缘光整肿块。判读放射科医师推荐六个月随访影像学检查（BI-RADS 3分类）。在随访检查中，因肿块增大而推荐活检（BI-RADS 4分类），病理结果为纤维腺瘤伴泌乳改变。在图像的回顾性评估中，AI工具正确地将该肿块评估为BI-RADS 2分类

4.4 机构分层分析

亚组分析结果显示上述结果在两个机构之间保持一致（表4），AI工具在两个中心均赋予了更高比例的BI-RADS 2评估和更低比例的BI-RADS 3评估。

表4 排除乳汁潴留囊肿、液体积聚和皮肤病变后，按机构分层的良性病变BI-RADS评估分布

BI-RADS分类	机构1 AI	机构1 放射科	p值	机构2 AI	机构2 放射科	p值
2	48.4% (120/248)	32.3% (80/248)	< 0.001	59.1% (114/193)	33.7% (65/193)	< 0.001
3	20.2% (50/248)	40.7% (101/248)	< 0.001	18.7% (36/193)	46.6% (90/193)	< 0.001
4	31.5% (78/248)	27.0% (67/248)	0.24	22.3% (43/193)	19.7% (38/193)	0.58

4.5 敏感性分析

当纳入非上皮性乳腺恶性肿瘤（恶性叶状肿瘤和弥漫大B细胞淋巴瘤，共7例恶性病变）时，放射科医师的敏感性为85.7%（6/7）（95% CI：42.1–99.6），而AI工具的敏感性为71.4%（5/7）（95% CI：29.0–96.3）。在该分类下，恶性叶状肿瘤被AI工具分类为BI-RADS 2。总体而言，纳入非上皮性恶性肿瘤并未实质性改变性能估计，BI-RADS各类别的百分比变化均小于0.5%。

五、讨论与局限性

本研究比较了AI辅助乳腺超声工具与放射科医师在妊娠期和哺乳期女性中的独立表现。在504名女性的639个乳腺超声发现中，5个被识别为恶性（0.8%），放射科医师和AI工具的敏感性均为80.0%。在剩余的634个良性病变中，AI工具比放射科医师更频繁地推荐活检（37.1% vs 21.0%，p<0.001）。但排除乳汁潴留囊肿、液体积聚和皮肤病变后，活检推荐率相当（27.4% vs 23.8%，p=0.18）。在该亚组中，AI工具赋予BI-RADS 2的比例更高（53.1% vs 32.9%，p<0.001），赋予BI-RADS 3的比例更低（19.5% vs 43.3%，p<0.001），提示了减少随访检查的潜在可能。这些发现与既往使用该特定工具评估一般人群乳腺病变的文献报道一致。

值得注意的是，AI工具在排除其设计适用范围外的病变（乳汁潴留囊肿、液体积聚和皮肤病变）后，展现了更优的表现。但这些被排除的病变类型在妊娠和哺乳期患者中非常常见且具有临床相关性，其移除限制了研究结果的泛化性，并可能高估了AI工具在日常临床实践中的实际表现。此外，在整个队列中，AI工具将更高比例的良性病变分类为较高的BI-RADS类别，包括妊娠和泌乳相关实体，这可能会使经验不足的放射科医师偏向活检推荐，代表着决策支持工具的一个潜在非预期后果。

影像组学深度学习模型代做，标书设计，Pixlemed AI平台，请私信。

选择我们，代表着选择以SCI审稿人的思维做研究。

本研究存在若干局限性。首先，恶性病变数量较少（n=5），降低了检测AI工具与放射科医师之间有意义性能差异的统计效力；少量恶性队列也反映了妊娠和哺乳期乳腺癌的低患病率，可能限制亚组分析。其次，为满足AI工具的技术要求，排除了部分检查（如缺乏正交视图或标注卡尺的检查），这些排除可能影响BI-RADS分类和活检率的分布，限制了对所有诊断性乳腺超声检查的泛化性。第三，AI评估为回顾性应用，未实时影响放射科医师的判读，可能无法完全反映实际临床工作流程。第四，整体队列中良性病变活检推荐增加的现象，引发了对潜在非预期临床后果的担忧，特别是在临床实践中过度依赖AI输出时。

六、总结与展望

本研究证实了AI辅助决策支持工具在妊娠期和哺乳期患者乳腺超声诊断中展现出与放射科医师相当的敏感性。在排除AI工具适用范围外的病变后，AI工具赋予了更多BI-RADS 2和更少BI-RADS 3评估，这意味着潜在的减少不必要的随访影像学检查、降低患者焦虑和减轻医疗负担的优势。然而，这一潜在获益必须与整体队列中良性病变活检推荐增加的情况相权衡。未来需要开展多中心前瞻性研究来验证这些发现，评估AI工具整合到常规临床实践后对工作流程效率、患者结局和医疗成本的影响，并进一步确定该工具在妊娠期和哺乳期这一特殊人群中的整体临床价值。

七、可改进点与延伸思考

方法层面：本研究为回顾性设计，AI评估未实时影响放射科医师判读，无法反映真实临床工作流。未来可采用前瞻性设计或模拟前瞻性工作流来更好地评估AI工具的实际临床效用。此外，AI工具的阈值为专有固定值，不可由用户调整，针对妊娠和哺乳期这一特殊人群是否需要重新校准值得探讨。

实验层面：恶性病变仅5例，统计效力有限，敏感性估计的置信区间极宽（95% CI：28.4–99.5），难以得出可靠结论。敏感性分析将非上皮性恶性肿瘤纳入后，AI工具敏感性下降至71.4%（5/7），提示该工具可能对此类病变的识别存在不足。更大规模的多中心研究或协作数据库的建立，可显著提升统计效力并支持更细致的亚组分析。

泛化性：研究在两家美国学术医学中心进行，设备、操作技术和放射科医师经验水平可能具有特殊性。排除了缺乏正交视图、标注卡尺或淋巴结评估的检查，最终仅纳入约19%的原始检查，限制了对更广泛临床场景的泛化性。未来应在社区医院、低资源环境以及不同种族/民族人群中验证结果。

临床转化：AI工具在排除其适用范围外的病变后表现良好，但这些病变（乳汁潴留囊肿、液体积聚、皮肤病变）在妊娠和哺乳期患者中恰恰非常常见。移除这些病变虽然提升了表面上的性能数据，却可能高估了工具在真实临床环境中的价值。如何让AI工具更好地识别和处理妊娠/泌乳相关良性实体，是实现临床转化的关键。

延伸方向：未来研究可探索AI工具在以下方向的应用潜力：（1）将妊娠期和哺乳期特异性良性实体（如泌乳性腺瘤、乳汁潴留囊肿）纳入AI训练数据，提升其对特殊人群的识别能力；（2）结合乳腺MRI或多模态影像，构建更全面的AI辅助诊断体系；（3）开发可解释性更强的AI工具，帮助放射科医师理解AI决策的依据；（4）探索AI工具在减少随访检查次数、降低医疗成本方面的卫生经济学效益。

写作层面：文章结构清晰，Methods部分对AI工具的操作流程描述详尽，统计分析方法选择合理。图表设计直观，Flow chart清晰展示了患者筛选过程，超声图像质量良好且配有典型的恶性与良性病例对比。建议在Discussion中进一步讨论AI工具对妊娠期特异性病理（如泌乳性改变、腺体增生）的处理策略，以及这些因素如何影响BI-RADS分类结果。