PROBAST+AI工具在预测模型研究质量评价中的应用

PROBAST+AI是在原PROBAST工具基础上更新形成的预测模型研究评价工具，适用于使用传统回归方法或人工智能方法构建和评价的预测模型研究。该工具通过明确综述目的、分类预测模型研究类型、分领域评价模型开发和模型评价过程，并形成总体判断，为系统综述和证据综合提供了结构化方法。本文系统介绍PROBAST+AI的适用范围、核心流程、四个评价领域、总体判断规则及rationale书写方法，阐述其在实际系统综述中的操作要点，以期为研究者规范开展预测模型研究质量评价提供参考。

步骤一

使用PICOTS指南明确预测模型评价的预期目的或目标

项目	说明
人群（Population）	定义所评价预测模型拟应用的目标人群（如患者）。目标人群不仅决定检索策略和纳入/排除标准，也指导适用性评价。
目标模型/索引模型（Index model[s]）	定义拟评价的目标预测模型。该目标可以是单个预测模型（即索引模型），并在多个外部验证研究中对其预测准确性进行Meta分析；也可以根据评价者或预测模型综述的重点，评价针对目标人群、结局或场景所开发或验证的多个预测模型。
比较模型（Comparator model[s]）	定义其他预测模型，即其预测能力将与索引模型进行比较的模型。
结局（Outcome[s]）	定义索引模型以及可能的比较模型在目标人群中所预测的结局或终点事件。
时间（Timing）	1. 定义使用预测模型进行预测的具体时点或时间点（如患者诊疗流程中的某一阶段），即模型使用的起点或 T0。2. 定义预测模型在目标人群中预测结局发生的时间范围或随访期限，即预测时间窗。
预测模型的应用场景及预期用途（Setting and intended use of the prediction model）	定义索引预测模型适用的医疗场景或临床背景。预测模型的预测能力可能会因不同医疗场景或应用背景而发生变化。

步骤二

根据原始研究的目的，判断其属于哪一类预测模型研究。

若研究只是建立一个新的预测模型，而没有评价模型性能，则归为“仅模型开发”，只填写模型开发部分；只建立模型，没有评价模型性能的情况极少
若研究是在新的数据中验证一个或多个已有模型，则归为“仅模型评价”，只填写模型评价部分；
若同一篇文章既开发模型，又报告表观性能、内部验证或外部验证结果，则归为“组合研究”，需要同时完成模型开发和模型评价两部分。实际操作时，应以“每个模型、每个结局”为单位进行分类，而不是简单按整篇文章分类；如果某项研究不属于模型开发、模型评价或组合研究，则不适合使用PROBAST+AI。

步骤三

在明确综述PICOTS和模型研究类型之后，对每篇文献中每个感兴趣模型、每个相关结局，分别评价模型开发质量/适用性，或模型评价偏倚风险/适用性。如果一篇文章有多个模型或多个结局，应分别填写。例如Jeong等研究中有3个模型：治疗中VTE复发模型、治疗中大出血模型、停药后VTE复发模型，因此不能只评价一次，而应至少分成3个评价单元。在开始前，需要先填写三个基本信息：

项目	含义
Publication reference	被评价文献的基本信息，如作者、年份、题目
Models of interest	本综述关注的模型名称或模型编号
Outcome of interest	该模型预测的目标结局，如VTE复发、大出血、DVT、PE等

针对模型开发过程

评价“quality concern”和“applicability concern”

在 PROBAST+AI: Model development 部分共有4个Domain:

Domain	主要评价内容
Domain 1 Participants and data sources	研究对象和数据来源是否合适、是否有代表性
Domain 2 Predictors	预测因子是否定义清楚、测量一致、在预测时点可获得
Domain 3 Outcome	结局是否定义合理、测量一致、时间窗合适
Domain 4 Analysis	样本量、缺失值处理、变量处理、过拟合控制、模型性能评价是否合理

其中，前三个domain除了quality concern外，还需要额外评价applicability concern，即适用性关注程度,需要根据Step 1中定义的综述问题或预期用途来判断。每个domain都要判断模型开发过程的质量关注程度（concern about quality），分为：

判断	含义
Low concern	质量问题较低，模型开发过程较可靠
High concern	存在明显方法学问题，可能影响模型可靠性
Unclear concern	原文信息不足，无法明确判断

signalling quesiongs

每个domain下面会有若干个signalling questions(信号问题)。这些问题用于帮助评价者判断该domain是否存在质量问题或偏倚风险。

信号问题的选项包括：

选项	含义	实操解释
Y	Yes	原文报告清楚，方法合理
PY	Probably yes	原文虽不完全详细，但基本可以判断合理
PN	Probably no	原文提示可能存在问题
N	No	原文明确显示方法不合理
NI	No information	原文没有足够信息判断
NA	Not applicable	不适用，仅限部分问题

回答Yes或Probably yes通常提示低质量关注，即模型开发质量较高；回答No或Probably no则提示该domain可能存在较严重质量问题。 但最后domain评为low、high还是unclear，需要评价者综合判断，而不是机械计算。

写rationale

每个domain最好都写rationale。rationale不是原文摘抄，而是基于原文证据和PROBAST+AI标准写出的判断理由。

推荐句式：

原文报告/未报告【关键信息】。根据PROBAST+AI，该domain主要关注【评价重点】。由于【具体原因】，该问题可能/不太可能导致选择偏倚、测量偏倚、信息泄漏、过拟合或性能高估，因此本domain评为【low/high/unclear】。

例如：

原文报告研究使用全国理赔数据库，数据来源明确，纳入和排除标准较清楚。但该数据库并非为预测模型开发预先设计，且部分诊断和结局依赖编码识别，可能存在误分类。因此Domain 1评为unclear concern。

1.1 是否使用了合适的数据源

✅ Y/PY：数据源明确（如前瞻性队列、注册研究），采集 / 测量方法详细可追溯；❌ PN/N：公开数据集无采集细节、数据来源不明；❓ NI：未描述数据源信息。

针对模型评价过程

如果当前研究是在验证已有模型，则只需要完成Model evaluation部分。此时评价重点从“模型是否开发得好”转为：这个模型的性能评价是否可信？模型评价部分同样有4个domain，但判断的是risk of bias（偏倚风险），而不是quality concern。

Domain	模型评价时关注的问题
Domain 1 Participants and data sources	验证数据是否合适、是否代表目标应用人群
Domain 2 Predictors	验证研究是否按原模型要求测量预测因子
Domain 3 Outcome	结局定义和随访时间是否合适
Domain 4 Analysis	是否避免仅报告表观性能、是否有足够验证样本量、是否避免数据泄漏、是否报告校准和区分度

前三个domain仍然需要判断applicability concern。

表观性能（A，同数据开发 + 评估）、内部验证（I）、外部验证（E）

步骤四

评估预测模型的质量、偏倚风险及适用性的总体担忧（overall concern）