

效度,因此,是测验开发和测验评价中最基本的考量。
《教育与心理测验标准》(2014版)
Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests.
Standards for educational and psychological testing (2014).

传统Angoff法要求多位学科专家逐题判断"边界考生答对的概率",过程耗时且依赖专家可得性。Brighton & Sussex医学院的研究团队在Medical Teacher发表了一项验证研究,评估了三种AI方法能否在保证考试安全的前提下,产生与人类专家可比的Angoff划界分。
研究目的
验证基于AI的Angoff估计在单最佳答案选择题中是否非劣效于人类专家判断,同时确保整个流程不向外部AI平台暴露原始试题内容。
核心发现
研究使用了100道新编SBA试题,以4位教师的平均Angoff评分作为人类参照标准。三种AI模型的预测结果如下:
| 模型 | 均值(%) | 标准差 | 与人类均值的差异(%) | 95% CI |
|---|---|---|---|---|
| 人类Angoff | 60.3 | 7.0 | — | — |
| A: LLM (GPT-5) | 60.8 | 3.5 | −0.55 | −2.3 至 1.2 |
| B: ML (岭回归) | 60.0 | 3.3 | +0.33 | −1.3 至 2.0 |
| C: 混合模型 | 60.3 | 2.3 | +0.03 | −1.6 至 1.6 |
三组AI估计与人类评分的均值差异均落在预设的10%非劣效界内,95%置信区间全部在界内。重复测量方差分析未检出显著差异(p=0.41)。整体分布高度一致。
题目层面的一致性。 以±10个百分点为一致性阈值:67道题(67%)AI与人类完全一致;33道题(33%)至少一个AI模型与人类存在分歧。分歧方向均衡:17题AI判断比人类更严、16题AI判断比人类更宽。
系统性的分歧模式。 在6道AI判断显著严于人类(即AI认为更难)和4道AI判断显著宽于人类(即AI认为更易)的题目中,AI模型将两组题都置于接近中等的难度水平(约60%),未能恢复人类专家对题目难度的排序。这一系统性偏差提示:AI模型在捕捉需要专业判断的细微难度差异方面存在盲区。
题目特征的预测价值。 对历史1003道题的分析显示:可读性负担和选项间语义相似度与Angoff评分显著负相关;更难的题目(Angoff<50%)更常来自妇产科、血液科、眼科、肾内科和精神科;更易的题目(Angoff>70%)更多来自心内科、急症医学、皮肤科和儿科。
方法论亮点
安全离线特征提取。 本研究最大的方法论创新是ExamFeats工具。该工具在离线环境中从试题中提取结构化表面特征(如题干词数、选项相似度、可读性指标、数值表达式数量、专科分类、题型分类等),仅将这些非敏感特征发送给AI模型,从不传输原始试题文本。
LLM模型(GPT-5)的输入是:边界考生描述 + 结构化特征数据 + 输出概率指令。温度设为0.0以确保确定性输出,每题重复24次取均值。ML模型使用岭回归在1003道历史试题上训练。混合模型以2:1的比例融合ML和LLM预测。
边界考生描述的建构。 研究通过教师调查形成了"Year-2边缘学生"的操作性定义,使AI有了明确的参照框架。这是构建效度层面的重要步骤。
前瞻性验证设计。 模型在历史题目上训练,在100道全新SBA上进行前瞻性验证,更接近真实应用场景。
方法论局限
第一,人类参照标准仅由3-4位教师组成,面板规模偏小,参照标准本身的可靠性有限。模拟研究表明,当题目数量超过50道时,至少需要15位评判者才能产生稳定的Angoff切分线。小面板增加了随机偏差风险。
第二,ExamFeats提取的是表面特征,可能遗漏决定感知难度的关键因素,如临床模糊性、指南特异性、概念整合要求。当AI模型面对临床背景熟悉但答案涉及特殊规则或例外情况的题目时,系统性地高估了难度。
第三,研究未评估AI划界分对整体考试通过/不通过决策的影响。群体层面的准确不等同于个体层面的安全。
第四,单中心、单一项目(英国PA项目)、单一年级的验证范围限制了推广性。不同考试项目、不同题型、不同文化语境下的表现仍有待验证。
参考文献
Stephenson E, Robinson S, Bascombe K, Okorie M. Secure AI-assisted Angoff standard-setting for single best answer questions: A non-inferiority validation study. Med Teach. 2026 Jun 11. DOI: 10.1080/0142159X.2026.2681212.
核心发现与启示
本研究的核心贡献在于证明了一个技术可行性:在不向外部AI暴露原始试题的前提下,基于结构化特征的AI模型可以在群体层面产生与小型专家面板可比的Angoff划界分。这对资源有限的小型考试项目有实际意义。
更值得关注的是方法论设计中的效度意识。研究者没有简单地用AI替换专家,而是构建了一个多层验证框架:通过教师调查建立边界考生描述(内容效度),通过历史数据训练ML模型(内部结构证据),通过前瞻性非劣效设计检验与人类判断的关系(与其他变量关系证据),并讨论了AI划界分对考试决策的潜在影响(后果证据)。
33%的题目层面分歧也清晰地划出了AI的适用边界:AI可以提供群体层面的高效基线估计,但不应替代题目层面的专家判断。这两者构成了互补关系而非替代关系。
对于USMLE这类大规模标准化考试而言,本研究的启示不在于建议立即采用AI划界分,而在于指出了一条可行的效率提升路径:用AI进行首轮划界分估计,将专家资源集中于AI分歧题目的人工复审,在保证效度的前提下显著降低人力和时间成本。这是考试标准设定领域值得持续跟踪的方向。
效度证据映射
本研究在Messick五类效度证据框架和Kane四环节论证框架中的定位:
| 证据类型(Messick框架) | 本研究对应内容 |
|---|---|
| 基于测试内容的证据 | 边界考生描述建构、题目特征系统提取 |
| 基于反应过程的证据 | AI处理流程透明(特征→预测)、温度=0确保一致性 |
| 基于内部结构的证据 | 24次重复采样取均值、ML在1003题上训练 |
| 基于与其他变量关系的证据 | 非劣效检验vs人类Angoff、Bland-Altman一致性分析 |
| 基于测验后果的证据 | 讨论了AI划界分对考试决策的影响,但未实证检验 |
| 论证环节(Kane框架) | 本研究对应内容 |
|---|---|
| 评分 | AI输出的概率估计→Angoff切分分 |
| 概化 | 100道新题前瞻性验证、三次重复测量ANOVA |
| 外推 | 讨论了单中心、单一项目的推广限制 |
| 决策 | 未评估对通过/不通过决策的实际影响 |


A Production of international
Medical Education & Assessment Newsletters
国际医学教育评价简报出品
助力医师成长,成就医师梦想!
国际医学教育评价简讯(international Medical Education & Assessment Newsletters)是由医学考试从业者/爱好者维护的个人公众号,旨在通过遴选和分享国际医学教育和医师评价的简讯,促进医学考试领域的科学研究与理论实践。愿与同仁携手,助力医师成长,成就医师梦想!
夜雨聆风