AI辅助Angoff划界分设定:一项非劣效验证研究

效度，因此，是测验开发和测验评价中最基本的考量。
《教育与心理测验标准》（2014版）
Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests.
Standards for educational and psychological testing （2014）.

传统Angoff法要求多位学科专家逐题判断"边界考生答对的概率"，过程耗时且依赖专家可得性。Brighton & Sussex医学院的研究团队在Medical Teacher发表了一项验证研究，评估了三种AI方法能否在保证考试安全的前提下，产生与人类专家可比的Angoff划界分。

研究目的

验证基于AI的Angoff估计在单最佳答案选择题中是否非劣效于人类专家判断，同时确保整个流程不向外部AI平台暴露原始试题内容。

核心发现

研究使用了100道新编SBA试题，以4位教师的平均Angoff评分作为人类参照标准。三种AI模型的预测结果如下：

模型	均值(%)	标准差	与人类均值的差异(%)	95% CI
人类Angoff	60.3	7.0	—	—
A: LLM (GPT-5)	60.8	3.5	−0.55	−2.3 至 1.2
B: ML (岭回归)	60.0	3.3	+0.33	−1.3 至 2.0
C: 混合模型	60.3	2.3	+0.03	−1.6 至 1.6

三组AI估计与人类评分的均值差异均落在预设的10%非劣效界内，95%置信区间全部在界内。重复测量方差分析未检出显著差异（p=0.41）。整体分布高度一致。

题目层面的一致性。以±10个百分点为一致性阈值：67道题（67%）AI与人类完全一致；33道题（33%）至少一个AI模型与人类存在分歧。分歧方向均衡：17题AI判断比人类更严、16题AI判断比人类更宽。

系统性的分歧模式。在6道AI判断显著严于人类（即AI认为更难）和4道AI判断显著宽于人类（即AI认为更易）的题目中，AI模型将两组题都置于接近中等的难度水平（约60%），未能恢复人类专家对题目难度的排序。这一系统性偏差提示：AI模型在捕捉需要专业判断的细微难度差异方面存在盲区。

题目特征的预测价值。对历史1003道题的分析显示：可读性负担和选项间语义相似度与Angoff评分显著负相关；更难的题目（Angoff<50%）更常来自妇产科、血液科、眼科、肾内科和精神科；更易的题目（Angoff>70%）更多来自心内科、急症医学、皮肤科和儿科。

方法论亮点

安全离线特征提取。本研究最大的方法论创新是ExamFeats工具。该工具在离线环境中从试题中提取结构化表面特征（如题干词数、选项相似度、可读性指标、数值表达式数量、专科分类、题型分类等），仅将这些非敏感特征发送给AI模型，从不传输原始试题文本。

LLM模型（GPT-5）的输入是：边界考生描述 + 结构化特征数据 + 输出概率指令。温度设为0.0以确保确定性输出，每题重复24次取均值。ML模型使用岭回归在1003道历史试题上训练。混合模型以2:1的比例融合ML和LLM预测。

边界考生描述的建构。研究通过教师调查形成了"Year-2边缘学生"的操作性定义，使AI有了明确的参照框架。这是构建效度层面的重要步骤。

前瞻性验证设计。模型在历史题目上训练，在100道全新SBA上进行前瞻性验证，更接近真实应用场景。

方法论局限

第一，人类参照标准仅由3-4位教师组成，面板规模偏小，参照标准本身的可靠性有限。模拟研究表明，当题目数量超过50道时，至少需要15位评判者才能产生稳定的Angoff切分线。小面板增加了随机偏差风险。

第二，ExamFeats提取的是表面特征，可能遗漏决定感知难度的关键因素，如临床模糊性、指南特异性、概念整合要求。当AI模型面对临床背景熟悉但答案涉及特殊规则或例外情况的题目时，系统性地高估了难度。

第三，研究未评估AI划界分对整体考试通过/不通过决策的影响。群体层面的准确不等同于个体层面的安全。

第四，单中心、单一项目（英国PA项目）、单一年级的验证范围限制了推广性。不同考试项目、不同题型、不同文化语境下的表现仍有待验证。

参考文献

Stephenson E, Robinson S, Bascombe K, Okorie M. Secure AI-assisted Angoff standard-setting for single best answer questions: A non-inferiority validation study. Med Teach. 2026 Jun 11. DOI: 10.1080/0142159X.2026.2681212.

核心发现与启示

本研究的核心贡献在于证明了一个技术可行性：在不向外部AI暴露原始试题的前提下，基于结构化特征的AI模型可以在群体层面产生与小型专家面板可比的Angoff划界分。这对资源有限的小型考试项目有实际意义。

更值得关注的是方法论设计中的效度意识。研究者没有简单地用AI替换专家，而是构建了一个多层验证框架：通过教师调查建立边界考生描述（内容效度），通过历史数据训练ML模型（内部结构证据），通过前瞻性非劣效设计检验与人类判断的关系（与其他变量关系证据），并讨论了AI划界分对考试决策的潜在影响（后果证据）。

33%的题目层面分歧也清晰地划出了AI的适用边界：AI可以提供群体层面的高效基线估计，但不应替代题目层面的专家判断。这两者构成了互补关系而非替代关系。

对于USMLE这类大规模标准化考试而言，本研究的启示不在于建议立即采用AI划界分，而在于指出了一条可行的效率提升路径：用AI进行首轮划界分估计，将专家资源集中于AI分歧题目的人工复审，在保证效度的前提下显著降低人力和时间成本。这是考试标准设定领域值得持续跟踪的方向。

效度证据映射

本研究在Messick五类效度证据框架和Kane四环节论证框架中的定位：

证据类型（Messick框架）	本研究对应内容
基于测试内容的证据	边界考生描述建构、题目特征系统提取
基于反应过程的证据	AI处理流程透明（特征→预测）、温度=0确保一致性
基于内部结构的证据	24次重复采样取均值、ML在1003题上训练
基于与其他变量关系的证据	非劣效检验vs人类Angoff、Bland-Altman一致性分析
基于测验后果的证据	讨论了AI划界分对考试决策的影响，但未实证检验

论证环节（Kane框架）	本研究对应内容
评分	AI输出的概率估计→Angoff切分分
概化	100道新题前瞻性验证、三次重复测量ANOVA
外推	讨论了单中心、单一项目的推广限制
决策	未评估对通过/不通过决策的实际影响

医师为什么要具有基于医疗系统的实践能力？
美国如何基于胜任力导向确定医师执照考试的内容？
ChatGPT可以通过USMLE？官方回应来了！
医学高风险考试中选择题和简答题的实验性比较
患者诊疗结果是评价执照考试质量的良好校标吗？
Olle ten Cate：胜任力层级的三分法
《科举史》摘记：科举制度属于中华优秀传统文化吗？

A Production of international

Medical Education & Assessment Newsletters

国际医学教育评价简报出品

助力医师成长，成就医师梦想！

国际医学教育评价简讯（international Medical Education & Assessment Newsletters）是由医学考试从业者/爱好者维护的个人公众号，旨在通过遴选和分享国际医学教育和医师评价的简讯，促进医学考试领域的科学研究与理论实践。愿与同仁携手，助力医师成长，成就医师梦想！