AI评分的信任危机:剑桥761篇论文实验揭示算法裁判的系统性偏差

当三款全球最前沿的大模型坐上"考官席"，面对761篇真实的本科论文逐一批改，结果却让所有人对AI评分的幻想冷静下来——AI与人类专家评分的一致率，只有35%到65%。

这不是一个小样本的试水，也不是某家AI公司的自测。这是剑桥大学领衔的一项大规模研究，用当前最强的生成式AI，在真实大学场景中做了一次严肃的"压力测试"。结论很清楚：AI可以辅助阅卷，但绝不能独立裁断。

这项名为OpRaise的研究，为我们理解AI在学术评估中的能力边界，提供了目前最扎实的实证依据。而对法学教育而言，这个结论的意义远不止"阅卷能不能用AI"这么简单。

一、761篇论文的压力测试

OpRaise研究由剑桥大学心理学家德博拉·塔尔米博士主持，联合曼彻斯特城市大学、诺丁汉大学共同完成。研究团队选取了2022年至2025年间提交的761篇真实本科论文，涵盖50个模块、87项不同作业，考核形式包括课程作业、开卷居家考试与监考考试——几乎覆盖了英国高校最常见的评估类型。

接受测试的三款模型，是当前各自阵营的旗舰：Anthropic的Claude Opus 4.6、OpenAI的GPT-5.4、谷歌的Gemini 3 Flash。没有"降配"，没有"旧版本"，这是AI目前能拿出的最强阵容。

更关键的是，研究团队没有让AI"裸评"。他们从三个维度系统性地为模型提供辅助：评分标准的具体性——把模糊的等级描述细化为可操作的打分细则；校准干预——为模型提供预期分数分布；评分策略——要求AI在给分前逐项解释评判依据。

换句话说，研究者已经把条件优化到了接近理想的程度。即便如此，AI的评分准确率仍在35%到65%之间徘徊。

这个数字意味着什么？抛硬币的概率是50%。即使做足了准备、给了最详细的指引，AI评分的可靠性也不过是在"碰运气"和"勉强及格"之间。

二、中心倾向偏差：算法的"和稀泥"

研究发现，三所大学中的AI都表现出一种高度一致的倾向——中心倾向偏差。

AI倾向于给所有作业打上"安全"的中等分数，集中在50至60分的区间。这个区间恰好是及格线附近，也是与人类评分差距最小的区域。但一旦论文质量走向两端，AI就明显失准：一篇被人类专家评为75分（一等学位水平）的优秀论文，AI平均会压低几分；一篇被评定为50分的薄弱作品，AI反而会慷慨地拔高几分。

这是一种"掐头去尾"的评分模式。它的本质不是"判断"，而是回归均值——把所有论文往中间拉，让优秀的不再那么优秀，让薄弱的也不至于太难看。

这种偏差带来的后果是系统性的。在学位等级评定中，一等学位与二等一档之间可能只差两三分，而AI恰好在这两三分的区间内最不可靠。它最能"蒙对"的，恰恰是最不重要的中等区间；而在真正影响学生前途的临界判断上，它的失误率最高。

法学读者不难看出这里的问题结构：这和算法决策中的"平等对待"谬误如出一辙。表面上，AI对所有人都"不太严也不太宽"，似乎是公平的；但实质上，它抹平了个体差异，让真正有区分度的判断失效。当评分变成了"人人差不多"的均值回归，评估本身的意义就被消解了。

三、形式压倒实质：AI被"漂亮话"骗了

人类阅卷，核心依据是学术推理和学科洞察——论证是否严谨、证据是否充分、批判性思维是否到位。但AI的评分逻辑完全不同。

OpRaise研究发现，所有被测模型无一例外地对语言特征表现出过度敏感：文章篇幅更长、词汇范围更广、句子结构更复杂，往往就能获得更高分数。至于论证的逻辑链条是否成立、证据与结论之间是否有真实的推理关系、批判性反思是否触及了问题的核心——这些学术写作中最本质的东西，并非AI的关注焦点。

用一个不太精确但足够形象的比喻：AI更容易被"漂亮的外表"迷惑，很难穿透文字去掂量学术思想的重量。

这在法学写作中尤其危险。一份优秀的法律论证，力量往往不在于辞藻的华丽，而在于对规范逻辑的精准把握、对案例的细致辨析、对争议焦点的敏锐定位。一份论证薄弱但文风流畅的作业，可能被AI打出高分；而一份措辞朴素但逻辑严密的答卷，反而可能因为"看起来不够好"而被低估。

更值得警惕的是同质化风险。研究团队在不同时间用同一篇论文反复测试，AI每次给出的分数几乎纹丝不动。表面上看，这是"一致性高"的优点；实则暴露了这些AI共享同一种机械逻辑——它们并非在"理解"论文，而是在匹配语言模式。

当所有模型都遵循同一种评分逻辑，学生的个性表达、独特的论证路径、非常规但富有创见的思考，反而可能被系统性地忽略。这不是某个模型的偶然失误，而是当前大语言模型评分方式的固有缺陷。

四、评语的"图灵测试"

OpRaise研究还触及了一个容易被忽视的维度：AI生成的评语反馈。

AI生成的评语篇幅通常是人类的3至8倍。研究团队将AI评语压缩到与人类评语同等长度后，再交由教职工和学生辨别作者身份——结果众人竟难以区分。

但接下来的发现更耐人寻味：一旦揭晓哪段话出自AI之手，参与者对AI评语的认可度便明显下降。

这是一个经典的"标签效应"：同样的内容，知道是AI写的之后，信任就打了折扣。但它的深层含义比标签效应本身更值得关注——师生之间围绕评分与反馈形成的默契与期待，本质上是一种社会契约。评语不仅仅是对论文质量的评价，更是教师对学生智力劳动的回应。这种"人对人的认可"，是AI无法通过生成更长、更流畅的文本来替代的。

曼彻斯特城市大学的合著者雅埃尔·本恩博士在报告中记录：许多学生明确表示，若得知作业由AI打分，会产生强烈的被欺骗感。教职员工也认为，过度依赖机器可能侵蚀专业判断，"抽走"了高等教育作为核心的人性化。

评估是构建教育意义的过程，它让学生感到被重视，维护学术标准，维系师生之间的信任。——德博拉·塔尔米

五、法学教育为什么更不能交出评分权

如果AI评分的问题只停留在"准确率不够高"，那随着模型迭代，似乎总有解决的一天。但OpRaise揭示的深层问题不是技术层面的——它是制度性的。而法学教育，恰恰是对这种制度性风险最敏感的领域。

第一，法学写作的评估标准高度依赖实质判断。与许多学科不同，法学论文的优劣往往取决于论证的内在逻辑和对规范体系的理解深度，而非语言形式的完备程度。一个论点是否成立，关键在于它是否正确地识别了法律争议、是否准确地适用了规范、是否有力地回应了反证——这些判断需要评阅者自己"会做"，而不仅是"会看"。AI目前能做到的是后者，但评分需要的是前者。

第二，法学评分具有先例效应。在判例法传统中，一个先例的确立可能影响后续无数案件的裁判。法学教育中，评分标准的每一次确立，实际上都在传递"什么算好的法律论证"的信号。如果AI系统性地偏袒形式、压缩差异，这种偏差不是影响一个学生的成绩，而是在潜移默化中塑造一代法学学子的写作范式。

第三，法学教育评估本身就是"准司法行为"。评分不仅仅是教学环节，它关涉学位授予、升学资格、职业准入等重大利益。从正当程序的角度看，将具有如此重大影响的裁断交给一个无法承担责任、无法解释推理过程、无法被问责的算法系统，本身就存在程序正当性的缺陷。

这三层逻辑叠加起来，法学教育对AI评分应当比其他学科更加审慎——不是因为法学"落后于时代"，而是因为法学对权力运作的敏感性，恰好让我们更早看到了问题。

六、AI在评分中的正确定位：第二双眼睛

OpRaise报告并没有否定AI在教育领域的价值。它的立场是克制的：AI绝不能取代"考官席"上那双受过专业训练的眼睛，但它可以在辅助岗位上发挥作用。

报告为AI划定了三个合理的功能定位：

错误检测——AI可以快速扫描大量作业，标记出评分标准适用明显不一致的个案，提请人类重点复核。这不是让AI"改分"，而是让它当"质检员"。

一致性检查——在大量阅卷中，不同教师之间、同一教师在不同时段之间可能出现标准漂移。AI可以作为参照系，标记出偏离常规的评分，帮助维持评分标准的时间一致性。

差异预警——当AI评分与人类评分出现显著差异时，这正是最需要人类仔细审视的时刻——也许AI错了，也许人类漏看了什么。差异本身就是信号。

这三个功能有一个共同特征：AI的作用是辅助人类做出更好的判断，而不是替代人类做出判断。它的价值不在于"自己能评对多少"，而在于"能帮人类减少多少遗漏和偏差"。

这种定位，和法学中"辅助性原则"的精神高度契合——技术应该服务于人的判断，而不是取代人的判断。在智能体治理、算法问责等领域，我们已经反复论证过这个原则；现在，它同样适用于AI在学术评估中的角色定位。

七、从评分到治理：算法裁判的制度启示

OpRaise的研究价值不限于教育领域。它实际上为我们理解"算法裁判"的系统性风险提供了一个微观但清晰的实验场。

AI评分中的中心倾向偏差，和算法在司法辅助决策中表现出的"温和偏见"是同一类问题——算法倾向于做出"不太极端"的判断，看起来中立，实则消解了本应存在的区分度。AI对语言形式的过度敏感，和算法在风险评估中对"易量化特征"的偏重也是同构的——容易衡量的维度被过度权重，难以量化但更重要的维度被系统性忽略。

在学术质量的裁断场，人类的推理、经验与责任感，至今仍是无法被算法替代的最后防线。

这不仅是OpRaise的结论，也是当前AI治理讨论中越来越清晰的一个共识：AI可以在信息处理、模式识别、一致性维持等方面提供有价值的辅助，但在需要价值判断、责任归属、个体公正的场景中，人类裁断不可让渡。

结语

761篇论文、三款最前沿模型、最详尽的评分指引——OpRaise用了几乎是"理想条件"来测试AI评分的上限，结果是35%到65%的一致率。这不是"还不够好"的问题，这是在提醒我们：学术评估的核心，从来就不是统计预测能覆盖的领域。

AI可以成为阅卷的助手，但不能成为阅卷的裁判。这不是技术悲观主义，这是对评估制度本质的清醒认识。

对于法学教育而言，这个判断更有双重意义：我们不仅需要在自己的评分实践中守住人类裁判的底线，还需要在更广义的AI治理框架中，为"算法不能替代人类判断"这一原则，提供更坚实的理论和制度支撑。

参考来源：

• OpRaise研究，剑桥大学德博拉·塔尔米博士主持，联合曼彻斯特城市大学、诺丁汉大学完成，报告题为《AI大学评估中的应用：评估自动评分的机遇与风险》

• Kim, H., Lee, S.-T., & Lee, J. (2026). Evaluating the Reliability and Agreement of Rubric-Guided LLM Scoring Versus Human Grading Across Three University Courses. Applied Sciences, 16(12), 5902. https://doi.org/10.3390/app16125902

• 科技日报，《学术评判中，"AI考官"能被委以重任吗》，2026年6月11日