
近日,某地公开遴选公务员考试笔试成绩公布后,引发了不小的舆论波澜。原本本该体现考生个体能力差异的笔试分数,却出现了极为反常的现象:同一岗位数清一色的“76分”、分数段高度扎堆(全市进面人员一共就4个分数),完全打破了以往考试分数细密分布、逐分比拼的常态。这样的“同分奇观”,让公众不禁怀疑,是否是AI阅卷?目前,官方尚未回应,但我们也面临一个现实问题:一些机构推广的AI阅卷,看似高效便捷,实则远未达到成熟可用的阶段,盲目大范围应用于高利害性考试,必然会遭遇现实的“滑铁卢”。
AI阅卷的走红,本是依托于人工智能技术的发展,其初衷是打破人工阅卷的效率瓶颈、减少人为主观偏差,让阅卷流程更快捷、更公平。相较于人工阅卷耗时久、易疲劳、评分尺度难以完全统一的短板,AI阅卷有着无可比拟的速度优势。但目前AI阅卷如果推广到遴选考试中,则容易出现分数“扎堆”乱象。
究其根本,当前AI阅卷的不成熟,集中体现在主观题评分的致命缺陷上。目前的AI阅卷系统,本质上还是依赖关键词匹配、踩点赋分的算法逻辑,缺乏真正的语义理解、逻辑研判和人文思辨能力。面对遴选考试这类主观性极强的试题,人工阅卷老师能够结合答题逻辑、思想深度、语言表达、结合实际等多个维度综合打分,即便答案关键词相近,也能根据整体质量分出细微分差,精准区分考生的真实水平。但AI阅卷只能机械抓取预设的得分点,无法感知文字背后的思维层次、表达质感和创新思路,只要考生答案踩中了相似的关键词、套用了相近的答题模板,就会被判定为同等水平,最终导致分数高度集中,完全丧失考试应有的区分度。
更深层次来看,AI阅卷的不成熟,还表现在技术适配性不足与场景容错率极低的矛盾。高规格的遴选考试,关乎考生的职业前途,关乎人才选拔的公平公正,对阅卷精准度的要求近乎苛刻,容不得半点误差。而现有的AI阅卷技术,大多还停留在“模板化评分”阶段,模型训练缺乏足够多元、贴合实际考试场景的数据支撑,既无法应对考生灵活多变的答题思路,也难以规避培训机构模板化教学带来的答案趋同问题。当大量考生依靠背诵范文、套用答题框架作答,AI系统便无法做出精准甄别,只能给出千篇一律的分数,看似公平的标准化评分,实则变成了抹杀个体差异、埋没真正人才的“一刀切”。
此外,AI阅卷的透明度与纠错机制缺失,也加剧了争议。人工阅卷有完整的复核、仲裁流程,若出现评分偏差,可通过人工复评进行纠正;但AI阅卷的算法逻辑如同“黑箱”,考生无法知晓分数判定依据,即便对分数提出质疑,复核也仅能核查合分、登分误差,无法对AI的评分结果进行重新评判。这就意味着,一旦AI阅卷出现系统性偏差,考生只能被动接受结果,考试的公平性失去了最后的保障,也让人才选拔的公信力大打折扣。
科技赋能考试选拔,本是教育与人事考试领域的发展趋势,AI阅卷也绝非一无是处。但技术的应用,必须遵循“成熟先行、稳妥推进”的原则,绝不能为了追求效率,忽视高利害性考试对公平与精准的核心要求。在客观题阅卷领域,AI早已可以完全替代人工,但在主观题评分上,当下的AI更适合作为人工阅卷的辅助工具,完成初步打分、关键词筛查等基础工作,最终的评分判定、分数校准,依旧需要经验丰富的人工阅卷老师把控。
技术的早熟,不代表应用的成熟。人工智能在考试阅卷领域的落地,不能急于求成,更不能盲目跟风。唯有先攻克语义理解、逻辑研判、多元评分等核心技术难题,完善复核纠错机制,结合考试场景反复测试优化,才能逐步扩大应用范围。
人才选拔是国之大事,公平公正是不可逾越的底线。比起追求阅卷的速度,守住选拔的质量与公平更为重要。唯有让技术适配需求,让效率服从公平,才能让科技真正为考试选拔赋能,而不是成为破坏公平、引发争议的诱因。

微信号 |yu2578876140
小红书| @老学长
@遴选老学长
夜雨聆风