
前几天,我看到一个很真实的场景。
一位语文老师把学生作文上传到AI批改系统。系统很快,几十秒就给出分数、等级、问题清单。看起来很先进。
可问题来了。
有个孩子写了一篇关于爷爷的文章,语言不华丽,结构也不算工整,但里面有真实生活,有细节,有情感。老师读完以后,觉得这篇作文应该鼓励。AI却给了一个偏低分,理由是“论证不足、表达不够规范、结构层次不清”。
这就尴尬了。
机器没说全错。老师也不是凭感情打分。问题是:教育评价里面,很多东西不是一把尺子就能量完的。尤其是作文、开放题、探究报告,里面有人味,有表达习惯,有成长过程。
所以,今天我们不讨论“AI评分能不能用”。它当然能用。我们讨论更关键的问题:AI自动评分进校园后,公平性到底怎么保障?
一句话:AI可以参与评分,但不能独自裁决学生。
一、AI评分最大的风险,不是错一两分,而是系统性误伤
先说一个容易被忽视的问题。
人们一听AI评分,第一反应往往是:机器会不会打错分?
其实更大的风险不是某一次打错,而是长期偏向某一类表达方式。
比如,有的学生语言简洁,不爱用复杂句。有的学生来自不同语言环境,表达方式和标准答案不太一样。有的学生思维很跳跃,答案不够“模板化”,但里面有自己的理解。
AI可能不一定喜欢这些答案。
2025年发表于International Journal of Artificial Intelligence in Education的一项研究,分析了38722份学生短答文本。研究发现,最准确的自动评分方法在性别上没有明显差异,但在学生语言背景上存在轻微显著偏差。也就是说,模型看起来很客观,但并不天然公平。()
这件事放到中学里,非常现实。
一个英语基础弱但进步很大的学生,可能被AI认为“语言质量不足”。一个不爱套模板的学生,可能被AI认为“不符合评分特征”。一个表达朴素但观察细腻的孩子,可能被AI低估。
这不是技术小问题,这是教育大问题。
教师要特别警惕一种情况:系统给出分数以后,大家都默认它是“客观的”。因为机器没有表情,也不会发脾气,所以我们容易误以为它没有偏见。
但算法的偏见,往往不是吵出来的,而是悄悄算出来的。
学校可以这样做:凡是用于作文、开放题、探究题的AI评分,都要定期做“差异检查”。看不同班级、不同基础层次、不同语言表达风格的学生,是否长期出现异常低分。如果有,就不能简单说“学生不行”,要先问一句:尺子是不是歪了?
金句:公平不是平均快,而是每个孩子都有被认真看见的机会。
二、越是开放性题目,越不能只交给模型
AI最擅长什么?
它擅长找模式。比如格式是否完整,语句是否通顺,关键词是否出现,论点是否清楚。这些方面,AI确实可以帮老师节省大量时间。
但AI不擅长什么?
它不擅长真正理解一个孩子为什么这样写。它也不一定能准确判断一段表达背后的生活经验、思维突破和情感重量。
2025年的EssayJudge研究测试了18个有代表性的多模态大模型,发现它们在自动作文评分中确实有潜力,但在篇章层面的特征,特别是连贯性、论证质量等方面,与人工评价仍存在差距。()
这就给学校一个提醒:选择题、填空题、基础知识题,AI可以多用一点;作文、材料分析题、项目报告、综合实践成果,AI只能做辅助。
举个班级场景。
老师布置一篇英语作文,题目是“My Most Difficult Day”。有的学生写得语法很标准,但内容空泛。有的学生语法有错,却写出了真实经历。AI可能更容易给前者高分,因为它“看起来更规范”。但教育不能只奖励“看起来标准”。
教师在使用AI评分时,最好把题目分成三类:
第一类,客观题,可以让AI自动判分。
第二类,半开放题,可以让AI初评,教师抽查。
第三类,高开放题,AI只给建议,最终由教师判断。
这不是保守,而是专业。
因为评价本身就是教学的一部分。老师批改作文,不只是给分,更是在和学生对话。AI可以帮老师减少重复劳动,但不能替代这种对话。
金句:越是看思想的题,越不能只看机器的分。
三、学校要建三道门:AI初评、教师复核、学生申诉
现在很多学校谈AI,喜欢谈平台、工具、效率。其实第一步不该是买系统,而是立规则。
为什么?
因为教育评价一旦出问题,影响的不是一张表,而是一个孩子对自己的判断。
欧盟2024年通过的AI法案,采用风险分级思路,其中教育和职业培训相关AI系统被纳入高风险场景之一。这个信号很清楚:只要AI影响学习机会、评价结果、教育路径,就不能当普通工具随便用。()
NIST在2024年发布的生成式AI风险管理框架也强调,要关注生成式AI带来的透明度、偏见、隐私和问责等问题。放在学校里,这些词不用说得太复杂,本质就是四句话:谁来用?怎么用?错了谁负责?学生怎么申诉?()
我的建议很明确:学校要建立三道门。
第一道门,AI初评。
AI可以先给出分数、理由、修改建议。但系统页面必须标注:这是“初评结果”,不是最终成绩。
第二道门,教师复核。
凡是用于正式成绩、评优评先、分层分班、学生画像的重要评价,都必须有教师复核。尤其是边缘分数、异常分数、与学生平时表现明显不符的结果,要人工复看。
第三道门,学生申诉。
学生要有机会说明:“这篇文章是我自己写的。”“这个观点老师可能没有看到。”“AI说我偏题,但我想表达的是另一层意思。”申诉不是给学生钻空子,而是让评价更完整。
学校管理者还要做一个简单台账:AI评分使用了什么工具,适合什么题型,哪些结果人工复核,哪些学生提出申诉,最后如何处理。
这套流程不复杂,但很关键。
没有流程,AI评分就是一把快刀。刀快没问题,但不能乱切。
金句:AI可以给建议,但签字权不能外包。
四、家长看AI批改报告,不要只盯那个分数
现在很多家长最容易犯一个错误:打开AI批改报告,第一眼就看分数。
78分,焦虑。
92分,高兴。
可是,AI报告真正有价值的部分,不是那个分数,而是它指出的问题是否具体,修改建议是否可操作。
2025年一项关于大模型作文评分与人工评分一致性的研究综述,综合了2022年1月至2025年8月的65项研究。结果显示,大模型与人工评分的一致性总体从中等到较好不等,相关指标大多在0.30到0.80之间,但不同研究差异明显。这说明,AI评分有参考价值,但还没有到“完全放心”的程度。()
家长看报告,可以问三个问题。
第一,AI有没有说清楚“为什么扣分”?
如果只说“表达不够好”,这等于没说。如果能指出“第二段例子和中心句关系弱”,才有价值。
第二,AI有没有给出“下一步怎么改”?
比如,把“内容空泛”改成“补充一个具体场景”;把“结构混乱”改成“先写原因,再写经过,最后写收获”。这样的建议,孩子才用得上。
第三,老师有没有参与判断?
家长要特别注意:AI批改不能成为家校沟通里的“判决书”。老师要结合课堂表现、平时作业、学生基础来解释结果。
最好的家校沟通方式,是把AI报告变成一张“学习地图”,而不是一张“成绩罚单”。
班主任可以这样和家长说:
“这次AI报告我们主要看三个点:孩子有没有清楚表达观点,有没有具体例子,有没有修改痕迹。分数只是参考,我们更关注他下一次能不能把一个问题改好。”
这句话很重要。它能把家长从焦虑里拉回来。
金句:真正有用的批改,不是告诉孩子“你不行”,而是告诉他“下一步怎么改”。
五、评价改革不能把孩子交给算法
AI评分带来的最大诱惑,是效率。
过去一个老师批改两个班作文,可能要熬到深夜。现在AI几十秒出结果,谁不心动?
但教育评价从来不是单纯的效率问题。
UNESCO在2025年关于AI与受教育权的说明中提醒,AI进入教育后,需要关注学生数据如何收集和使用,以及偏见、伦理、保护、文化和语言多样性、问责等问题。()
UNESCO在2024年发布的教师AI能力框架,也把“以人为本”“AI伦理”“AI教学法”等作为教师必须掌握的重要能力。换句话说,未来教师不是简单学会点几个按钮,而是要知道什么时候用AI,什么时候不用,什么时候必须人工介入。()
这对中学尤其重要。
因为中学生还在形成自我认知。一次评价,可能影响他对一门学科的态度。一个“低分”,如果解释不清,孩子可能会觉得“我就是不会写”。一个“高分”,如果来得太容易,孩子也可能误以为“套模板就够了”。
所以,学校推进AI评分,要守住五条底线:
第一,不把AI分数作为唯一依据。
第二,不用AI给学生贴长期标签。
第三,不把AI批改报告直接甩给家长制造焦虑。
第四,不让学生在没有解释权的情况下接受结果。
第五,不让教师退到系统后面,只做点击确认的人。
AI评分最适合做什么?做初筛、做提示、做统计、做重复性反馈。
AI评分最不适合做什么?做最终裁决、做人格判断、做学生潜力预测。
说到底,评价改革的方向,不是把老师换成算法,而是让老师从重复批改中腾出手来,更认真地看见学生。
这才是AI进入教育的正确位置。
给教师的可操作建议
教师可以从一张“AI评分复核单”开始做。
每次使用AI评分后,至少抽查三类作品:高分边缘、低分边缘、与平时表现明显不符。复核时看四项:评分是否符合量规,扣分理由是否具体,建议是否可执行,是否存在表达风格被误判。
作文类任务建议保留“三件套”:学生初稿、AI反馈、学生修改稿。这样,老师看到的不只是结果,而是成长过程。
给学校管理者的治理建议
学校层面要制定AI评分使用规则。
哪些题型可以自动评分,哪些题型必须人工复核,哪些结果不能进入正式档案,都要写清楚。涉及分层、评优、处分、升学推荐等重要事项,不能只看AI结果。
建议建立“AI评分异常复核机制”。凡是学生、家长、教师认为结果异常,都可以提出复核。复核结果要有记录,有解释,有反馈。
给家长的沟通建议
家长不要把AI评分当成“电子老师”。
看到低分,先问孩子:“你觉得它说得哪一点有道理?”再问老师:“这份报告哪些地方值得参考?”最后和孩子约定一个小目标,比如“下次作文补充一个具体事例”。
不要一上来就说:“你看,AI都说你写得差。”
这句话伤害很大,也没有教育价值。
结尾:技术越快,教育越要慢一点
AI自动评分会越来越常见。这不是坏事。
它能帮老师减负,能给学生更多即时反馈,也能让学校看到一些过去看不到的数据。
但我们必须记住:快,不等于准;准,不等于公;公,也不只是分数一致。
真正好的评价,是让孩子知道自己在哪里,也知道下一步往哪里走。
所以,AI评分可以进校园,但必须带着护栏进来。
AI可以算分,但不能替学生下结论。
AI可以提醒老师,但不能替老师负责。
最后送给教师、家长和学校管理者一句话:
评价不是给孩子盖章,而是帮孩子找到下一步。
您所在学校有没有使用AI批改作文、作业或试卷?您最担心的是效率、准确性,还是公平性?欢迎在评论区说说真实体验。
高搜索量热词摘要
AI自动评分、AI批改作文、教育公平、算法偏见、作文AI反馈、AI阅卷、教师复核、学生申诉、家校沟通、评价改革、人工智能教育治理。
配图建议
风格:校园纪实照片风,轻量科技HUD叠加。
色调:深蓝、暖白、银灰。
内容:一位教师在电脑前查看AI评分报告,旁边有学生作文纸和红笔,屏幕上出现“Score / Review / Appeal”三个简洁词。
配图文字:签字权不外包
AI生成配图提示词
中文提示词:
一张16:9横版校园纪实风照片,场景为中学办公室,一位教师坐在电脑前认真查看AI评分报告,桌上有学生作文纸、红笔和评分量规。画面真实克制,不要赛博朋克。加入轻量科技HUD线框,屏幕附近显示英文词“Score / Review / Appeal”。色调为深蓝、暖白、银灰。整体干净、专业、有教育现场感。图片文字不超过6个字:“签字权不外包”。
English prompt:
A 16:9 documentary-style photo set in a secondary school office. A teacher is carefully reviewing an AI scoring report on a computer. Student essays, a red pen, and a scoring rubric are placed on the desk. Keep the scene realistic and restrained, not cyberpunk. Add subtle HUD-style overlays with the words “Score / Review / Appeal” near the screen. Use deep blue, warm white, and silver-gray tones. Clean, professional, with a strong sense of real school assessment. Add short Chinese text: “签字权不外包”.
夜雨聆风