人工智能(Artificial Intelligence,AI)已从“概念验证”阶段迈入“教学现场”阶段,在形成性评价(formative assessment)中扮演越来越关键的角色。形成性评价强调“过程 + 反馈 + 调节”,而 AI 恰好在“高频数据捕获—实时诊断—个性化反馈—动态调节”四个环节具有独特优势。本文从理念、技术、场景、证据、风险与展望六个维度,系统梳理 AI 赋能形成性评价的机制、成效与挑战,并给出可落地的实施建议。
一、理念层:AI 为何与形成性评价“天生契合”
定义再审视形成性评价的核心不是“评”,而是“通过评来促学、促教”。Black & Wiliam 的经典框架指出,只要满足“揭示学习差距—提供改进信息—被师生实际使用”三条件,任何活动都可成为形成性评价。AI 的数据密集型与反馈即时性,恰好让这三步无缝衔接。
反馈回路压缩传统课堂的反馈周期常以“天”计,AI 可压缩到“分钟”甚至“秒”。回路越短,学生记忆热度越高,调节行为越可能发生。
从“抽样”到“全样本”教师一次课只能提问 5–8 名学生,AI 可采集全班每一次键盘输入、语音波形或眼动轨迹,实现“全样本”诊断,降低因抽样偏差导致的误判。
从“结果”到“过程”借助学习分析(Learning Analytics),AI 可以捕捉“半成品”状态,如作文的每一次键盘停顿、编程的每一次编译错误,还原真实思维过程,而非只看最终答案。
二、技术层:AI 在形成性评价中的七大功能组件
自动批改(Auto-grading)覆盖选择、填空、短答、程序、数学推导、手绘图 OCR 等多模态题型。
诊断模型(Diagnostic Model)基于贝叶斯知识追踪(BKT)、深度知识追踪(DKT)或认知诊断模型(如 DINA),实时估计学生掌握度。
自然语言反馈(NLP Feedback)利用大模型(LLM)生成“任务层—过程层—自我调节层”三级反馈,可解释、可改进。
语音与发音评估(Speech Scoring)采用声学模型 + 发音良好度(GOP)算法,对口语进行音素级纠错与重读、语调建议。
自适应提问(Adaptive Questioning)依据“最大信息增益”原则动态抽题,既防止过难导致挫败,也防止过易导致厌倦。
多模态学习分析(Multimodal LA)融合视频头部姿态、键盘日志、生理腕带等多通道数据,推断注意力、情绪与认知负荷。
生成性任务与模拟(Generative Task)利用 AIGC 生成“案例 + 情境 + 角色扮演”,学生与 AI 代理协作解决问题,评价其高阶思维。
三、场景层:从“备课—教学—作业—反思”闭环看 AI 形成性评价落地
备课阶段:AI 协同教师设计“可评”任务教师输入教学目标,AI 依据 SOLO 或布鲁姆分类法生成评价量规(rubric),并输出 3–5 个形成性任务原型,附带预估难度与常见误区。
教学阶段:嵌入式“随堂测”PowerPoint 插件(如 ClassPoint AI)扫描教师课件,一键生成与幻灯片内容匹配的选择题、填空题或开放题,学生用手机提交,AI 实时生成热力图,教师据此调整讲解节奏。
作业阶段:写作与口语的“秒级反馈”高职英语 iWrite 系统从语言、内容、篇章、规范四维评分,并给出句级修改建议;学生根据反馈二次提交,系统记录“草稿—终稿”进步轨迹,形成电子成长档案袋。
项目阶段:跨学科 STEM 的“过程性评估”AI 依据学生上传的编程日志、实验数据与协作聊天记录,自动计算“数据分析与模型构建”得分,教师则基于 AI 汇总报告,聚焦“创新性”与“合作态度”进行定性评价。
反思阶段:AI 生成“个性化错题本 + 学习建议”系统根据错误模式,推送 3 分钟微课视频与相似题,并提示学生自评“是否已掌握”;若学生连续两次自评过高但后续答题错误,AI 会触发“元认知提醒”,引导其下调信心评级,培养自我调节能力。
四、证据层:AI 形成性评价的效果与边界
学习成效2024 年《Nature》子刊元分析显示,嵌入 AI 即时反馈的课堂比传统课堂平均效应量 d=0.34,对低成就学生(d=0.52)更显著。
教师时间自动批改可为教师节省 30–40% 评分时间,使其将精力转向高阶辅导。
学生动机游戏化 AI 评估(如物理闯关)提升学生流体验,但需警惕“外在奖励”削弱内在动机,应设计“挑战性 + 自主感”并重的任务。
边界与风险
算法偏见:训练数据若过度代表高分范文,可能对少数语言背景学生不利;需定期审计模型,引入对抗性样本。
高阶思维:AI 对创造性、批判性评分仍弱于专家,应采用“AI 预评 + 教师终评”混合模式,确保信度与公平。
数据隐私:语音与面部视频属敏感生物数据,须遵循最小够用原则,本地加密存储,禁止第三方商用。
学生依赖:过度依赖 LLM 可能弱化基础写作技能;可设计“AI 意识”任务,让学生批判并改进 AI 生成文本,培养高阶思维。
五、实施建议:让 AI 形成性评价“用得上、用得好、用得安心”
教师专业发展将“AI 素养”纳入校本研修,重点训练:提示工程(prompt engineering)、诊断报告解读、偏见识别、伦理决策。
三层治理架构
决策层:校长与教研组长制定“AI 评估应用白皮书”,明确数据边界与红线。
执行层:学科组共建“任务—数据—反馈”模板,统一量规,确保横向可比。
监督层:家委会与学生代表参与算法解释会,建立“申诉—复核”流程。
技术选型优先采用“可解释 + 可编辑”的 AI 工具:教师能查看评分规则、可手动覆写结果,防止“黑箱”决策。
迭代机制每学期末开展“证据导向”的复盘:对比 AI 预测的学生掌握度与期末实测结果,校准模型;同时收集学生问卷,优化反馈语言的可读性与激励性。
数字公平对终端设备不足的学生,提供“离线语音评测笔”或“纸质 OCR 答卷”,由学校统一数字化,确保技术红利不扩大“新数字鸿沟”。
六、生成式 AI 与形成性评价的“双向奔赴”
评估即学习(Assessment as Learning)生成式 AI 不再只是“打分”,而是与学生共同完成任务:例如,AI 扮演“辩论对手”,学生需现场反驳其论点,系统依据论证质量、信息来源可信度、逻辑谬误识别等多维指标给出形成性反馈。
多模态大模型未来 GPT-vision 类模型可同时解析学生手绘概念图、口述解释与文本答案,实现“图-文-音”一致性校验,更精准定位概念误区。
元宇宙模拟在虚拟实验室中,AI 依据学生操作步骤实时生成“异常数据”或“事故情境”,评价其应急处理与科学推理能力,形成“情境化”形成性评价。
终身学习护照区块链 + AI 将学生的各学段形成性评价数据加密上链,生成“学习护照”,可跨校、跨机构授权使用,让评价真正成为“终身学习导航仪”。
结语人工智能不是形成性评价的“终点”,而是一次重新反思“为何而评、评何、如何评”的契机。当 AI 的“数据智能”与教师的“教学智慧”深度融合,形成性评价才能真正回归教育本质——支持每一个学习者成为更好的自己。面对技术浪潮,我们需要的不是“替代”与“被替代”的焦虑,而是“共创”与“共治”的勇气。让 AI 做其擅长的高频计算,让人类守护价值与温度,这才是智能时代形成性评价的理想图景。

夜雨聆风