
当生成式AI能瞬间产出高质量作文、翻译与阅读分析时,传统以"产品导向"的评价体系全面失效——AI时代的评价变革必须从"评估结果"转向"评估过程"、从"标准化测量"转向"多维证据整合"、从"单一分数"走向"成长档案"。

教育评价的理论基石可追溯至泰勒原理(Tyler Rationale, 1949)的第四问:"如何确定目标达成度?"此后,布鲁姆教育目标分类学(1956)、形成性与总结性评价二分法(Scriven, 1967)、真实性评价/Authentic Assessment(Wiggins, 1989)、表现性评价/Performance Assessment(Lane et al., 2019)等相继发展,构成了当代教育评价的方法谱系。
然而,所有这些范式都建立在一个基本假设之上:学生提交的作品反映了学生的能力。当ChatGPT可以在数秒内生成一篇结构完整、语言流畅、甚至有一定深度的议论文时,这个基本假设被动摇了——我们无法再简单地通过"成品质量"来推断"学生水平"。这一危机迫使教育评价进入一个全新的重构阶段。

"产品评价"的根本性危机
传统写作评价的核心逻辑是:学生提交作文 → 教师根据产品质量评分 → 分数代表学生写作能力。AI介入后,这条链条断裂了——高分作文可能是AI代写的,低分作文也可能是学生真实能力的体现(因未借助AI辅助)。
更深层的问题是:如果AI能写出"好文章",那么"好文章的标准"是否需要重新定义?当AI能模仿任何风格时,原创性、个人声音、独特视角的价值是否应获得更高的评价权重?
过程性评价的三重证据
AI时代评价变革的核心方向是从"结果评价"转向"过程评价",但过程性评价并非简单的"看草稿",而是需要收集三类证据:
- 过程痕迹(Process Traces):写作过程中的修改记录、思考笔记、查阅资料的轨迹;
- 认知投入(Cognitive Engagement):课堂参与、讨论发言、提问质量等反映思维活跃度的行为数据;
- 元认知反思(Metacognitive Reflection):学生对自身学习过程的描述与评价——"我遇到了什么困难""我是如何解决的""我学到了什么"。
三类证据相互印证,才能构成对学生真实学习状态的可信判断。
多模态评价(Multimodal Assessment)
传统评价高度依赖书面文字(试卷、作文)。AI时代,多模态评价的重要性凸显:口语表达、视频演示、项目作品、小组协作记录、数字创作(如博客、播客脚本)等非纸笔形式成为评价的重要载体。
这些形式之所以更具抗AI干扰性,是因为它们要求学生在实时互动情境中展现即时反应能力、情感表达能力与社会交往能力——这些维度当前AI仍难以完全模拟。
AI作为评价工具的双面性
AI既是评价的威胁者,也可以是评价的支持者。AI可用于:自动化批改基础性作业(释放教师精力用于深度评价);分析学生学习行为数据以识别潜在困难群体;提供即时反馈加速学生的学习循环。
但同时,过度依赖AI评价可能加剧"算法偏见""去人性化评价"等风险(参见 B-10 教育数据伦理)。关键原则是:AI负责量化数据的采集与处理,人类教师负责价值判断与意义赋予。


① 构建"写作档案袋"评价体系
针对AI写作带来的评价危机,语文课应从单次作文评分转向"写作档案袋"(Writing Portfolio)制度。每位学生建立一个学期写作档案,包含:每篇作文的初稿—修改稿—定稿对照、写作日志(含选题理由、修改思路、遇到的困难)、课堂写作讨论记录、期末自我反思报告。
评价时综合考量以下维度:
- 成长轨迹:从开学到期末的进步幅度;
- 过程投入:修改次数、反思深度、课堂参与度;
- 作品多样性:尝试过多少种文体、多少种表达方式;
- 个体声音:是否有独特的观察角度或表达习惯,这是AI最难复制的。
② 设计"防AI干扰"的现场评价任务
在日常评价之外,仍需保留一定比例的现场限时写作与口头表达测试,确保对学生真实能力的底线把握。关键在于设计"AI难以替代"的任务类型:
- 具身写作(Embodied Writing):要求学生基于亲身经历的真实事件写记叙文,并在后续口试中被追问细节(AI无法编造真实的生命经历);
- 现场即兴评析:提供学生未见过的陌生文本,要求在限定时间内完成口头分析(考验即时阅读理解与表达整合能力);
- 对比性写作:同一题目先写一版,再用AI辅助写一版,然后撰写"两个版本的分析与选择说明"(将AI使用本身转化为评价对象)。
③ 从"分数排名"转向"素养画像"
AI时代评价改革的终极目标是改变评价结果的呈现方式:从单一的分数或等级,转向多维度的"素养画像"(Literacy Profile),涵盖:阅读广度与深度、表达的多样性与个性、批判性思维的发展水平、合作与沟通能力、元认知成熟度等维度。每个维度附以具体的作品证据与教师质性评语。
这种画像式评价不仅能更全面地反映学生的语文核心素养,也能有效抵御AI干扰——因为它是建立在丰富的过程证据之上的整体性判断,无法被单一产品的质量所伪造。

| 中文术语 | 英文术语 |
|---|---|
| 过程性评价 | Process-Oriented Assessment / Formative Assessment |
| 写作档案袋 | Writing Portfolio |
| 多模态评价 | Multimodal Assessment |
| 真实性评价 | Authentic Assessment |
| 素养画像 | Literacy Profile / Competency Portrait |

Wiggins, G. (1989). The case for authentic assessment. ERIC Digest.(真实性评价运动的奠基文献,提出评价应反映真实世界的能力需求)
Wiliam, D. (2023). Formative assessment: What it is and what it is not. In J. C. Hattie (Ed.), Visible learning (3rd ed.). Routledge.(过程性评价的最新系统性论述,含对数字化环境下的评价变革讨论)
钟启泉(2022)。《新时代教育评价改革:理念与实践》,《华东师范大学学报(教科版)》,第40卷第1期,1–13页。(国内教育评价改革顶层设计的学术解读)

人机协同下的教学创新系列15期至此完成。从"人机协同学习"出发,经智适应系统→认知建模→学习分析→生成式AI与认识论→幻觉问题→协同写作→提示词工程→认知负荷→数据伦理→数字素养→知识生产变革→角色重构→课程重构,最终落脚于评价变革——这是一个完整的"人机协同教育生态"闭环。
每一期均紧扣语文教学场景,期望能为一线语文教师在AI浪潮中保持专业清醒与实践智慧提供系统参照。

夜雨聆风