

作业不再可信带来评价危机
一直以来,作业、论文、项目报告,这些“可以带回家完成”的任务,不仅是学生学习的载体,也是老师们对学生学习状况进行评价的重要依据。
然而,ChatGPT 、DeepSeek、豆包……等大模型的出现,让这一切迅速发生了变化。
在北京海淀的一所中学,教英语的陈教师发现,一些原本写作能力一般的学生,英语作文突然变得“近乎完美”——用词地道、句式多样、结构严谨。但当她在课堂上请这些学生分析自己的文章时,他们却支支吾吾,说不清楚:为什么要这样安排段落?某个抽象词汇的准确含义是什么?论点之间的逻辑关系是如何建立的?
类似的困惑,不仅在中国各地,也在世界各国的教师中广泛出现。
AI让作业的可信度大大降低,这给教师们带来一个前所未有的评价挑战。

重建“可验证的学习场景”的7种方法
在过去两年中,如何应对AI带来的评价挑战,各国的教师们尽管环境和理念各异,却无形中进行了一场“趋同的多样化实验”——把学习从“家庭空间”拉回“课堂空间”,把评价从“文本判断”转向“过程与表现”,把重点从“写出来什么”转向“如何写出来”……
这些路径并非简单的“反AI”,而是一种更深层的重构,有人把它定义为:重建“可验证的学习场景”(Verifiable Learning Contexts)。
从各国中小学的真实案例中,我们总结了七类方法。
返璞归真:
蓝皮书回来了
2025年,Chanea Bond,一位在德克萨斯州西南高中(Southwest High School)教授美国文学与写作的教师,因为用最朴素的方法应对AI挑战,而成了美国教育界的新闻人物。
在她的课堂上,学生几乎所有的写作任务都通过手写完成。尽管学校为每个学生配备了笔记本电脑,但在Bond的教室里,这些设备基本派不上用场。“走进我的任何一堂课,你会看到所有学生都在纸质的本子上写,他们用笔或铅笔做日志,完成所有任务。”
很多教师采取了这一教学策略,这种现象被称为“蓝皮书回来了”——蓝皮书(Blue Book)是美国大学考试中常见的蓝色封面答题册,学生需要直接在册子上手写作答。在AI写作工具泛滥的背景下,老师们让写作回归蓝皮书时代,意味着学生无法再将生成式AI的产物作为自己的作业提交。
但Bond的做法并非简单的“禁用AI”。她调整了评估方式:不再只根据最终的论文或展示来评分,而是对写作的每一个环节进行评价,包括论点陈述、提纲、参考文献和手写草稿。“这些步骤在最终成绩中占有累积性的比重,因为这样我才能知道思考正在发生。如果学生必须向我展示开头、中间、结尾以及构成文章的各个环节,他们就不太可能提交AI生成的东西。”

口头答辩的复兴:
让理解“暴露出来”
在法国巴黎的路易大帝中学(Lycée Louis-le-Grand),法语教师玛丽·杜布瓦(Marie Dubois)在文学课程中推行了一项看似“古老”却格外有效的做法:学生在提交书面分析后,必须进行10分钟的口头讲解,并接受教师与同学的即时追问。
这一做法并非杜布瓦老师的独创,而是根植于法国深厚的教育传统。在法国,口头答辩(explication orale)与论文写作(dissertation)并列为人文教育的两大支柱。法国教育界普遍认为,口头表达是检验学生是否真正理解知识的最直接方式——书面作业可以被精心修饰,但口头应答却无处可藏。
2025年,法国国民教育部发布的《人工智能使用框架》明确提出,AI“必须用于辅助而非替代学习和智力努力”,并要求教师在教学中对AI的使用进行“监督和引导”。在这一政策背景下,口头答辩作为一种能够直接验证学生真实理解的评估方式,正在法国课堂中焕发新生。
这种方法的底层逻辑很简单:理解,必须能够被表达与辩护。
分块任务设计:
让“过程无法被外包”
在伦敦的哈里斯巴特西学院(Harris Academy Battersea),历史教师詹姆斯·威尔逊(James Wilson)面对AI时代学生提交“完美作业”的挑战,采取了一种系统性拆解论文写作的方法。他将原本“在家里完成一篇论文”的任务,重新设计为四个分布在课堂内外的“可见节点”:
第一节点——课堂生成论点:学生必须在课堂上当众陈述自己的核心论点,并接受同学和教师的即时追问。这一环节确保论点确实出自学生自己的思考。
第二节点——课堂分析材料:在教师指导下,学生在课堂上完成史料的分析与解读,标注关键证据,形成初步的论证链条。教师的介入使得分析过程“可视化”。
第三节点——家庭完成写作:学生将课堂讨论中形成的论点与分析转化为完整的书面文本。这一环节可以在家完成,允许学生利用AI工具进行语言润色或结构优化。
第四节点——课堂修改与解释:学生提交初稿后,必须在课堂上面对教师进行修改说明:解释每一段落的论证逻辑,回答“为什么选择这个证据”“这段推理是如何展开的”等问题。无法解释清楚的部分,将被要求重写。
这种做法的核心要点,在于让学习过程分布在多个“可见节点”上。每个节点都有教师的直接观察与介入,使得学生的真实理解无法被AI“替代”。威尔逊老师在接受《泰晤士教育副刊》采访时表示:“关键不是禁用AI,而是确保学生在写作的每一个关键环节都被‘看见’。如果论点是在课堂上生成的,材料是在课堂上分析的,那么最后的写作无论是否借助AI,主体部分都已经是学生自己的思考产物。”

项目与现场展示:
让能力在行动中显现
将学习成果通过项目展示与现场答辩来评估,已成为新加坡应对AI挑战的重要策略。莱佛士书院(Raffles Institution)在科学课程中推行了这一做法,其核心理念是:当学生必须亲身展示、解释和回应追问时,真实的能力便无法被技术替代。
莱佛士书院的科学课程要求学生完成实验项目后,进行现场展示(presentation)——学生不仅需要演示实验结果,还必须解释变量设计的逻辑、分析数据的思路,并随时回答教师和同学的现场提问。
新加坡教育部及考评局(SEAB)近年来也在推动类似的评估方法,要求学生展示即时的思维过程,而这正是AI难以模拟的。
“项目与现场展示”的做法,将评估从“看结果”转向“看过程”,让学生的能力在行动中真实显现。
写日志:
让学习留下“痕迹”
在日本东京的御茶水女子大学附属中学(Ochanomizu University Secondary School),过程性评价贯穿于日常教学始终。学生被要求系统记录学习日志(learning logs),详细呈现每一次课堂的收获、疑问与反思——今天学到了什么?哪些地方还存在困惑?下一步的学习目标是什么?这些日志不仅仅是简单的课堂笔记,而是学生思考路径的完整档案。
这一做法的核心理念在于:学习必须留下可追溯的轨迹。教师定期批阅学习日志,通过学生的记录了解其真实的理解状态和思维过程,而非仅仅依赖最终的考试成绩来评判。
在日本教育实践中,这种过程性评价方式有着深厚的传统基础。许多学校将“生活日志”作为学生日常自我管理的工具,记录学习时间、活动安排及身心状态,教师通过日志给予个别化的鼓励与建议。而在现代教育改革的背景下,学习日志更被赋予了促进元认知和自主学习的使命——学生通过反思自己的学习过程,逐渐学会“如何学习”,而不仅仅是“学什么”。

高频低权重评价:
用“多次小验证”替代“一次大作业”
在印度,“连续与综合评价”(Continuous and Comprehensive Evaluation)早已成为教育评价的重要理念。这一制度的核心,正是通过高频低权重的“多次小验证”替代“一次大作业”,形成学生能力的连续证据链。
印度教师在课堂上广泛采用的连续评价手段包括:随堂提问、小测验、即时口头反馈、项目式学习与角色扮演。这些评价方式不依赖一次性的期末大考,而是将评估嵌入日常教学的每个环节。学生每次课堂回应、每次小测验的表现,都被记录为学习证据。
这种评价体系的目标是让评估成为“教与学过程中持续发生的活动”,而非仅仅依赖“一到三小时的期末统考”。
“允许AI,但必须负责”
在加利福尼亚州的ABC联合学区(ABC Unified School District),一项名为“透明度徽章”的制度正在改变师生使用AI的方式。这个学区位于大洛杉矶地区,其核心理念是:AI可以使用,但必须“被看见、被标注、被负责”。
学区为7至12年级学生提供Google Gemini等AI工具,同时制定了详细的标注规范。当学生在作业中使用AI时,需要在作品中贴上“AI Collab”徽章——代表AI参与了约60%的工作;如果完全未使用AI,则标注“HI”徽章,意为“人类智能”。这种做法的意义在于:教师不再需要费力猜测学生是否使用了AI,而是将AI的使用透明化,进而专注于评估学生的真实思考。
学区信息技术主任Mike Lawrence解释道:“这是一种有用的过渡工具。”他强调,家长和教师可以清晰看到AI在作业中的参与程度,从而判断学生是否真正掌握了知识。学区还通过季度社区圆桌会议,持续收集各方反馈——不仅听取AI支持者的意见,更主动邀请对AI持怀疑态度的教师参与讨论。
这套“允许AI,但必须负责”的机制,既承认AI已成为学生无法回避的工具,又通过强制标注确保学术诚信,被各国很多学校采用。这些学校不再禁止AI,而是规定,学生必须标注AI使用、提供prompt,并解释AI做了什么、自己改了什么。


重建“可验证学习场景”的设计逻辑
将上述不同方法加以抽象,可以发现,其中蕴含着一个系统性的设计框架。这个框架的核心目标,是在AI时代重建可验证的学习场景——让学生真实的理解能够被看见、被追踪、被确认。
这一框架由五个相互支撑的维度构成:
时间维度
让学习发生在“当下”
课堂写作、即时问答、实时展示——这些方法的共同点在于利用时间的不可逆性。当学生必须在有限时间内完成思考与表达时,AI的介入可能就被压缩到最低。
其核心是实时性。
空间维度
让学习发生在“可见之处”
课堂、实验室、展示现场——这些空间不仅是物理场所,更是教师可以观察、介入和验证的“可视域”。在教师目光所及之处,学生的真实能力无处隐藏。
其核心是在场性。
过程维度
让思维可以被“解释”
口头答辩、对话式评价、反思写作——这些方法要求学生将自己的思维“外化”。只有当学生能够用自己的语言解释推理过程时,真正的理解才得以确认。
其核心是可解释性。
认知维度
让思维可以被“解释”
口头答辩、对话式评价、反思写作——这些方法要求学生将自己的思维“外化”。只有当学生能够用自己的语言解释推理过程时,真正的理解才得以确认。
其核心是可解释性。
结构维度
让任务“不可外包”
分块任务、情境任务、项目任务——这些任务设计将复杂的写作拆解为多个相互依赖的环节,或嵌入具体的真实情境中。任务被设计得越“不可替代”,AI所能替代的部分就越有限。
其核心是不可替代性。
这五个维度共同构成了一套完整的评估逻辑:在实时与在场的场景中,通过可追溯的过程记录,要求学生为不可替代的任务提供可解释的思维证明。
当学习场景同时满足这些条件时,AI就不再是评估的“漏洞”,而是帮助学生学习的工具。



夜雨聆风