乐于分享
好东西不私藏

高校刮起“口试”风:AI时代,学生得能说出个所以然

高校刮起“口试”风:AI时代,学生得能说出个所以然

一则美联社报道把美国高校正在发生的教育测评转型推向大众:

当学生的课后论文、代码、作业越来越“完美”,教师却在追问时发现学生讲不清思路,越来越多大学教师开始重新启用口试、面谈、现场答辩等古老的评价方式。

康奈尔大学生物医学工程课程要求学生在提交书面题集后参加20分钟左右的“口头答辩”;宾夕法尼亚大学有教师把书面论文和口试配套使用;纽约大学斯特恩商学院甚至尝试用语音AI代理开展个性化口试

换句话说,AI时代的考试不只是“防作弊”,而是在追问一个更根本的问题:什么才算学生真正学会了?

一、“完美作业、空白眼神”:不是作弊问题,而是学习证据问题

过去,教师常把一篇论文、一份作业、一段代码视为学生学习的主要证据。生成式AI打破了这个默认前提。

学生可以在几分钟内得到结构完整、语言流畅、格式规范的文本;但这份文本究竟来自学生的理解、学生与AI的协作,还是几乎完全由AI代写,单靠成品越来越难判断。

英国高等教育政策研究所与Kortext在2025年的调查显示,英国本科生中,报告使用过任何AI工具的比例从2024年的66%升至92%;使用生成式AI完成评估相关任务的比例从53%升至88%。

学生最常见的用途包括解释概念、总结文献、提出研究想法,同时也有学生直接把AI生成文本纳入作业。报告建议高校对所有评估进行“压力测试”,检查其是否能被AI轻易完成。

许多学校最初寄希望于AI检测器。但相关研究不断提醒我们:检测器并不能成为可靠的教育治理工具

斯坦福HAI介绍的一项研究发现,七种AI检测器在非英语母语学生写作上存在明显误判风险,其中TOEFL作文样本有61.22%被判为AI生成;91篇TOEFL作文中,89篇至少被一种检测器标记。因此教育场景应谨慎依赖AI检测器

更值得警惕的是,AI带来的不只是“抄袭风险”,还可能改变学生的学习努力结构。Bastani等人在一项近千名高中数学学生参与的田野实验中发现,使用类似ChatGPT-4的基础型AI助手能显著提高学生练习时的表现,但当AI帮助被拿走后,该组学生在测试中的表现反而低于没有使用AI的对照组;加入“不给直接答案、以提示引导”为特征的辅导型AI后,负面学习效应则得到缓解。

这个结果指向一个关键判断:AI可以帮助学习,也可以替代学习;关键在于任务设计是否让学生保留必要的认知努力。

二、为什么口试被重新提起?

口试并不新。博士答辩、医学面试、法律辩论、语言测试、牛津剑桥式导师制,都包含面对面阐释、追问和辩护。但在大规模现代本科教育中,口试因为耗时、评分一致性、学生焦虑等原因逐渐边缘化。AI的出现改变了权衡:当书面成品变得越来越容易外包,能够观察学生即时思考过程的评价方式重新变得重要

口试的价值不在于“让学生紧张”,而在于它能让教师看到书面答案背后的理解质量。学生能不能解释为什么这样做?能不能在条件变化后迁移思路?能不能说出自己哪里不确定?能不能辨认AI给出的答案是否可靠?

这些问题很难从一篇作业论文中稳定判断,却可以在追问中暴露出来。

相关综述也支持这种判断。关于高等教育口头评价的一项系统综述指出,口试能够让考官与学生互动,从而区分表层知识与深层理解;在医学、护理、营销、金融等强调双向沟通的领域,口试也更接近真实工作场景。

该综述同时指出,口试可能带来焦虑、评分主观性、对内向学生或英语作为附加语言学生的不利影响,因此需要明确时长、统一问题、评分量规、评估者培训等设计来提升可靠性与公平性。

UC San Diego的工程教育研究提供了一个更具体的案例。研究团队在六门工程课程中让560名学生参加15分钟口试,并跟踪后续书面考试表现。

初步结果显示,教师主持口试组在第二次书面期中考试中的成绩提高14%,助教主持组提高3%,无口试组变化很小;70%的受访学生认为口试提升了学习动机。研究者认为,口试不仅能看出学生“会不会套公式”,还逼着他们不得不说明为什么在特定情境下使用某个知识。

三、口试不是“反AI复古”,而是“学习证据链”重构

把口试理解成“防AI作弊工具”,会低估它的教育意义。更准确地说,口试是把评价从“只看产出”转向“同时看过程、解释、迁移与责任归属”

在AI时代,一份作业可以被拆成几类证据:

  • 第一,学生提交的最终产品;

  • 第二,学生生成这个产品的过程记录,包括资料检索、提示词、修改轨迹、同伴反馈;

  • 第三,学生对AI使用的声明与反思;

  • 第四,现场追问中呈现出的概念理解、推理路径与迁移能力。口试的作用,是把这些证据串起来,形成更可信的学习判断。

这也是当前国际高等教育评价改革的共同方向。TEQSA发布的“AI时代评估改革”资源指出,生成式AI加剧了高等教育原本存在的评价挑战,评估需要同时利用AI机会、管理AI风险;其后续资源进一步强调,机构要在保障学习成效的同时,支持学生负责任、合伦理地使用AI。

UNESCO关于生成式AI教育与研究的指南也强调,人本、伦理、安全、公平和有意义的使用,而不是简单禁用。

英国罗素大学集团的原则同样提出,高校应支持师生具备AI素养,调整教学与评价以纳入生成式AI的合伦理使用,同时维护学术严谨性与诚信。

因此,口试回潮并不意味着学校要回到“无技术时代”。相反,它提醒AIED研究者和教育实践者:AI越强,评价越要能看见人的理解、判断与责任

四、口试也可以被重新设计

AIED不应只关注“AI如何教学生”,也要关注“AI时代如何证明学生真的学会了”。从已有案例看,至少有四种可操作的设计方向。

第一,书面作品+口头答辩这适用于论文、项目报告、实验报告、代码作业、设计作品等任务。学生可以使用AI,但必须声明使用范围,并在答辩中解释核心选择:为什么选这个理论?为什么这样建模?为什么删掉AI建议中的某个部分?如果条件变化,结论是否仍成立?这种模式不是禁止AI,而是要求学生对成果负责。

第二,小剂量、高频率的“理解核验”不必每次都做高风险期末口试。教师可以在大作业后随机抽取学生进行5—10分钟追问,也可以在小组项目中让每位成员单独解释自己负责的部分。康奈尔的案例中,有课程在70人规模下由教师与助教分担20分钟答辩,也有工程课程在180人班级中使用4分钟模拟面试。关键不是拉长考试时间,而是为学习证据增加一个“活的窗口”。

第三,允许AI进入现场,但不允许AI替学生思考2026年一篇关于“会话式考试”的预印本提出,让学生在受监督环境中使用文档和有限AI工具,同时现场编程并解释推理过程;研究者在两天内完成58名学生的小组口试,认为这种形式把真实实践与即时表现结合起来。该研究仍处于预印本阶段,但它给出一个重要启发:AI时代的“安全评价”未必等于无AI评价,也可以是“有边界、有追问、有解释责任”的AI协作评价。

第四,AI可以辅助口试,但不应替代教师判断纽约大学斯特恩商学院的Panos Ipeirotis尝试用语音AI代理开展口试,其预印本报告称系统为一门本科AI/ML课程完成36次口试,总成本约15美元,并通过多模型评分达到较高一致性;但论文也明确记录了失败模式,例如AI代理会一次堆叠多个问题、无法按要求随机化案例、克隆教师声音被部分学生感到不适。

这个案例的价值不在于证明“AI考官已经成熟”,而在于提醒我们:AI评价系统必须有结构化流程、人工复核、隐私保护和申诉机制,不能只靠提示词约束。

五、给学校和教师的三点建议

第一,不要把口试设计成“抓作弊审讯”。

如果学生把口试理解为惩罚和盘问,它会增加焦虑并伤害师生关系。更好的表达是:这是一次学习核验,也是一次反馈机会。教师可以提前公布题型、评价标准和示例问题,先从学生熟悉的问题开始,再逐步进入迁移与反思。

第二,不要让口试成为新的不公平。

口试可能不利于严重焦虑、语言表达困难、听说障碍、内向或缺少相关经验的学生。公平设计包括:提供练习机会,明确评分量规,允许合理便利安排,训练助教,使用双评或抽样复核,避免把“口才好”误判为“理解深”。

第三,不要只改一个作业,要改整门课的评价结构。

最稳妥的设计不是“全部改口试”,而是形成多元证据:课堂即时任务、过程日志、AI使用声明、同伴互评、书面作品、现场展示、短口头答辩。这样既能降低单一评价的偏差,也能避免教师工作量失控。口试应成为评价组合中的关键节点,而不是所有课程的唯一解。

结语:AI时代,教育得要求学生“说出个所以然”

生成式AI让教育评价进入一个新的阶段:答案越来越便宜,解释越来越珍贵;成品越来越相似,过程越来越关键;文本越来越流畅,理解越来越困难。

口试的回归,不是怀旧,也不是技术恐惧,而是教育对“学习证据”的一次再校准。未来的好教育评价,不一定是没有AI的教育评价,而是能够回答三个问题的评价:学生是否理解?学生是否能迁移?学生是否能对自己与AI共同生成的成果负责?

AI可以生成答案,但不能替学生拥有知识。真正的学习,终究要经得起追问。

主要参考资料:

[1] Gecker, J. (2026). Perfect homework, blank stares: Why colleges are turning to oral exams to combat AI. Associated Press.

——文章主新闻来源,支撑“美国高校重新使用口试应对AI作业”的基本事实。

[2] Freeman, J. (2025). Student Generative AI Survey 2025. Higher Education Policy Institute.

——支撑“学生大规模使用生成式AI完成学习与评估任务”的背景判断。

[3] Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2023). GPT detectors are biased against non-native English writers. Patterns, 4, 100779.

——支撑“AI检测器不能作为学术诚信治理的可靠基础,且可能误伤非英语母语学生”。

[4] Bastani, H., Bastani, O., Sungu, A., Ge, H., Kabakcı, Ö., & Mariman, R. (2025). Generative AI without guardrails can harm learning: Evidence from high school mathematics. Proceedings of the National Academy of Sciences, 122(26), e2422633122.

——支撑“AI可以帮助学习,也可能替代学习;关键在于是否保留学生的认知努力”。

[5] Nallaya, S., Gentili, S., Weeks, S., & Baldock, K. (2024). The validity, reliability, academic integrity and integration of oral assessments in higher education: A systematic review. Issues in Educational Research, 34(2), 629–646.

——支撑“口试能观察理解过程,但需要设计评分量规、支架和公平机制”。

[6] Lodge, J., Howard, S., Bearman, M. L., Dawson, P., & Associates. (2023). Assessment Reform for the Age of Artificial Intelligence. Tertiary Education Quality and Standards Agency.

——支撑“AI时代评价改革不能只靠防作弊,而要重构学习证据”。