
【前言】
AI 聊天机器人会说”嗯…“吗? 它应该会吗?
在过去一年里,这是我从事 AI 口语评估研发工作中反复思考的一个问题。当生成式 AI 聊天机器人越来越频繁地被部署为二语学习者的”口语练习伙伴”,甚至被设想为某种形式的”评估对话者”时,我们正悄然站在一个语言评估史上前所未有的十字路口:当机器人永远比真人更”流利”、更”迎合”, 更“话痨”,我们到底在评估什么?
这正是我即将在 AALA 学生委员会 2026 第二场线上讲座中深入探讨的问题。本次讲座以「AI 与语言评估」(AI and Language Assessment)为主题,聚焦生成式 AI 在语言评估中的应用机会与未解难题,涵盖 AI 辅助试题命制、AI 介导口语评估、提示词设计、构念实现,以及人类专家判断在负责任评估实践中的持续角色。
【讲座一】Dr. Olena Rossi(独立评估顾问,EALTA AI 语言评估特别兴趣小组创始召集人)
Generative AI for item writing: Outstanding questions and future directions
(生成式 AI 与试题命制:悬而未决的问题与未来方向)
Olena 的报告将聚焦生成式 AI 应用于语言测试试题命制过程中两个长期被忽视、却直接制约 AI 试题质量的关键问题:
• 其一,用于微调(fine-tuning)大语言模型的高质量训练数据的匮乏;
• 其二,能够替代人工判断的有效自动化试题评价指标的缺失。
在此基础上,Olena 将进一步论证一个对整个领域颇具启发意义的观点:未来 AI 试题质量的提升,将更多依赖于试题生成工作流(workflow)的整体再设计,而非仅止于提示词层面的微调与优化。
Olena 拥有英国兰卡斯特大学语言测试博士学位,常年为全球语言测试机构提供试题命制咨询与培训。她也是 EALTA AI 语言评估特别兴趣小组的创始召集人。她的研究与出版可见于个人网站:itemwriting.co。
【讲座二】Dr. Sha Liu / 刘莎(英国文化教育协会测试研发研究员)
When the chatbot says “um”: Prompting, construct realisation, and the human-in-the-loop in AI-mediated L2 speaking
(当聊天机器人说”嗯”:提示词、构念实现与 AI 介导口语评估中的人机协同)
我的报告将围绕两条主线展开:
• 其一,梳理当前关于人机互动模式与提示策略(prompting strategies)的研究进展;
• 其二,结合真实口语评估开发中的具体案例,呈现微小的提示词选择如何”塑造”或”扭曲”我们意图测量的互动特征与流利度特征。
报告将进一步反思评估开发过程中的构念变异层次(layers of construct alteration),以及 AI 介导口语评估时代下构念转变的连续谱(continuum of construct transformation),最终主张一个对从业者与研究者同样具有现实意义的观点:“提示词”并非边缘工具,而是塑造构念的核心工具。 负责任的 AI 介导口语评估,必须依赖具备 AI 素养的人类专家始终留在评估回路之中(human-in-the-loop)。
【一点延伸思考】
将两场报告并置,我们其实在追问同一个更大的问题:当 AI 成为语言评估流程中越来越深度的”协作者”——既写题,又对话——人类专家判断的边界、价值与不可替代性,究竟体现在哪里?
这不只是一个技术问题,更是一个评估理论问题——它关乎我们如何理解构念、如何理解效度、如何理解”语言能力”本身在 AI 时代的边界。希望届时能与各位同仁与同学一起,把这个问题向前推进一步。
讲座信息
📅 时间:2026 年 5 月 26 日(周二)
⏰ 北京时间 16:00 / 伦敦时间 09:00
💻 形式:线上(Zoom)
🔗 讲座详情与 Zoom 入会信息:AALA 官方讲座页面 (https://www.aalawebsite.com/student-committee-activities/aala-student-committee-webinar-in-may-2026)
诚邀来自语言评估、应用语言学、英语教学、AI 教育等领域的同仁与同学届时拨冗参与。无论您正在思考 AI 如何介入您的研究、教学,还是测评实践,这都将是一场值得驻足的对话。线上见。
📌 关注我:更多关于 AI 与语言评估的研究随笔与会议分享,可在 LinkedIn(搜索 Sha Liu)与小红书(搜索莎丽丝博士)同步阅读。
夜雨聆风