【教研工作】最终我还是放弃了AI命题的想法

前段时间，为了严格对标新课标素养评价标准，命制出科学、规范、贴合学情的质量检测试卷，同时减轻自身的命题负担，我开始尝试利用AI辅助完成三至六年级小学语文命题工作。

原本希望借助AI工具节省时间、优化试卷质量，让命题更加标准化、系统化，但经过反复尝试、持续调整与逐题打磨后，我最终放弃了AI命题这个想法。

整个过程，说起来都是一把泪。我把这个经过写出来，避免大家再次踩坑。

想要AI贴合本地教学评价要求，前期筹备工作必须做到细致周全。

于是，我投入大量时间和精力，重新修订了《长葛市小学语文学业质量评价框架》与《评价蓝图》，完整梳理、汇总了三至六年级下册统编版教材全部教学内容，将各年级会认、会写的生字和词语，必背古诗文、知识与能力训练点等，分门别类整理成规范的表格。

其次，我梳理了三至六年级下册教材每个单元的人文主题、阅读要素、习作要素和习作主题，整合成四个年级下册的《知识与素养图谱》。

同时，把自己多年打磨的成套优质试卷、习作真题全部提供给AI，指望海量规范素材能让它吃透学段标准，熟悉我的命题思路，掌握科学出题逻辑。

最后，我又从“积累与运用”“阅读与鉴赏”“表达与交流”等三个方面，包括语料选择、命题指向、分值分配等方面提出了十多条具体要求。

但是，即便前期做足了铺垫，AI生成的试卷依旧漏洞百出，整体质量达不到我想要的专业标准，各类问题层出不穷，令人失望。

首先是阅读选文质量堪忧，甚至凭空编造虚假内容。

我特意提出两项要求：选文优先选用兼具思维含量、适配单元语文要素的经典文本；部分语段结合长葛本土历史文化创作，拉近与学生生活的距离。

可AI完全无视史实，随意杜撰素材，凭空编造出“唐代诗人白居易曾游历长葛，留下了‘葛水东流去，青山两岸明’的诗句；宋代大文豪苏轼也曾在此驻足，写下了‘长葛古邑，汝水之滨’的赞叹”这样的材料，无中生有，且毫不脸红。

除去虚假本土素材，普通文段也语病频出、语句生硬，像“欣赏了荷花姿势的舞姿”这类搭配混乱的表述屡见不鲜，文本既缺少文学性，也无法匹配本册单元训练要点。

选文之外，学段与考点的把控也同样混乱。我同步录入三至六年级四份素养图谱，明确区分各年级命题标准，AI却经常混淆学段，命制四年级试题时误用三年级知识点与能力要求，难易尺度完全失衡。

字词考查也脱离教材限定范围，频繁出现超出本册识字写字表的词语，不符合循序渐进的学段识字要求。

更关键的是，AI对单元语文要素的解读时常出现根本性偏差，直接偏离教学重难点。

以“运用多种方法理解难懂的句子”这一核心要素为例，训练目标本来是引导学生运用“结合生活经验、联系上下文、查资料、向别人请教”等方法读懂含义深刻的句子，AI却先后出现两次严重误读，一会儿将考查方向偏向词语释义，一会儿又片面聚焦人物动作描写，习题设计完全跑偏，失去对应的检测意义。

教材内容更新滞后也是AI的一大硬伤。统编版三年级《剃头大师》《陶罐与铁罐》等课文早已删除，可AI素材库没有同步更新，依旧反复选用这两篇过时文本出题，内容与现行教学脱节，不适合当下学情检测。

AI命制的试卷的考点布局同样缺乏科学性，失衡问题突出：一部分基础知识点反复出题、过度考查，而素养图谱里大量核心知识点、能力训练点却全程空白，考查覆盖面残缺，难以客观全面评判学生综合语文素养。

各类细节硬伤更是随处可见。最典型的便是试题与阅读文本互通答案，比如基础题要求书写“奇妙”一词，后文阅读文段中直接出现该词，根本无法测出学生真实掌握水平。

题型设计上，AI思路固化、形式单一，缺少素养立意。生成的题目大多是机械老旧题型，甚至还有“看拼音写词语、完整默写古诗”等基础模式，生活化情境、综合性探究、知识迁移运用类设计少，和新课标倡导的评价导向相悖，很难锻炼学生的语言思维。

习作命题环节同样达不到预期。我提前明确规则，不能直接照搬教材原有习作主题，要结合单元习作要素整合改编、创设新颖情境，避免题目直白单调。但AI始终机械套用原有主题，不懂变通整合，命题思路十分僵化。

面对这些层出不穷的问题，我没有立刻放弃，而是持续细化指令、逐条指出漏洞，不断优化出题规范。

一方面明确选文、要素匹配、题型创新的各项细则，另一方面陆续投喂二十余套往年真题，对照我过往的命题范例，引导AI学习成熟的出题逻辑。

可是，即便反复修正、持续投喂真题，AI输出的质量依旧没有明显提升，同类错误反复出现，处理问题总是顾此失彼、丢三落四。

尤其令我沮丧的是，当对话内存储的评价框架、表格素材、修改指令过多时，就会频繁出现卡顿和输出中段，最后干脆直接宕机了——你好，这个问题我暂时无法回答，让我们换个话题再聊聊吧。

再到最后，怕我看不懂中文，直接上英文了——Sorry, that's beyond my current scope. Let’s talk about something else.。

不得以，查了解决办法，只能是新建对话窗口。但是，新建对话窗口，就需要把全套资料和要求重新录入！！！！

所以，到了最后，整套试卷还是需要我逐题审核、逐句修改打磨，前期耗费大量时间整理素材，并没有起到多少减负作用。

当然，AI并非全无是处。试题确定之后，生成参考答案很快，其答案的准确度、分值分配等都特别令人满意。

这其实也是AI的特点，擅长梳理、分析、总结、解题，在某一层面上说，它规范、严谨，但并不擅长创新和创造。至少在目前，并不具备高质量命题所需的专业思考、全局统筹与原创创造能力。

一套合格的小学语文试卷，是兼具专业性、系统性、逻辑性的创造性成果。命题需要精准把握课标导向、教材更新、学段梯度与本地学情，统筹考点覆盖、要素落地、文本选择、情境创设与细节规范，依托教师长期积累的教学经验。这些深层次专业判断，是机械执行指令的AI无法实现的。它只能读懂表层文字要求，难以吃透语文教学内核与素养评价逻辑，面对多维度、高标准的整套命题需求，难免出现解读偏差、内容失真、漏洞繁多等问题。

这次尝试最终以失败告终，浪费了我不少时间和精力，但这次尝试也并非毫无意义。

AI作为素材整理、初稿生成、答案整理的简易辅助工具，有一定的使用价值，但是还不能替代一线教师的专业研判与细致打磨。真正贴合教材、适配学情、符合本地评价标准的优质检测试卷，最终仍要依靠教师扎实的专业积累、严谨的统筹思维与精细化的逐题打磨。