乐于分享
好东西不私藏

AI一键出阅读题,省时是真省时;可一不留神,测错能力也是真的

AI一键出阅读题,省时是真省时;可一不留神,测错能力也是真的

本文核心判断有四点:

AI能出题,而且出得不算差。

近两年的研究表明,AI已经能生成相当比例“可用”的阅读理解题。

“可用”不等于“可直接上卷”。

题目表面通顺,不代表测到的是你想测的能力;干扰项像样,不代表答案真的唯一。

老师真正要把的,不是一道“语句关”,而是三道“命题关”。

一是内容关,二是能力关,三是难度关。

AI最适合做命题助理,不适合做命题主任。

它可以提速,但不能替代蓝图、校准和责任。


正文

很多老师已经试过这个场景了。

找一篇文章,丢给AI,说一句:“请出5道阅读理解题,附答案和解析。”

十几秒,题出来了。题干挺像样,选项也整齐,解析还一本正经。那一刻,人很容易有一种感觉:这下命题终于轻松了。

但真正的问题,不在“能不能出”,而在“出得准不准”。

因为阅读理解命题,从来不是把一段材料切成几块,再贴上A、B、C、D那么简单。它至少要回答三个问题:你到底想测什么能力?这道题有没有只指向一个答案?它对学生来说,到底偏难、偏易,还是刚刚好?

近两年的英文研究给了我们一个很清楚的提醒:AI在“生成题目”这一步,进步很快;但在“稳定命中目标能力”“控制难度”“保证干扰项质量”这几步,还远没到可以放手的地步。(;;)

说白了,AI现在最像什么?

最像一个出题很快的年轻助理。手快,话多,效率高。但最后能不能进教室、进练习、进考试,还得老教师拍板。

金句一:AI出题的最大风险,不是出不出来,而是看起来都对,实际没测准。

一、AI能出题,但“能出”只是第一步

先说好消息。AI出阅读题,已经不是玩具级水平了。

2025年一项关于阅读理解推断题生成的研究,用GPT-4o为3—12年级语境生成题目。结果显示,93.8%的题目在整体质量上被评为“可用于实际场景”;但与此同时,只有42.6%的题目真正准确匹配了研究者想要的“目标推断类型”。这个结果特别有意思:题目表面可能不差,但测的能力点,未必就是你原来设定的那个。()

另一项2025年的研究,按PIRLS常见的四类阅读过程来生成题目,也发现GPT-4o能产出**74%到90%**不等的“可用且类别明确”的题目。也就是说,AI确实已经能按“提取信息、推断、整合、评价”这些方向,做出不少能看的题。()

但这两项研究合起来,其实讲的是同一句话:

AI能把题目“做出来”,不等于它已经把命题“做对了”。

这是很多一线老师最容易被“效率”带偏的地方。你看到的是五道题十秒钟出来;你没看到的是,能力点有没有跑偏,设问有没有过浅,选项有没有两个都像对的。

二、命题质量,最容易翻车在三件事上

第一件,测点跑偏

阅读理解不是只有“看懂了没有”。它还分提取、推断、整合、评价这些层次。如果一篇本该考“推断”的题,被AI写成了“原文定位就能抄出来”的题,那题面再漂亮,也只是测浅了,不是测准了。(;)

第二件,干扰项失真

多项选择题最难写的,从来不是正确答案,而是错误选项。好的干扰项,要“像对的,但确实不对”。2025年一篇关于干扰项评估的综述直说了:现在自动生成干扰项的研究很多,但到底该用什么标准评估这些干扰项,学界并没有统一答案;而且文献中常用的一些自动指标,和真实考试中的表现并不总是一致。换句话说,AI很会“凑四个选项”,但未必真的懂“什么叫有区分度的错误”。()

第三件,难度判断失真

老师有时也会看走眼,AI也一样。2025年一项研究拿20道阅读题做比较,用2019名考生的真实作答结果当基准,发现部分AI工具在预测题目难度上,已经能做到和人类评分者差不多,甚至个别时候更接近真实数据;但问题是,四个AI模型和两位人工评分者都系统性地把题目估得更容易了。这件事很要命。因为老师如果拿AI估的“这题不难”当真,最后可能就是优秀生嫌浅,基础生做不动。()

金句二:阅读题最怕的,不是AI不会出,而是它把“像题”误当成了“好题”。

三、老师真正要把的,是“三道关”

所以,AI命题最稳的用法,不是“让它直接出整套题”,而是让它先出草稿,老师再过三道关。

第一道,内容关

先看材料本身值不值得考。文章有没有信息密度?有没有推断空间?有没有适合学生年龄的语境?如果原材料本身很平,AI只会把平的东西切成几块,不会凭空长出好题。关于这一点,ETS和UNESCO近年的相关指导都强调,AI进入教育和测评,前提不是“能生成”,而是要放在人本、有效、可解释的框架里使用。(;) ()

第二道,能力关

老师必须先写清楚:这题要测“找信息”,还是“做推断”,还是“评价观点”。别让AI先定题,再让老师倒推“这大概算哪一类”。顺序一反,命题就容易漂。ETS在2025年的报告里专门提到,AI用于测评时,要先明确预期解释和使用目的,再识别效度威胁,并用多种证据去校验输出。() ()

第三道,难度关

不要只凭AI口头说“适合初二”就放心。最好做两步:先让备课组老师独立判断一轮,再找一个小样本学生试做。因为最新研究已经显示,不只是AI,连人类专家也常常高估学生、低估题目难度。()

如果把这三道关说得再直白一点,就是:

先定测什么,再看问得像不像,最后看学生做出来到底难不难。

四、学校怎么落地,家长怎么配合?

先说学校。

2025年的一份学校AI应用报告显示,只有40%的学校或学区已有AI政策;Title I学校和农村学校的政策覆盖率还更低。很多地方不是不想管,而是工具已经进课堂,规则还没来得及跟上。()

这就提醒学校管理者一件事:

别一听AI命题,就只想到“提高效率”。先把规则写清楚。至少要回答四个问题:

哪些题型允许AI参与初稿;哪些场景必须人工终审;学生原始答题数据能不能进公共模型;出了争议,到底谁负责。

MIT Teaching Systems Lab 2025年的学校AI指南里提得很直白:学校需要清楚回答学术诚信、学生数据隐私、批准工具名单、以及“学生何时、如何使用AI”这些问题;同时,学校依法要保护学生可识别信息。()

所以,学校最实用的做法,不是发一份空泛倡议,而是做一张“AI命题使用单”:

“可以做什么”:改写材料、生成题目草稿、提供不同难度版本。

“不能做什么”:不经复核直接上卷、直接上传学生可识别数据、把AI结果当最终判定。

“必须做什么”:人工审题、试做校准、保留修改记录。

再说家长。

家长最容易把AI当“家庭题库机”,一按按钮,题就出来。这样当然方便,但也容易让孩子掉进“刷题像刷短视频”的坑。更好的做法,是把AI当“陪练器”:

让它根据文章出两道题可以;但做完以后,必须让孩子说出答案依据在哪一段,为什么另外三个不对。这样,AI是在拉孩子回到文本,不是在把孩子推向套路。

金句三:命题质量,不是看AI有多聪明,而是看老师有没有先把“测什么”想明白。

结尾

所以,回到这篇文章的题目:用AI做阅读理解题,命题质量怎么把关?

答案不是“别用”,也不是“全交给它”。

真正稳妥的做法是:让AI提速,让老师定标,让学生试真。

AI最适合做命题助理。它可以帮老师节省找角度、改表述、变难度的时间。

但阅读理解这件事,说到底测的不是机器会不会组句子,而是学生能不能读出信息、读出关系、读出判断。

而“到底测没测到”,这件事,今天仍然主要靠老师。

转发金句:AI可以一分钟出十道题,但命题的分寸感,仍然要靠老师一题一题守住。

你在教学里试过用AI出阅读题吗?你最担心的是哪一类问题:答案不唯一、干扰项太假,还是难度漂了?欢迎留言,我继续写第三篇。

高搜索量热词摘要

AI阅读理解题、AI命题、阅读理解出题、干扰项设计、命题质量、题目难度校准、语文测评、生成式人工智能、学校AI政策、人机协同教学、题库生成、教育评价

配图建议

风格:校园纪实 × 轻量科技HUD叠加

色调:暖白 × 深蓝 × 银灰高光

内容:真实中学语文教研场景,几位老师围着一张阅读材料和AI生成题目草稿讨论,桌上有审题记录表、能力点标注卡和学生试做样卷,屏幕只显示简洁英文词:Text / Skill / Option / Check。

配图文字:快出题,更要准

人工智能生成提示词

中文提示词:

一张真实校园纪实风格的横版照片,中学语文教研场景,几位教师围坐讨论一份阅读理解材料和AI生成的题目草稿,桌上有审题表、学生试做卷、红笔、能力点标签卡,前方屏幕只显示简洁英文词 Text / Skill / Option / Check,画面强调“AI辅助命题,教师把关校准”,轻量科技HUD叠加,整体色调暖白、深蓝、银灰高光,真实、克制、专业,不要赛博朋克,不要夸张特效。

English prompt:

A realistic documentary-style horizontal photo of a middle school Chinese language teacher workshop. Several teachers are reviewing an AI-generated reading comprehension draft together. On the table are review sheets, student pilot papers, red pens, and skill-tag cards. The screen shows only simple English words: Text / Skill / Option / Check. Emphasize “AI assists item writing, teachers ensure quality and calibration.” Light futuristic HUD overlay, warm white, deep blue, and silver-gray highlights. Realistic, restrained, professional, no cyberpunk, no exaggerated effects.