AI一键出阅读题,省时是真省时;可一不留神,测错能力也是真的

本文核心判断有四点：

AI能出题，而且出得不算差。

近两年的研究表明，AI已经能生成相当比例“可用”的阅读理解题。

“可用”不等于“可直接上卷”。

题目表面通顺，不代表测到的是你想测的能力；干扰项像样，不代表答案真的唯一。

老师真正要把的，不是一道“语句关”，而是三道“命题关”。

一是内容关，二是能力关，三是难度关。

AI最适合做命题助理，不适合做命题主任。

它可以提速，但不能替代蓝图、校准和责任。

正文

很多老师已经试过这个场景了。

找一篇文章，丢给AI，说一句：“请出5道阅读理解题，附答案和解析。”

十几秒，题出来了。题干挺像样，选项也整齐，解析还一本正经。那一刻，人很容易有一种感觉：这下命题终于轻松了。

但真正的问题，不在“能不能出”，而在“出得准不准”。

因为阅读理解命题，从来不是把一段材料切成几块，再贴上A、B、C、D那么简单。它至少要回答三个问题：你到底想测什么能力？这道题有没有只指向一个答案？它对学生来说，到底偏难、偏易，还是刚刚好？

近两年的英文研究给了我们一个很清楚的提醒：AI在“生成题目”这一步，进步很快；但在“稳定命中目标能力”“控制难度”“保证干扰项质量”这几步，还远没到可以放手的地步。（；；）

说白了，AI现在最像什么？

最像一个出题很快的年轻助理。手快，话多，效率高。但最后能不能进教室、进练习、进考试，还得老教师拍板。

金句一：AI出题的最大风险，不是出不出来，而是看起来都对，实际没测准。

一、AI能出题，但“能出”只是第一步

先说好消息。AI出阅读题，已经不是玩具级水平了。

2025年一项关于阅读理解推断题生成的研究，用GPT-4o为3—12年级语境生成题目。结果显示，93.8%的题目在整体质量上被评为“可用于实际场景”；但与此同时，只有42.6%的题目真正准确匹配了研究者想要的“目标推断类型”。这个结果特别有意思：题目表面可能不差，但测的能力点，未必就是你原来设定的那个。（）

另一项2025年的研究，按PIRLS常见的四类阅读过程来生成题目，也发现GPT-4o能产出**74%到90%**不等的“可用且类别明确”的题目。也就是说，AI确实已经能按“提取信息、推断、整合、评价”这些方向，做出不少能看的题。（）

但这两项研究合起来，其实讲的是同一句话：

AI能把题目“做出来”，不等于它已经把命题“做对了”。

这是很多一线老师最容易被“效率”带偏的地方。你看到的是五道题十秒钟出来；你没看到的是，能力点有没有跑偏，设问有没有过浅，选项有没有两个都像对的。

二、命题质量，最容易翻车在三件事上

第一件，测点跑偏。

阅读理解不是只有“看懂了没有”。它还分提取、推断、整合、评价这些层次。如果一篇本该考“推断”的题，被AI写成了“原文定位就能抄出来”的题，那题面再漂亮，也只是测浅了，不是测准了。（；）

第二件，干扰项失真。

多项选择题最难写的，从来不是正确答案，而是错误选项。好的干扰项，要“像对的，但确实不对”。2025年一篇关于干扰项评估的综述直说了：现在自动生成干扰项的研究很多，但到底该用什么标准评估这些干扰项，学界并没有统一答案；而且文献中常用的一些自动指标，和真实考试中的表现并不总是一致。换句话说，AI很会“凑四个选项”，但未必真的懂“什么叫有区分度的错误”。（）

第三件，难度判断失真。

老师有时也会看走眼，AI也一样。2025年一项研究拿20道阅读题做比较，用2019名考生的真实作答结果当基准，发现部分AI工具在预测题目难度上，已经能做到和人类评分者差不多，甚至个别时候更接近真实数据；但问题是，四个AI模型和两位人工评分者都系统性地把题目估得更容易了。这件事很要命。因为老师如果拿AI估的“这题不难”当真，最后可能就是优秀生嫌浅，基础生做不动。（）

金句二：阅读题最怕的，不是AI不会出，而是它把“像题”误当成了“好题”。

三、老师真正要把的，是“三道关”

所以，AI命题最稳的用法，不是“让它直接出整套题”，而是让它先出草稿，老师再过三道关。

第一道，内容关。

先看材料本身值不值得考。文章有没有信息密度？有没有推断空间？有没有适合学生年龄的语境？如果原材料本身很平，AI只会把平的东西切成几块，不会凭空长出好题。关于这一点，ETS和UNESCO近年的相关指导都强调，AI进入教育和测评，前提不是“能生成”，而是要放在人本、有效、可解释的框架里使用。（；） ()

第二道，能力关。

老师必须先写清楚：这题要测“找信息”，还是“做推断”，还是“评价观点”。别让AI先定题，再让老师倒推“这大概算哪一类”。顺序一反，命题就容易漂。ETS在2025年的报告里专门提到，AI用于测评时，要先明确预期解释和使用目的，再识别效度威胁，并用多种证据去校验输出。（） ()

第三道，难度关。

不要只凭AI口头说“适合初二”就放心。最好做两步：先让备课组老师独立判断一轮，再找一个小样本学生试做。因为最新研究已经显示，不只是AI，连人类专家也常常高估学生、低估题目难度。（）

如果把这三道关说得再直白一点，就是：

先定测什么，再看问得像不像，最后看学生做出来到底难不难。

四、学校怎么落地，家长怎么配合？

先说学校。

2025年的一份学校AI应用报告显示，只有40%的学校或学区已有AI政策；Title I学校和农村学校的政策覆盖率还更低。很多地方不是不想管，而是工具已经进课堂，规则还没来得及跟上。（）

这就提醒学校管理者一件事：

别一听AI命题，就只想到“提高效率”。先把规则写清楚。至少要回答四个问题：

哪些题型允许AI参与初稿；哪些场景必须人工终审；学生原始答题数据能不能进公共模型；出了争议，到底谁负责。

MIT Teaching Systems Lab 2025年的学校AI指南里提得很直白：学校需要清楚回答学术诚信、学生数据隐私、批准工具名单、以及“学生何时、如何使用AI”这些问题；同时，学校依法要保护学生可识别信息。（）

所以，学校最实用的做法，不是发一份空泛倡议，而是做一张“AI命题使用单”：

“可以做什么”：改写材料、生成题目草稿、提供不同难度版本。

“不能做什么”：不经复核直接上卷、直接上传学生可识别数据、把AI结果当最终判定。

“必须做什么”：人工审题、试做校准、保留修改记录。

再说家长。

家长最容易把AI当“家庭题库机”，一按按钮，题就出来。这样当然方便，但也容易让孩子掉进“刷题像刷短视频”的坑。更好的做法，是把AI当“陪练器”：

让它根据文章出两道题可以；但做完以后，必须让孩子说出答案依据在哪一段，为什么另外三个不对。这样，AI是在拉孩子回到文本，不是在把孩子推向套路。

金句三：命题质量，不是看AI有多聪明，而是看老师有没有先把“测什么”想明白。

结尾

所以，回到这篇文章的题目：用AI做阅读理解题，命题质量怎么把关？

答案不是“别用”，也不是“全交给它”。

真正稳妥的做法是：让AI提速，让老师定标，让学生试真。

AI最适合做命题助理。它可以帮老师节省找角度、改表述、变难度的时间。

但阅读理解这件事，说到底测的不是机器会不会组句子，而是学生能不能读出信息、读出关系、读出判断。

而“到底测没测到”，这件事，今天仍然主要靠老师。

转发金句：AI可以一分钟出十道题，但命题的分寸感，仍然要靠老师一题一题守住。

你在教学里试过用AI出阅读题吗？你最担心的是哪一类问题：答案不唯一、干扰项太假，还是难度漂了？欢迎留言，我继续写第三篇。

高搜索量热词摘要

AI阅读理解题、AI命题、阅读理解出题、干扰项设计、命题质量、题目难度校准、语文测评、生成式人工智能、学校AI政策、人机协同教学、题库生成、教育评价

配图建议

风格：校园纪实 × 轻量科技HUD叠加

色调：暖白 × 深蓝 × 银灰高光

内容：真实中学语文教研场景，几位老师围着一张阅读材料和AI生成题目草稿讨论，桌上有审题记录表、能力点标注卡和学生试做样卷，屏幕只显示简洁英文词：Text / Skill / Option / Check。

配图文字：快出题，更要准

人工智能生成提示词

中文提示词：

一张真实校园纪实风格的横版照片，中学语文教研场景，几位教师围坐讨论一份阅读理解材料和AI生成的题目草稿，桌上有审题表、学生试做卷、红笔、能力点标签卡，前方屏幕只显示简洁英文词 Text / Skill / Option / Check，画面强调“AI辅助命题，教师把关校准”，轻量科技HUD叠加，整体色调暖白、深蓝、银灰高光，真实、克制、专业，不要赛博朋克，不要夸张特效。

English prompt:

A realistic documentary-style horizontal photo of a middle school Chinese language teacher workshop. Several teachers are reviewing an AI-generated reading comprehension draft together. On the table are review sheets, student pilot papers, red pens, and skill-tag cards. The screen shows only simple English words: Text / Skill / Option / Check. Emphasize “AI assists item writing, teachers ensure quality and calibration.” Light futuristic HUD overlay, warm white, deep blue, and silver-gray highlights. Realistic, restrained, professional, no cyberpunk, no exaggerated effects.