用AI做教研靠谱吗(根据亲身体验总结)

一、从一句微信聊天说起

一位老师在微信留言问：她给豆包和Deepseek 输入了同一个关于词汇的指令，可是得到的词汇结果却不一样。指令如下：请把外研社高中英语教材（2019版）七册书的词汇表与高中英语新课程标准（2025版）的词汇表进行比照，列出每册书里的课标词汇。

我给老师的回复是：不管是豆包还是DS，它们都是从网络上找资料（或学习样本），你有没有注意，你每次给豆包或DS下达指令后，它都会显示找到了多少文档，也就是说，豆包或DS得出的结论是基于它从网络上搜集到的资料或学习样本（比如豆包显示的“搜索多少个关键词，参考多少篇资料”等）。而网络上的资料（或学习样本）五花八门，乱七八糟，既非官方的权威发布，也没有经过严格的校对。所以，所谓的“不一致”就太正常不过了。像这样的问题，豆包或DS得出的结论100%是错误的——总结一下，一句话：AI基于不正确的样本得出的结论一定是不正确的。

随着 AI 应用的日益普及与技术的不断成熟，越来越多教师开始借助AI来辅助做一些教研工作。今天我们就来聊一聊一个备受关注的相关话题：用 AI 做教研靠谱吗？下面结合我自己用AI做教研辅助工作的一些小小心得谈谈自己的看法。由于自己经验有限，使用的方法也不一定得当，下面说所的情况可能挂一漏万，请各位使用AI的高手在评论区分享您的经验和高见，先谢谢啦！

二、AI做这些辅助工作还算靠谱

根据我自己一段时间以来使用AI做辅助教研的小小经验，我觉得用AI做以下辅助工作还算靠谱。

1.打字录入

有时需要录入文字，若所录文本属于有确定官方版本的内容，此时如果我们不想一个一个字地打字录入，此时可以交给AI处理。比如高中英语课程标准所附的词汇表前面有几段话，如果我们在写文章时想引用其中的内容，但又不想打字，此时可以对AI说（语音即可）：“高中英语课程标准附录里的词汇表前面有几段话，请帮我把这几段话列出来。”然后它瞬间就会给出结果，此时我们只需与课标书上的内容对照一下，看看是否完全一致即可（通常情况下，不会有错）。

2.文本翻译

根据我的个人经验，普通文本的翻译，不管是英译汉还是汉译英，AI都做得很棒，在大多数情况下，译文在“信、达、雅”各方面都比普通的人工做得更快、更好。所以遇到对译文要求不是很高的工作，可以考虑先让AI翻译出来，然后人工检查一遍，做些必要的处理，基本上就可以用。但这里值得提一句的是，尽管AI翻译整体质量不错，但人工核查依然必不可少，因为偶尔它也会出现望文生义、生硬直译的情况。

3.文稿校对

首先要说明的是，AI校对不能代替人工校对。但在人工校对完后，我们可以用AI再做一次终校。在通常情况下，如果是正式要出版的书稿或为杂志社写的专稿，我们至少会安排三个校次，搞完三个校次后，会再用“黑马”软件扫一次。现在有了AI，我们可以用AI最后再检查一遍。实践证明，尽管稿子经过多次审校，而且还经过专业校对软件的检查，有时AI 仍可查出个别的“漏网之鱼”（但公众号文章因时间关系，通常只是在人工校对之后再用AI 查一遍）。

4.查漏补缺

对于某些知识点，有时自己归纳不一定全面，此时我们可以给AI一个指令，让它帮忙归纳，然后再根据AI给出的结果，对照自己的归纳，进行查漏补缺。不过值得一提的，AI做这类归纳时，有时会张冠李戴，比如有一次我要它帮我归纳一下“像talented 这样由名词+ed构成的形容词”，结果它把一些动词+ed构成的形容词也夹杂在里面，所以，稍不小心就有可能会被它带到沟里。

5.修改润色

有时自己写的一个句子或一个词语，自己感觉不是很满意，但一时又没有找到更合适的表达，此时我们可以请AI来帮忙，只要我们把要求描述得当，在多数情况下，AI可以为我们提供比较令人满意的答案。比如在本文第三段的开头处，我开始写的是“随着 AI 应用的日益普及”，但觉得这样写力度不够，就想在这里加一个并列的表达，变成“随着 AI 应用的日益普及与……”，但一时没想到在“与”字后用一个什么样的并列结构比较合适，于是我就问了一下豆包，在它提供的几个选项中，我选了“技术的不断成熟”。这里顺便补充一句，我用AI写作仅限于这样的字词句的修改和润色，我不会给AI一个提纲，它让完成全文的写作——我曾尝试这样做过，但AI写出来的东西，“机器痕迹”太过明显，一眼就可以看出是非人类语言，缺乏个性，缺少温度。

……

当然，AI 能为我们做的辅助工作还有很多，我这里列出的只是我平时用得比较多的几项，但值得特别注意的是，不管是用AI 做什么工作，都必须有人工介入和干预——虽然AI 做事效率很高，常常秒出结果，但它有时也会“少根筋”，一本正经地胡说八道，骗你没商量。屏幕前的您，您在使用AI 的过程积累了哪些经验，欢迎在评论区分享！

三、AI做这些工作完全不靠谱

根据我自己使用AI的亲身体验，凡是涉及学科知识深度分析或大量样本数据统计的个性化研究，AI 的可靠性会大打折扣，有时甚至会睁眼说瞎话，一本正经地胡说八道。

以我用得比较多的豆包为例：如果细心的话，你会发现，你每次给豆包指令时，它都会显示“正在搜索×”“找到×篇资料”“正在阅读相关资料”之类的提示语，很显然，豆包像是一个智能化的百度，与百度只给出搜索结果不一样，豆包不仅会帮你搜索相关资料，而且还会帮你根据搜索到的资料进行分析和综合，并给出结论。所以，这里就有一个问题，如果它在网络上搜索到的资料（或样本）不够全面，它分析得出的结论自然就不会全面；另外，也是更重要的，如果它在网络上搜索到的资料（或样本）有错误，它据此得出的结论自然也会有错误。

举例一：比如我们若想要用AI来判断考点或归纳考点，它大概率就会一本正经地胡说八道，因为AI本身是“不懂”哪些是考点的，它在判断或总结考点之前，会先从网络上搜索与你的问题相关的资料，然后再在这些资料的基础上进行分析和综合，并据此得出一个结论。但网络上的资料五花八门，乱七八糟，据此得出的结论有多大可信度，你是可以想象得到的。比如我问豆包“高考英语语法填空会考查同义词辨析吗”，它给出的结论如下：

这显然是在一本正经地胡说八道——根据我们在“历年真题大数据语料库”的检索和统计，从2007年的广东卷语法填空开始，到2026年的浙江卷首考，所有高考英语语法填空考题都从未涉及豆包所提及的这些所谓的同义词辨析（其实语法填空由于其题型本身特点的原因，也完全没法考查同义词辨析）。

为什么会出现这样的情况呢？原因就是网上有很多资料都错误地认为“语法填空会考查同义词辨析”（事实上许多正式出版的教辅书也是这样认为的）——这就是典型的样本错误导致结论错误！

举例二：再举个例子，AI 或许可以帮你做数据查询，尤其是一些有官方版本的数据，比如你问它长沙市有多少人口，它可以根据人口普查的官方数据秒出结果，但你若要它帮你做一些个性化的数据研究，它就无能为力了。比如我问豆包：“高考英语完形填空题的选项中最高频的单词是哪个？包括正确选项和干扰项。”它给出的结论如下：

这显然又是在一本正经地胡说八道。豆包的这个回答有两条信息要点：一是动词和介词数量最多，二是however的出场率最高。

●先看豆包说的“单看词汇维度，动词和介词是选项数量最多的”。说“动词”的选项数量多，这没问题；但是说“介词”的选项数量多，就纯属胡说八道了——对高考英语完形填空稍微有点研究的人都知道，完形填空主要考查考生对语境的理解，而在英语的十大词类中哪些词类最能体现文章的语境？显然是动词、名词、形容词以及副词这类实词，而绝不是像介词、连词、冠词等虚词（事实上，这类虚词在完形填空的选项中出现的概率是很低的，有的甚至从来不会出现，如冠词）——所以，豆包说“动词”的选项数量多没问题，而说“介词”的选项数量多就纯属胡扯了。

根据我们对最近10年（2016-2025）的85套完形填空真题（包括除上海卷外的所有全国卷和地方卷）所做的数据统计和研究：10年共85套试卷，涉及填空题1575道，涉及选项1575×4=6300个（每道题有4个选项）。从词性角度看，出现次数最多的是动词（包括以动词为中心词或核心词的短语动词以及固定搭配）共659题（涉及选项2636个），占比41.84%。而介词呢？如果撇开像in return（2022浙江卷1）等极少数以名词为核心词（或中心词）的含介词的固定搭配，纯粹的介词考题只有区区13道（涉及选项52个），占比仅0.83%。

以下是我们根据“历年真题大数据语料库”检索的结果（统计样本为2016-2025年除上海卷外所有的全国卷和地方卷），对照一下，你就知道豆包把“介词”与“动词”并列称为“数量最多”的完形填空选项词类有多不靠谱（下图由本公众号原创，引用请注明出处）：

●再说说however是否每年必考以及选项中的最高频词。豆包认为“高考英语完形填空中，however是无论正确选项还是干扰顶里出现频率最高、几乎每年必考的逻辑连接词”。豆包认为however在高考完形填空的选项中属于“每年必考”的单词。但事实果真如此吗？根据我们在“历年真题大数据语料库”的检索和统计，在2016-2025的10年间，它在最近两年（2024和2025）的完形填空选项中就没有出现，另外在2018年也没有出现。如果撇开地方卷仅以全国卷作为统计样本，however仅在2017、2019、2020这三年的全国卷完形填空选项中出现过，其余七年的全国卷（2016、2018、2021、2022、2023、2024、2025）均未出现。however在近10年完形填空选项（包括正确选项和干扰项）中出现的具体年份和卷别如下（共11次）：

至于完形填空选项中哪些词是所谓的高频词，不仅豆包的说法是错误的，而且市面上99.99%资料说的都是错的！屏幕前的您知道完形填空的选项中哪些词是真正的高频词吗？我们接下来要出版的《英语阅读理解和完形填空150篇》会有详细归纳，由于图书还没正式出版，基于版权保护，这里仅举“最高频”一例（有兴趣的朋友可以去验证）：

●change：如果仅考虑单个的单词选项（撇开短语或固定搭配），change 是近10年高考英语完形填空题选项中出现频率最高的（25次，词性后面带加号的表示是短语）。统计如下：

●give：如果把短语动词也算在内，动词give是近10年高考英语完形填空题选项中出现频率最高的（26次，词性后面带加号的表示是短语）。统计如下：

为什么豆包的统计会出现这么大的偏差，原因就是我们前面说过的：样本不全或样本有错。由于豆包是根据它从网上搜索到的资料进行归纳和总结的，而网上类似的数据统计99.99%都是不全的或错误的（甚至有些据可能是人们拍脑袋拍出来的），所以AI据此得出的结论不可能是正确的。

三、如何避免AI信口开河

前面说过，尽管AI 在很多方面可以作为我们教研工作的辅助工具，但由于受所检索资料的限制，有时候它也会一本正经地胡说八道。

经常用 AI 做辅助工作的朋友可能会发现，同样一个问题，用不同 AI 工具（比如豆包、DS、Kimi、ChatGPT、元宝、科大讯飞、文心一言等）得到的答案往往不一样，有时甚至差别很大。就算是同一款 AI（比如我经常用的豆包），在不同时间提问，它给出的结论也可能有出入。这当中的原因有很多，抛开不同模型本身的“能力”差异不谈，最核心的一点就是：不同的AI以及同一AI在不同的时间点，它在网络上检索到的资料样本各不相同，比如你用同一个问题分别问豆包和DS，它们抓取和参考的资料不可能完全一样，最终给出的结果自然也就不一样。

普通对话型AI与AI智能体：随着AI技术的不断突破和持续迭代，人工智能正从传统的普通对话AI，全面迈向AI智能体时代。我们日常使用的普通对话AI，本质上还是指令响应型工具：遵循“根据所检索到的资料完成指令”的被动模式，缺乏自主思考与主观能动性。比如你让它“写一篇高考英语作文”，它通常只是帮你直接生成一篇就结束任务，不会主动确认主题、文体、字数要求，也不会对照评分细则进行优化（即使你在指令中给出明确说明，它也不一定“听你的话”，原因还是出在它参考的资料上）。

AI 智能体的优势：与普通的对话型AI不同，AI 智能体不再是简单执行指令的工具，而是能理解目标、自主规划、闭环执行的智能助手。面对一项任务，它会先拆解核心目标，分步规划执行逻辑，自主调用搜索、查资料、写文档、做表格、整理数据等工具；执行中遇到问题会自行调整方案、优化路径，主动查漏补缺，直到完整完成任务。更重要的是，AI智能体具备自主规划、长效记忆、自我反思迭代的能力，能够不断沉淀经验、适配场景，让我们越用越精准——最最重要的是（我个人认为这是最最重要的），我们可以限制AI 智能体只在我们自己的“资料库”里检索、学习、提炼、归纳、验证等，完全不受外部杂乱信息的干扰（即我们可以规定它不能到网上去检索那些乱七八糟的资料），这就可以从根源上杜绝它信口开河或胡说八道，真正做到可靠、可控、可追溯。

我们的AI智能体：从今年春节开始，我们就在着手打造我们自己的大数据备考智能体，针对高考备考场景做深度定制。从目前内部试用效果来看，它的精准度和实用性远胜普通 AI。我们现在要做的工作就是，持续深入研究历年真题的考点共性、命题规律、设问逻辑等，并将这些研究成果不断“喂给”我们的智能体，让它不断吸收、内化、迭代，越来越懂高考、越来越贴近教学，最终成为稳定、可靠、高度专业化的高考备考助手，为老师教研减负、为学生备考提效，实现真正意义上的大数据精准备考。

敬请期待：你一定很想知道咱们这个“大数据备考智能体”什么时候会正式上线，初步预计的时间为今年高考过后，请大家随时关注本公众号发布的相关消息！