教研故事丨用AI分析一堂课,有些事从没想过的

今天，AI赋能循证教研培训圆满收官。

从趣味口令游戏破冰开场，用元宝、豆包、千问等常用AI工具玩转音视频/图像/语音智能分析，获取教学行为数据并可视化呈现，精准破解传统教研经验主导、评价主观、建议模糊三大难题，让教研从“凭感觉”走向“靠数据”！

培训中，设置一个分享环节，有一位老师分享了他的故事，这个故事是一个ai应用于教研的真实写照。

"同学们，叶圣陶爷爷写'白荷花在这些大圆盘之间冒出来'，这个'冒'字，你们觉得好在哪里？"

教室里安静了三秒钟。

然后，一只手举起来了。"老师，就是长出来的意思。"

"对，就是钻出来。"另一个孩子补了一句。

我点点头，继续追问："那为什么叶爷爷不用'长出来'，偏偏用这个'冒'字呢？"

更多的沉默。

这是我教了十一年语文，最熟悉的沉默——你明明知道那个问题的答案就悬在孩子们嘴边，但他们就是够不着。你也不知道他们卡在了哪里。是词汇量不够？是语感没到位？还是根本没进入文本的意境？

过去，我只能靠经验去猜。

但这节课，我做了一个不一样的尝试——我让AI进了我的课堂。

一、故事的开头

2025年秋季学期，我在自己任教的三年级（2）班，以统编教材三年级下册《荷花》（叶圣陶）为课例，开展了一轮人机协同循证教研实践。

所谓循证教研，说白了就是——教学决策不能只凭感觉，得靠证据说话。

这次实践的核心问题是：在小学语文阅读教学中，教师如何借助AI工具精准诊断学生的阅读理解水平？又如何基于这些证据改进教学策略？

实施周期为三周，涵盖"初次授课→AI分析→策略调整→二次授课→对比反思"五个阶段。

参与主体是我本人和学校语文教研组的四位同事，同时邀请了一位区教研员作为外部观察员。

覆盖范围为三年级（2）班52名学生，其中男生23人、女生29人，语文学业水平呈正态分布，具备较好的案例代表性。

二、精彩之处

第一周：初次授课与数据采集

一切从一节看似平常的语文课开始。

我按照常规教案展开《荷花》第二课时教学，重点突破三个目标：品味语言之美、辨别比喻与联想、领会"我忽然觉得自己仿佛就是一朵荷花"的文学意境。

上课前，我在教室前方架设了一台手机，把一节课分两段进行录制，每段时间控制在30分钟之内。

视频经脱敏之后上传到微信的视频号中，可以分享。

这个系统能做什么？简单说，它把整节课所有师生对话实时转成文字稿，然后由AI自动完成两件事：一是按照S-T理论框架标注每一句话属于教师行为（T）还是学生行为（S），二是抓取所有学生的回答内容，按SOLO分类理论进行认知层次归类。

这里先插一句背景。S-T理论源于课堂互动分析系统，核心就是看一节课里老师和学生各说了多少、谁在主导。而SOLO分类理论由比格斯和科利斯提出，把学生的认知水平从低到高分成五个层次：前结构（答非所问）、单点结构（只抓一个点）、多点结构（罗列多个点但无关联）、关联结构（能整合信息形成理解）、抽象拓展结构（能迁移到新情境）。

我上完课，没急着做任何判断。我把视频交给了元宝和豆包。

第二周：AI分析带来的冲击

系统给了我一份分析报告。说实话，看完之后我在办公室坐了很久。

先说S-T互动曲线。

系统显示，这节40分钟的课，我说话的时间占了73%。在"品味'冒'字"这个环节，我连续讲了将近五分钟，期间只有一个学生插了一句话。

我回想了一下当时的场景——我确实在滔滔不绝地"引导"，从"冒"的本义讲到引申义，从叶圣陶的用词习惯讲到同类文本的比较。我以为自己在启发，但数据告诉我：我在灌输。

73%的T行为占比，意味着孩子们大部分时间在听，而不是在想、在说。

再说SOLO层次分布，这个更让我坐不住。

AI抓取了我课堂上提出的11个问题，以及学生给出的46条有效回答。分析结果显示：

处于单点结构的回答占41%——比如"冒字说明荷花长得好"、"冒就是长出来"；

多点结构占32%——比如"冒字说明荷花长得快、有力量、有生命力"；

真正达到关联结构的回答只有8%——比如一个孩子说"冒字让我感觉荷花不是慢慢长的，是突然之间就开了，跟前面'挨挨挤挤'的荷叶形成对比"；

前结构占11%（答非所问或重复课文原句）；

抽象拓展结构为8%——仅有两个孩子能联系自己的生活经验来谈。

这个数据意味着什么？意味着我课堂上一大半的问题和讨论，其实停留在比较浅的层次上。

我在教案里写的"体会语言精妙"，落实到课堂上，大部分孩子只是在做词语替换练习。

第三周：策略调整与二次授课

数据不能白看。教研组坐在一起，对照AI报告逐条讨论了改进方向。

我们做了三个关键调整。

第一，压缩教师讲解时间，增加学生互评环节。

既然S-T数据显示我讲得太多，那就硬性规定：精讲环节不超过3分钟，之后必须转入学生活动。同时在"品味'冒'字"环节插入了一个同伴互评设计——让同桌之间互相说说对方对"冒"字的理解好在哪里、哪里可以更好。

第二，针对SOLO层次分布，重新设计提问梯度。

原来的问题大多是"你觉得这个字好在哪里"这种开放式提问——能力强的孩子能答，但大部分孩子够不着。调整后，我设计了阶梯式问题链：

第一阶（单点→多点）："冒字让你想到了什么画面？用一两个词说说。"

第二阶（多点→关联）："作者前面写了'挨挨挤挤'的荷叶，现在又写了'冒出来'的荷花，这两个描写之间有什么关联？"

第三阶（关联→抽象拓展）："如果让你用'冒'这个字写一种植物，你会怎么写？为什么？"

第三，把AI分析结果变成教学资源。

我把第一次课的SOLO层次分布图直接投屏给学生看——不是批评谁，而是告诉他们："这是你们上节课的思考层次分布，这节课我们一起把这座金字塔往上推一推。"

孩子们看到那张图的时候，眼睛亮了。

二次授课结束后，我让AI又跑了一遍分析。

对比数据

S-T互动曲线变了——T行为占比从73%降到了47%，S行为从27%升到了53%。

更让我惊喜的是SOLO层次的迁移：关联结构回答从8%升到了31%，抽象拓展结构从8%升到了17%。

一个平时不太说话的女孩，在讨论"我忽然觉得自己仿佛就是一朵荷花"时，举手说："我觉得作者不是真的觉得自己变成了荷花，而是他看荷花看得太认真了，心里想的全是荷花，所以有一瞬间他忘了自己是人。"

教室里安静了两秒，然后响起了掌声。

AI把这条回答归为抽象拓展结构。我看着屏幕上那个分类标签，心想：是啊，这就是我要的"体会文学意境"。

三、产生的想法

证据类型与采集方式

本案例采集了三类证据：

第一类：课堂互动数据。通过语音转文字系统完整记录两次授课的师生对话，共计约22000字转写文本。AI基于S-T理论框架对每句话进行行为类型标注，生成S-T互动曲线和T行为/S行为占比统计。

第二类：学生认知层次数据。 AI提取课堂中所有学生口头回答，依据SOLO分类理论的五级框架进行自动归类，生成全班SOLO层次分布图和个体层次追踪记录。

第三类：教师反思日志。每次授课后我撰写教学反思，教研组讨论记录作为辅助定性证据。

分析工具与模型

核心分析工具为课堂智能分析平台，集成语音识别、自然语言处理和S-T/SOLO双模型标注功能。具体流程为：语音转文字→话轮切分→S-T行为标注→学生回答提取→SOLO层次归类→可视化输出。

这里需要特别说明：AI的SOLO层次归类并不是绝对准确的。我们采用的策略是"AI初判 + 教师复核"——AI给每条回答打上层次标签，我再逐一检查，对有争议的标注进行人工修正。两次授课中，AI初判与教师复核的一致率约为78%，说明模型还有提升空间，但作为参考依据已经足够有用了。

分析结果摘要

四、有哪些收获

教师发展层面

对我个人来说，这次实践最大的价值在于——我获得了一套可量化的自我诊断工具。

以前我评课，听到最多的反馈是"这节课感觉还不错"或者"师生互动可以再加强一些"。"感觉"这个词太模糊了，我不知道到底哪里不错、哪里需要加强。

现在我有数据了。73%的T行为占比摆在那里，不需要任何人告诉我"你讲得有点多"，数字自己会说话。

教研组的同事也发生了变化。第二次研讨时，大家不再说"我觉得这个环节设计得怎么样"，而是说"从SOLO分布来看，这个环节的关联结构比例偏低，是不是提问方式需要调整？"

话语体系在变——从经验讨论变成了证据对话。

教学质量层面

学生的阅读思维深度确实提升了。第二次课上，针对"冒"字的讨论从简单的近义词替换，深入到了词语与文本结构的关系、作者观察视角的分析。关于"比喻与联想的辨别"，孩子们能用自己的语言清楚地讲出"荷花像大圆盘"（比喻）和"我仿佛就是荷花"（联想）的本质区别。

教研机制层面

这次实践在我们教研组催生了一个新的工作流程：授课→数据采集→AI分析→证据研讨→策略改进→再授课→对比验证。

我们给它起了个朴实的名字——"循证磨课七步法"。

五、把高高在上的理论融入到日常的教研中

第一，把SOLO理论从"论文里"搬到了"课堂里"。

SOLO分类理论在学术界讨论了很多年，但一线教师真正用起来的很少。为什么？因为手工对学生回答逐条归类太耗时间了。AI解决了这个"最后一公里"的问题——它让SOLO层次归类变成了课堂上几乎实时的、可视化的反馈。

第二，S-T分析与SOLO分析的"双轮驱动"。

很多课堂分析工具只做S-T，很多阅读理解研究只做SOLO。但把两者放在一起看，会产生新的洞察——S-T告诉你"谁在说"，SOLO告诉你"说得怎么样"。就像我们这次发现的：T行为占比高不一定是问题，但如果T行为占比高同时SOLO层次低，那就说明教师的"讲"没有有效转化为学生的"思"。

第三，把分析结果还给学生。

这是我自己最得意的一个做法。AI分析通常只面向教师，但我们试着把SOLO分布图展示给学生，让他们看见自己的思考在哪里、可以向哪里前进。这种"元认知可视化"激发了学生自我提升的内在动力——他们不是被教师推着走，而是自己想去更高的层次。

六、存在哪些瑕疵，有哪些地方可以改进？

坦诚地说，这次实践也暴露了不少问题。

第一个问题：AI标注的准确率还不够稳定。

前面提到，AI的SOLO归类与教师复核的一致率约为78%，这意味着每五条标注就有一条需要人工纠正。在"比喻与联想辨别"这个难点上，AI的误判率尤其高——因为它很难理解学生回答中那些微妙的语义差异。

第二个问题：S-T分析的"去语境化"风险。

S-T行为标注只区分"教师说"和"学生说"，但不区分"教师说什么"和"学生说什么"。一次精彩的追问和一次平淡的转述，在S-T曲线上没有区别。所以S-T数据必须配合具体教学情境来解读，不能机械地追求某个"最佳比例"。

第三个问题：样本量太小。

一个班、一节课、两次对比，这个样本量不足以得出普遍性结论。SOLO层次的改善是否可持续？换成其他课文效果如何？这些问题都需要更大范围的验证。

第四个问题：技术门槛。

使用元宝和豆包AI标注的流程，对普通一线教师来说仍然有一定难度，要把课堂录制的视频上传到上传到视频号或者抖音的平台上面，生成链接才能进行分享。工具不能做到"打开就能用"，推广起来会很困难。

七、给一些老师的建议

基于三个月的实践，我有几点实实在在的建议。

给一线语文教师。

不用等完美的工具。哪怕只用手机录一节课，课后把录音转成文字，对照SOLO五个层次手动给你的学生回答分分类，你也会发现很多之前忽略的东西。技术的起点可以很低，但"用证据看课堂"的意识是第一步。

给学校教研组。

可以考虑把"循证磨课"作为常规教研活动的一种形式，每学期选一两节课做深度分析，而不是每节课都泛泛地听、泛泛地评。少即是多，深即是质量。

给工具开发者。

请把界面做得更简单一些。一线教师不需要看到算法原理和参数设置，他们只需要：一键录视频、一键分析、一键出报告。谁解决了"易用性"，谁就真正走进了课堂。

回看这三周的经历，我想起第一次课上那个关于"冒"字的沉默。

第二次课上，一个男孩站起来说："'冒'字让我感觉荷花是有自己想法的——荷叶挤在一起，荷花偏要从中间'冒'出来，它不想被挡住。"

我问全班："你们同意他的说法吗？"

二十多双手举了起来。

那一刻我忽然明白了一件事——AI不能替你上课，但它能让你更清楚地看见，你的课上得到底怎么样。

而看见，是改变的开始。