
今天,AI赋能循证教研培训圆满收官。
从趣味口令游戏破冰开场,用元宝、豆包、千问等常用AI工具玩转音视频/图像/语音智能分析,获取教学行为数据并可视化呈现,精准破解传统教研经验主导、评价主观、建议模糊三大难题,让教研从“凭感觉”走向“靠数据”!
培训中,设置一个分享环节,有一位老师分享了他的故事,这个故事是一个ai应用于教研的真实写照。
"同学们,叶圣陶爷爷写'白荷花在这些大圆盘之间冒出来',这个'冒'字,你们觉得好在哪里?"
教室里安静了三秒钟。
然后,一只手举起来了。"老师,就是长出来的意思。"
"对,就是钻出来。"另一个孩子补了一句。
我点点头,继续追问:"那为什么叶爷爷不用'长出来',偏偏用这个'冒'字呢?"
更多的沉默。
这是我教了十一年语文,最熟悉的沉默——你明明知道那个问题的答案就悬在孩子们嘴边,但他们就是够不着。你也不知道他们卡在了哪里。是词汇量不够?是语感没到位?还是根本没进入文本的意境?
过去,我只能靠经验去猜。
但这节课,我做了一个不一样的尝试——我让AI进了我的课堂。
一、故事的开头
2025年秋季学期,我在自己任教的三年级(2)班,以统编教材三年级下册《荷花》(叶圣陶)为课例,开展了一轮人机协同循证教研实践。
所谓循证教研,说白了就是——教学决策不能只凭感觉,得靠证据说话。
这次实践的核心问题是:在小学语文阅读教学中,教师如何借助AI工具精准诊断学生的阅读理解水平?又如何基于这些证据改进教学策略?
实施周期为三周,涵盖"初次授课→AI分析→策略调整→二次授课→对比反思"五个阶段。
参与主体是我本人和学校语文教研组的四位同事,同时邀请了一位区教研员作为外部观察员。
覆盖范围为三年级(2)班52名学生,其中男生23人、女生29人,语文学业水平呈正态分布,具备较好的案例代表性。
二、精彩之处
第一周:初次授课与数据采集
一切从一节看似平常的语文课开始。
我按照常规教案展开《荷花》第二课时教学,重点突破三个目标:品味语言之美、辨别比喻与联想、领会"我忽然觉得自己仿佛就是一朵荷花"的文学意境。
上课前,我在教室前方架设了一台手机,把一节课分两段进行录制,每段时间控制在30分钟之内。
视频经脱敏之后上传到微信的视频号中,可以分享。
这个系统能做什么?简单说,它把整节课所有师生对话实时转成文字稿,然后由AI自动完成两件事:一是按照S-T理论框架标注每一句话属于教师行为(T)还是学生行为(S),二是抓取所有学生的回答内容,按SOLO分类理论进行认知层次归类。
这里先插一句背景。S-T理论源于课堂互动分析系统,核心就是看一节课里老师和学生各说了多少、谁在主导。而SOLO分类理论由比格斯和科利斯提出,把学生的认知水平从低到高分成五个层次:前结构(答非所问)、单点结构(只抓一个点)、多点结构(罗列多个点但无关联)、关联结构(能整合信息形成理解)、抽象拓展结构(能迁移到新情境)。
我上完课,没急着做任何判断。我把视频交给了元宝和豆包。
第二周:AI分析带来的冲击
系统给了我一份分析报告。说实话,看完之后我在办公室坐了很久。
先说S-T互动曲线。
系统显示,这节40分钟的课,我说话的时间占了73%。在"品味'冒'字"这个环节,我连续讲了将近五分钟,期间只有一个学生插了一句话。
我回想了一下当时的场景——我确实在滔滔不绝地"引导",从"冒"的本义讲到引申义,从叶圣陶的用词习惯讲到同类文本的比较。我以为自己在启发,但数据告诉我:我在灌输。
73%的T行为占比,意味着孩子们大部分时间在听,而不是在想、在说。
再说SOLO层次分布,这个更让我坐不住。
AI抓取了我课堂上提出的11个问题,以及学生给出的46条有效回答。分析结果显示:
处于单点结构的回答占41%——比如"冒字说明荷花长得好"、"冒就是长出来";
多点结构占32%——比如"冒字说明荷花长得快、有力量、有生命力";
真正达到关联结构的回答只有8%——比如一个孩子说"冒字让我感觉荷花不是慢慢长的,是突然之间就开了,跟前面'挨挨挤挤'的荷叶形成对比";
前结构占11%(答非所问或重复课文原句);
抽象拓展结构为8%——仅有两个孩子能联系自己的生活经验来谈。
这个数据意味着什么?意味着我课堂上一大半的问题和讨论,其实停留在比较浅的层次上。
我在教案里写的"体会语言精妙",落实到课堂上,大部分孩子只是在做词语替换练习。
第三周:策略调整与二次授课
数据不能白看。教研组坐在一起,对照AI报告逐条讨论了改进方向。
我们做了三个关键调整。
第一,压缩教师讲解时间,增加学生互评环节。
既然S-T数据显示我讲得太多,那就硬性规定:精讲环节不超过3分钟,之后必须转入学生活动。同时在"品味'冒'字"环节插入了一个同伴互评设计——让同桌之间互相说说对方对"冒"字的理解好在哪里、哪里可以更好。
第二,针对SOLO层次分布,重新设计提问梯度。
原来的问题大多是"你觉得这个字好在哪里"这种开放式提问——能力强的孩子能答,但大部分孩子够不着。调整后,我设计了阶梯式问题链:
第一阶(单点→多点):"冒字让你想到了什么画面?用一两个词说说。"
第二阶(多点→关联):"作者前面写了'挨挨挤挤'的荷叶,现在又写了'冒出来'的荷花,这两个描写之间有什么关联?"
第三阶(关联→抽象拓展):"如果让你用'冒'这个字写一种植物,你会怎么写?为什么?"
第三,把AI分析结果变成教学资源。
我把第一次课的SOLO层次分布图直接投屏给学生看——不是批评谁,而是告诉他们:"这是你们上节课的思考层次分布,这节课我们一起把这座金字塔往上推一推。"
孩子们看到那张图的时候,眼睛亮了。
二次授课结束后,我让AI又跑了一遍分析。
对比数据
S-T互动曲线变了——T行为占比从73%降到了47%,S行为从27%升到了53%。
更让我惊喜的是SOLO层次的迁移:关联结构回答从8%升到了31%,抽象拓展结构从8%升到了17%。
一个平时不太说话的女孩,在讨论"我忽然觉得自己仿佛就是一朵荷花"时,举手说:"我觉得作者不是真的觉得自己变成了荷花,而是他看荷花看得太认真了,心里想的全是荷花,所以有一瞬间他忘了自己是人。"
教室里安静了两秒,然后响起了掌声。
AI把这条回答归为抽象拓展结构。我看着屏幕上那个分类标签,心想:是啊,这就是我要的"体会文学意境"。
三、产生的想法
证据类型与采集方式
本案例采集了三类证据:
第一类:课堂互动数据。 通过语音转文字系统完整记录两次授课的师生对话,共计约22000字转写文本。AI基于S-T理论框架对每句话进行行为类型标注,生成S-T互动曲线和T行为/S行为占比统计。
第二类:学生认知层次数据。 AI提取课堂中所有学生口头回答,依据SOLO分类理论的五级框架进行自动归类,生成全班SOLO层次分布图和个体层次追踪记录。
第三类:教师反思日志。 每次授课后我撰写教学反思,教研组讨论记录作为辅助定性证据。
分析工具与模型
核心分析工具为课堂智能分析平台,集成语音识别、自然语言处理和S-T/SOLO双模型标注功能。具体流程为:语音转文字→话轮切分→S-T行为标注→学生回答提取→SOLO层次归类→可视化输出。
这里需要特别说明:AI的SOLO层次归类并不是绝对准确的。我们采用的策略是"AI初判 + 教师复核"——AI给每条回答打上层次标签,我再逐一检查,对有争议的标注进行人工修正。两次授课中,AI初判与教师复核的一致率约为78%,说明模型还有提升空间,但作为参考依据已经足够有用了。
分析结果摘要

四、有哪些收获
教师发展层面
对我个人来说,这次实践最大的价值在于——我获得了一套可量化的自我诊断工具。
以前我评课,听到最多的反馈是"这节课感觉还不错"或者"师生互动可以再加强一些"。"感觉"这个词太模糊了,我不知道到底哪里不错、哪里需要加强。
现在我有数据了。73%的T行为占比摆在那里,不需要任何人告诉我"你讲得有点多",数字自己会说话。
教研组的同事也发生了变化。第二次研讨时,大家不再说"我觉得这个环节设计得怎么样",而是说"从SOLO分布来看,这个环节的关联结构比例偏低,是不是提问方式需要调整?"
话语体系在变——从经验讨论变成了证据对话。
教学质量层面
学生的阅读思维深度确实提升了。第二次课上,针对"冒"字的讨论从简单的近义词替换,深入到了词语与文本结构的关系、作者观察视角的分析。关于"比喻与联想的辨别",孩子们能用自己的语言清楚地讲出"荷花像大圆盘"(比喻)和"我仿佛就是荷花"(联想)的本质区别。
教研机制层面
这次实践在我们教研组催生了一个新的工作流程:授课→数据采集→AI分析→证据研讨→策略改进→再授课→对比验证。
我们给它起了个朴实的名字——"循证磨课七步法"。
五、把高高在上的理论融入到日常的教研中
第一,把SOLO理论从"论文里"搬到了"课堂里"。
SOLO分类理论在学术界讨论了很多年,但一线教师真正用起来的很少。为什么?因为手工对学生回答逐条归类太耗时间了。AI解决了这个"最后一公里"的问题——它让SOLO层次归类变成了课堂上几乎实时的、可视化的反馈。
第二,S-T分析与SOLO分析的"双轮驱动"。
很多课堂分析工具只做S-T,很多阅读理解研究只做SOLO。但把两者放在一起看,会产生新的洞察——S-T告诉你"谁在说",SOLO告诉你"说得怎么样"。就像我们这次发现的:T行为占比高不一定是问题,但如果T行为占比高同时SOLO层次低,那就说明教师的"讲"没有有效转化为学生的"思"。
第三,把分析结果还给学生。
这是我自己最得意的一个做法。AI分析通常只面向教师,但我们试着把SOLO分布图展示给学生,让他们看见自己的思考在哪里、可以向哪里前进。这种"元认知可视化"激发了学生自我提升的内在动力——他们不是被教师推着走,而是自己想去更高的层次。
六、存在哪些瑕疵,有哪些地方可以改进?
坦诚地说,这次实践也暴露了不少问题。
第一个问题:AI标注的准确率还不够稳定。
前面提到,AI的SOLO归类与教师复核的一致率约为78%,这意味着每五条标注就有一条需要人工纠正。在"比喻与联想辨别"这个难点上,AI的误判率尤其高——因为它很难理解学生回答中那些微妙的语义差异。
第二个问题:S-T分析的"去语境化"风险。
S-T行为标注只区分"教师说"和"学生说",但不区分"教师说什么"和"学生说什么"。一次精彩的追问和一次平淡的转述,在S-T曲线上没有区别。所以S-T数据必须配合具体教学情境来解读,不能机械地追求某个"最佳比例"。
第三个问题:样本量太小。
一个班、一节课、两次对比,这个样本量不足以得出普遍性结论。SOLO层次的改善是否可持续?换成其他课文效果如何?这些问题都需要更大范围的验证。
第四个问题:技术门槛。
使用元宝和豆包AI标注的流程,对普通一线教师来说仍然有一定难度,要把课堂录制的视频上传到上传到视频号或者抖音的平台上面,生成链接才能进行分享。工具不能做到"打开就能用",推广起来会很困难。
七、给一些老师的建议
基于三个月的实践,我有几点实实在在的建议。
给一线语文教师。
不用等完美的工具。哪怕只用手机录一节课,课后把录音转成文字,对照SOLO五个层次手动给你的学生回答分分类,你也会发现很多之前忽略的东西。技术的起点可以很低,但"用证据看课堂"的意识是第一步。
给学校教研组。
可以考虑把"循证磨课"作为常规教研活动的一种形式,每学期选一两节课做深度分析,而不是每节课都泛泛地听、泛泛地评。少即是多,深即是质量。
给工具开发者。
请把界面做得更简单一些。一线教师不需要看到算法原理和参数设置,他们只需要:一键录视频、一键分析、一键出报告。谁解决了"易用性",谁就真正走进了课堂。
回看这三周的经历,我想起第一次课上那个关于"冒"字的沉默。
第二次课上,一个男孩站起来说:"'冒'字让我感觉荷花是有自己想法的——荷叶挤在一起,荷花偏要从中间'冒'出来,它不想被挡住。"
我问全班:"你们同意他的说法吗?"
二十多双手举了起来。
那一刻我忽然明白了一件事——AI不能替你上课,但它能让你更清楚地看见,你的课上得到底怎么样。
而看见,是改变的开始。

夜雨聆风