刻舟求剑:教育 AI 技术研究者的窘境
小学课本里那个刻舟求剑的故事大家无人不知,几千年来这个故事被我们当成笑话讲,笑那个楚人不懂”船在动,剑没动”。
但今天我们这些试图研究明白”AI+教育到底好不好”的人,处境其实比那个楚人还狼狈——他至少还知道剑掉在哪片水域,而我们面对的不止是船在动、我们要面对的是一直在变化的所有。
你好,我是吉米,这是我论文解读系列的第28篇文章。今天解读的这篇论文叫《变革中的研究:数字教育背景下变革导向研究的实用主义视角》,2026年3月18日发表于教育媒体技术领域的核心期刊《Learning, Media and Technology》,来自苏黎世师范大学研究团队。
同一条船
我们大多数人对”教育研究”的朴素期待是这样的——置身研究对象之外,然后写一份报告告诉我们:”数据显示这艘船开得不错,建议你们也上去。”
但在数字化转型的背景下,研究者其实和我们一样,都在船上。
那个楚人之所以可笑,是因为他没看见”船在动”这一个变量。但论文指出,今天做AI教育研究的人,要同时面对多个变量。
第一,剑在沉,并且变形。 你今年研究的是基于规则的AI辅导系统,明年它就变成了生成式AI。你刚搞清楚一款学习APP的算法逻辑,下个版本它就大改了。研究对象本身在你研究的过程中变成了另一样东西。
第二,舟在漂。 研究的方法论自己也在被数字化重塑。过去研究讲究”先有理论假设,再去验证”,现在变成了”先看大数据里跑出什么模式,再回过头来解释”。论文里有个词叫”从模型驱动转向数据驱动”——通俗讲,就是研究的”思考顺序”被颠倒了。
第三,河水在改道。 研究的”权力结构”在变。过去掌握教育研究话语权的是大学和公共机构,现在呢?真正握着海量学生学习数据的,是那些教育科技平台。研究者想看数据,得问平台要权限。平台不给,研究者就只能摸黑。
第四,连刻刀都在生锈。 连研究者用来“打标记”的工具——那些过去几十年建立起来的研究框架(什么循证实践、设计型研究、研究-实践伙伴关系)——也都是上个时代造出来的刀,去刻今天这艘飞速变形的船,越刻越钝。
讽刺的是,我们越是想让研究告诉我们”AI教育到底好不好”,就越是要依赖那些卖AI教育产品的公司提供的数据来做研究。
这就好比让药厂自己提供试验数据,让我们来评判药有没有效。不是说他们一定会作假,而是从一开始,连”什么算有效”这件事,都已经被对方悄悄定义好了。
楚人至少还有一片相对静止的船舷可以下刀。今天的研究者,连船舷都在被江水冲刷变形。
全新的研究思路
面对这样的处境,作者没有给出一套新的”标准操作手册”。恰恰相反,他们说——任何想要给出统一手册的尝试,本身就误解了问题。
他们提出的是一种新的认识论,叫做”实用主义认识论”,源自一百年前哲学家约翰·杜威的思想。这个哲学的核心很简单,研究方法从来不是从天上掉下来的真理,而是人在具体困境里,一边解决问题一边发明出来的工具。
这就类似于厨房里的菜刀。菜刀不是被”科学发现”的,是几千年来厨师们一边切菜一边改良出来的。今天能切肉的菜刀,未必能切冷冻金枪鱼。换了食材,刀也得重新打。研究方法也一样——研究对象变了,方法不可能不变。
这个视角带来一个重要的解放,研究者不必假装自己站在岸上。承认自己也在船上、刻刀也在变。
七个反思点
作者提出了七个值得反思的”点”,每一个都对应着研究者(也对应着我们这些被研究服务的教育者)需要重新审视的盲区。
第一处,研究方法本身的数字化。 当研究越来越依赖那些黑箱算法处理出的数据,研究者其实已经失去了对研究过程的完整控制。这就像一个厨师做菜的时候,调料是从一个不让你看配方的瓶子里倒出来的。菜端上桌,你说不清楚到底是哪一味让它好吃。
第二处,教育质量与公平的隐含假设。 每一个学习平台、每一个AI工具,背后都嵌入了它对”什么是好教育”的理解。营销页面上写着”激发创造力””个性化成长”,但你真的去看它的算法,它评估学生的指标可能就是答题正确率、停留时长、点击次数。
第三处,”泛化”——也就是研究结论能不能推广。 这个点最有意思的地方在于,作者指出,不同的人需要的根本是不同种类的”知识”。
校长想知道的是:这个工具用了,我们学校的成绩能不能涨10分?(实验型泛化,看效应量)
教育局想知道的是:在我们这个区,普遍适合用吗?(调查型泛化,看平均水平)
老师想知道的是:在我这个班、这个孩子身上,它是怎么起作用的、为什么有用?(案例型泛化,看机制)
这就好比同样是问”火锅好吃吗”——投资人想知道全国火锅店的翻台率,加盟商想知道这个品牌在三线城市的复制成功率,而你妈妈想知道的是这家店的麻酱蘸料她吃不吃得惯。三个问题表面是一个,本质是三种完全不同的知识需求。
而当下大量研究默认采用的”实验型泛化”——动不动就说”研究显示AI辅导提升成绩X%”——其实只回答了校长那一类问题,对老师真正想知道的”为什么”几乎无能为力。
第四处,不确定性和副作用。 我们对”研究”有一个根深蒂固的期待,就是它能告诉我们”什么有效”。但论文引用Yong Zhao教授的一句话切中要害——”什么有效”可能”什么伤人”。
一个自适应学习平台,确实能让学生答题正确率提升。但它同时可能在重塑课堂动态、重新定义什么算”合法的知识”、让那些不擅长在屏幕上点击答题的孩子被系统判定为”落后”。这些副作用,传统的对照实验设计根本不去测量。
第五处,行动者配置。 教育研究的”参与方”已经今非昔比。除了老师、学生、校长、行政人员,还多了一大批新角色——教育科技公司、平台运营商、数据科学家、教育投资掮客。每一方都有自己的时间表、自己的成功指标、自己的利益所在。商业公司要快速迭代和规模化,学校需要稳定和长期沉淀,这两套时钟根本对不上。
第六处,重叠的多重时间。 算法以毫秒计算,技术能力以季度迭代,教学实践按学年发展,制度变革跨越数年。所有这些时钟在同一间教室里同时滴答作响,但走的速度完全不同。这就好比你试图同时看懂F1赛车的实时车速、季度财报、奥运周期和冰川移动——表盘是同一个,刻度根本不在一个量级。
第七处,对常识的挑战。 这是七个点里我个人最喜欢的一个。论文问了一个尖锐的问题——如果科学研究不能宣称自己有什么”特权认识地位”,那研究者凭什么参与到教育变革里来?凭什么我们要听他们的?
作者的回答是——研究者真正的贡献,不是给出”答案”,而是用方法去打破那些被认为”理所当然”的思维习惯。
研究者的价值,不在于比家长、比老师更”懂”AI教育,而在于他们能用专门的方法去检验那些”大家都以为对”的事情。比如”AI能实现真正的个性化”——是真的吗?算法到底个性化了什么?再比如”数字化能减轻老师负担”——是真的吗?老师从中解放出来的时间,又被什么新任务填满了?
作为一线教师我们能学到什么?
1、任何AI教育产品,先把”营销话语”和”实际行为”分开看
具体怎么做?三个简单的追问就够了。第一,这个工具评估孩子的指标是什么?(答题正确率,还是更复杂的过程性指标?)第二,它说的”个性化”和它的指标之间是什么关系?第三,如果一个孩子在它的指标上得分很低,这个工具会怎么对待这个孩子?把这三个问题问出口,多数时候你就能识破华丽包装下的实际逻辑。
2、不同立场的人需要不同种类的”证据”,别被单一证据牵着走
当我们在家长群、学校开放日、教育公众号上看到”研究证明XX工具提升成绩XX%”的时候,先停一下,问一句:这个研究是怎么做的?样本是哪类孩子?我家娃跟那个样本有几分像?案例研究里的真实课堂场景,往往比平均效应量数据更能告诉我们一个工具到底适不适合具体的孩子。
3、学会更聪明的研究
意思是当我们读到一篇关于AI教育的研究时,应该多问几个问题——这个研究的资金来自哪里?数据是哪个平台提供的?研究者和被研究的工具之间有什么样的关系?这些问题不是为了否定研究,而是为了让我们看到研究的”位置”。一份由某教育科技公司资助、用该公司平台数据做出来的”个性化学习有效”的研究,和一份独立机构、用多平台数据做出来的同一个结论的研究,分量是完全不一样的。
4、所有人都是研究人员
论文里反复提到,案例型泛化的核心,就是去理解”机制和情境”——一个工具在具体的人、具体的环境里到底是怎么起作用的。而这恰恰是我们最有发言权的地方。当孩子用了一个新APP半个月之后,他变得更主动还是更依赖?他对”思考”这件事本身的态度变了吗?他和你讨论问题的深度有变化吗?这些不是数据,但这些是教育最重要的现实。把它们记录下来、和其他家长老师交流,就是在做最朴素也最有力的”教育研究”。
最后
回到开头那个画面——我们都笑过那个楚人,笑他不懂”船在动”。但读完这篇论文你会发现,今天我们面对AI教育时的处境,比楚人复杂得多。
但这未必是坏消息。当我们承认这一切都是变量的时候,反而获得了一种新的清醒——我们不再期待研究者从岸上扔来一份完美的答案,也不再责怪自己看不清真相。
原论文:Horvath, K., & Getto, B. (2026). Research in transformation: a pragmatist perspective on change-oriented research in digital education contexts. Learning, Media and Technology.
地址:https://doi.org/10.1080/17439884.2026.2642195
#AI教育研究方法 #教育科技批判性思考
#数字化转型与学习
END
夜雨聆风