PRPER专题合集:人工智能工具在物理教学与物理教育研究中的应用-夜雨聆风

PRPER专题合集:人工智能工具在物理教学与物理教育研究中的应用

童大振按：2023年12月，Physical Review Physics Education Research期刊发布了人工智能工具在物理教学与物理教育研究中应用的征稿通知。截至目前（2026年5月6日）该征稿栏目下已经发表13篇相关论文。该栏目下的负责人在今年3月份对发表的12篇论文（另外一篇在4月份发表）进行了介绍和小结。本篇推文就是对这个小结的提炼。

其实在此之前，我们团队也从“教学评研”四个方面对这12篇论文进行了分类和总结，已于5月份在《中学物理》期刊上发表，待上传知网后再分享给大家。

论文链接：https://doi.org/10.1103/PhysRevPhysEducRes.22.010001

论文格式：

Küchemann S,Kuhn J. Editorial: Focused Collection: Artificial Intelligence Tools in Physics Teaching and Physics Education Research[J].Physical Review Physics Education Research, 2026, 22(1): 010001.

近年来，人工智能（AI）在物理教育领域的研究重心已发生根本性转移——从早期单纯追求模型的物理解题能力、数据处理效率，逐步转向关注学习者个体需求、教师教学实践痛点与教育本质目标的深度融合。《Physical Review Physics Education Research》（PRPER，物理教育研究顶刊）于2026 年推出AI专题合集，汇聚全球数十位物理教育与AI领域专家的最新研究成果。本文将对该专题合集的核心结论、关键应用方向、现存局限及未来研究议程进行系统性提炼。

一、研究核心转向：

从“AI能做什么”到“AI如何赋能教育”

回顾近5年物理教育AI研究脉络，清晰呈现出从“技术导向”到“教育导向”的核心转变：早期研究聚焦 AI的基础工具能力，如学习数据预测、学习者行为检测、作业自动化批改等单一功能的实现；而当前研究已全面转向生成式人工智能能力与物理教学全流程的深度融合，不再局限于“AI能完成什么任务”，更关注“AI如何精准赋能学习者成长、减轻教师负担、优化教学闭环”。

当前研究的核心聚焦四大关键问题，也是未来物理教育 AI 发展的核心锚点：

✅AI何时能提供帮助？

✅AI会带来哪些新型教育风险？

✅如何科学衡量AI在物理教育中的可信度？

✅ 何种人机协同模式最适合物理教与学？

研究覆盖的 AI 技术与应用场景基本覆盖物理教学的“教、学、评、练、实验”的全流程。

二、评价与评分：

AI赋能大规模阅卷的可行路径

物理评价以手写、图表、符号为主，AI落地的关键在于流程重构。该专题合集明确了以下三大核心应用路径及实操细节。

手写物理题阅卷

Kortemeyer等人探讨了人工智能在评估手写热力学考试答案方面的应用潜力。其研究指出：目前手写识别技术尚不能准确转化所有手写内容，尤其是在面对非标准布局或者有图形元素的情形时，其表现存在限制。需要采用“粗分类+细校验”的模式，AI 先完成基础的格式识别（如公式是否正确、步骤是否完整），再由人工对复杂图解、逻辑关联部分进行复核，平衡效率与精准度。

文本推理过程评分

Chen和Wan在研究中证明了人工智能评分与人类评分者的一致性可以达到典型评分者间一致性的范围。这项研究的核心启示并非”AI能评分”，而是当任务设计具备可审计性——包括清晰的评分标准、结构化的输出以及明确的人工监督方案时，人工智能能够有效辅助评分工作。

AI辅助评分机制

Kortemeyer与Nöhl引入心理测量学方法论证AI评分在哪些环节可信，以及如何通过阈值设定在机器评分与人工评分之间进行任务分流。在高风险评估中，关键不在于”AI绝对准确”，而在于”我们能量化AI可能准确的场景，并在其不可靠时执行有原则的备选方案”。在高利害考试中不追求全自动化，可以采用机器 + 人工分级复核。

AI不是 “替代专家阅卷”，而是打造标准化输入+可机器追踪量规+不确定性评估的闭环流程，从而将人工注意力分配到最具价值的环节。

三、大规模教育研究：

AI从 “编码” 到 “分类”

物理教育研究长期依赖耗时定性编码，该合集中的多篇论文展示了人工智能如何在不将分类等同于理解的前提下辅助这项工作。

实验笔记自动标注

Fussell等人探究了如何比较不同大语言模型在监督分析学生实验笔记中的有效性。研究从技术选型的角度指出模型规模与精度的关系：轻量级模型虽然降低了部署成本，但其在技能频率估计等任务中的绝对误差超出了不确定性范围；高性能模型需要更强硬件的支持，仅适用于高精度的研究场景。

长期学习轨迹追踪

Wyrwich等人通过识别学生在理解能量概念中的最优学习轨迹，分析学生在单元学习过程中的进展并为教师进行能量教学提供指导。研究发现处于高效学习轨道的学生表现通常优于处于低效学习轨迹的学生。通过细粒度分析，支撑教学设计与即时反馈。

眼动预测学习表现

Dinc等人通过眼动追踪与机器学习技术，探讨了学生在物理学习中的理解过程。研究显示，学习期间的注视行为比解题期间的注视行为更具预测性，这为自适应系统增设了实际限制——预测信号可能在学生投入解题时达到最强。该研究同时凸显了视觉表征（图表）作为学习对象和预测锚点的重要性。

四、与 AI 共学：

工具、体验与协同模式

如果说教师端的评卷与科研分析构成了AI教育应用的一极，那么学生端的学习工具则组成了另一极——且后者面临着迥然不同的挑战。

AI定制聊聊天机器人

Lademann等人比较了传统教科书材料与由AI定制聊天机器人生成的补充学习材料对学生学习体验和学业表现的影响。研究发现，虽然学生短期成绩提升不显著，但是与仅使用传统教科书学习相比，GenAI输出的结果能减轻学生的认知负担，同时可以对学习者的积极情绪、情境兴趣和自我效能感有显著影响。

人机协作

Tong等人通过比较高中生群体中的人机协作与人人协作，发现两种模式均能提升问题解决的能力，其中人人协作的效果更好。在实际互动中，学生多将GenAI其视为“获取答案的工具”而非“学习伙伴”。同时，GenAI在图像识别、问题分析与回复一致性方面仍然存在挑战。需要加强对学生数智素养的培养，提升与GenAI的互动质量。

AI实验助手

Kilde-Westberg团队将这些议题引入实验室场域。他们对学生物理实验课中使用ChatGPT的情况进行分析，既揭示了AI辅助的价值，也凸显了其局限性。在实验教学中，教师的角色不仅在于纠正答案，更在于诊断学生注意到什么、遗漏什么，以及他们能对现象变异做出何种有意义的辨识。AI或许能支持创意生成和解释说明，但要使AI应用与学生不断发展的实验能力相匹配，教师的作用依然不可替代。

五、物理场景AI局限：

文字敏感 + 视觉短板

该合集中多篇论文并非聚焦于人工智能的部署应用，而是致力于刻画其在物理任务中的表现。这一研究方向至关重要，因为物理教育中充斥着各类表征形式 —— 图表、图像、矢量场、电路等，且提示词的细微差异都可能改变对物理问题的界定。

提示词的微小变化

Dunlap等人探讨了大语言模型在应对经典物理问题“物体沿斜面下滑”时的表现。研究表明，若将人工智能用作导师或解题指导工具，我们不仅需要评估其答案正确性，更应考量其认知质量：是否阐明假设前提？是否察觉逻辑冲突？是否论证了表征方式的选择依据？

视觉理解能力

Polverini等人的研究评估了两种基于大型多模态模型的聊天机器人ChatGPT-4和ChatGPT-4o在简明电磁学评估（BEMA）中的表现。从ChatGPT-4到ChatGPT-4o的迭代提升了整体表现，但它们的定性分析揭示了模型在视觉解读、物理定律选择应用及空间协调（尤其是右手定则运用）方面持续存在的缺陷。

六、教师落地：

接受度、障碍与支持需求

Wattanakasiwich等人对中学及大学物理教师开展的调查显示，教师群体分布在技术采纳的不同阶段，面临着技术知识不足、语言处理局限等障碍，并表达了对AI生成内容可能包含错误物理概念、影响学生思维、语言障碍及提示词编写挑战等担忧。值得注意的是，教师常将GenAI用于评估相关任务，其使用动机既可能来自绩效预期，也可能源于探索乐趣与好奇心。多数教师使用免费版本，教师在整合GenAI的过程中还面临语言障碍、资源不足和制度限制等挑战。

七、研究总结

（1）角色错位：AI是“测量仪器”而非“魔法助手”。

误差与偏见：在评分、文本标注或反馈生成时，AI应被视为一种具有误差、偏见和语境敏感性的“仪器”。
关注失败：我们不应只关注AI的平均表现，更要研究它在何时、何地会失效，以及我们如何检测并减轻这种失效带来的影响。
管理胜于工具：成功的AI教学应用，其本质在于教师对流程的“编排”与“指导”，而非工具本身。

（2）学科核心：跨越“文本”的多重表征。

非文本挑战：物理学是由图表、过程图谱和空间推理构成的。AI处理手写内容和复杂图形的能力，不是“边缘功能”，而是物理学科的核心需求。
未来趋势：未来的研究方向在于AI如何解读学生的图像表征，并根据学生需求动态调整教学展示。

（3）协作素养：培养“物理思维习惯”。

超越“要答案”：学生习惯于用AI直接获取答案，但教学应引导学生利用AI建立假设、请求多种解题路径、并检查边界条件。
能力强化：这种显性的人机协作教学，能够强化物理思维，让AI成为思维的脚手架。

（4）实施科学：构建系统化的支持体系。

多维挑战：AI的落地受限于风险感知、成本、语言可及性和机构政策。
闭环研究：需要将教师的接受度调查与实际的干预研究相结合，测试提示词和工具定制如何真实改变学习表现。

【END】