AI让学生成绩变好了吗?一项实验发现没那么简单

这是“神经管理学”第376篇推送
选文: 邢妍终审: 彭希羡编辑: 邢妍
仅用于学术交流，原文版权归原作者和原发刊所有

原刊及作者

H. Bastani, O. Bastani, A. Sungu, H. Ge, Ö. Kabakcı, & R. Mariman, Generative AI without guardrails can harm learning: Evidence from high school mathematics, Proc. Natl. Acad. Sci. U.S.A. 122 (26) e2422633122, https://doi.org/10.1073/pnas.2422633122 (2025).

一个学生不会做数学题，于是打开 AI，输入题目。AI 很快给出解题步骤，甚至直接给出答案。学生把答案写到练习纸上，成绩提高了。表面上看，这似乎是一场由技术带来的学习进步。但问题是：他真的学会了吗？如果下一次没有 AI，他还能独立做出来吗？

一项发表在 PNAS 的研究给出了一个值得警惕的答案：生成式 AI 确实能够显著提高学生在练习阶段的表现，但如果缺少合适的教学护栏，它也可能损害学生真正的学习效果。这项研究讨论的并不是 AI 能不能帮学生完成题目，而是一个更关键的问题：AI 提高的究竟是学生的学习能力，还是学生在工具辅助下的任务表现？

研究问题

过去关于生成式 AI 的讨论，很多都集中在生产力提升上。比如，AI 可以帮助人们更快写作、更快分析、更快完成知识型任务。也就是说，只要 AI 在场，人的即时表现往往会变好。但教育场景和一般工作场景不同。学生练习数学题的目标，并不只是把眼前这道题做对，而是通过练习理解概念、掌握方法，并在未来没有外部辅助时，也能独立解决相似问题。因此，研究者特别区分了两个概念：表现和学习。表现指的是学生在当前任务中的结果，比如练习题得了多少分；学习则指学生是否真正获得了能力，能否在没有 AI、没有课本、没有笔记的情况下独立完成任务。

这一区分非常重要，因为 AI 可能让学生在当下做得更好，却不一定让学生真正学得更好。如果学生在练习中直接向 AI 索要答案，跳过自己思考、试错和修正的过程，那么练习成绩可能会上升，但知识掌握未必会增强。更严重的是，学生可能因为依赖 AI 而减少必要的认知投入，最终导致独立解题能力下降。这也是本文的核心理论逻辑：技术可以提高短期任务表现，但也可能削弱技能习得。尤其是生成式 AI 并不总是可靠，它可能给出错误答案，也可能让用户误以为自己已经理解了内容。因此，在教育场景中，AI 工具的设计方式非常关键。

这篇论文的核心研究问题可以概括为三个方面：第一，生成式 AI 是否会提高学生在数学练习阶段的即时表现？第二，使用 AI 之后，学生在没有 AI 辅助的考试中是否真的学得更好？第三，不同设计的 AI 工具，尤其是是否具备教学护栏，是否会对学生学习产生不同影响？这里所说的“教学护栏”，指的是 AI 不直接给出完整答案，而是通过提示、追问和分步反馈，引导学生参与思考与解题过程，从而避免学生对 AI 形成过度依赖。

研究方法与结果

实验设计

研究者在土耳其一所大型高中开展了一项随机对照实验。参与对

象接近 1000 名高中生。实验发生在 2023 至 2024 学年秋季学期，共进行了四次 90 分钟的数学学习课程，内容约占该学期数学课程的 15%。

学生被随机分配到三个组：第一组是对照组，学生不能使用 AI，只能使用课本和课堂笔记完成练习；第二组是 GPT Base 组，学生可以使用一个类似 ChatGPT 的 GPT-4 聊天工具，这个工具可以帮助学生解题，但没有严格限制它直接给出答案；第三组是 GPT Tutor 组，学生可以使用一个带有教学护栏的 GPT-4 辅导工具，这个工具的设计目标不是直接给答案，而是提供提示、纠正错误，并引导学生思考。

图1 GPT Base 和 GPT Tutor 提示词设计

每次实验课分为三个阶段。第一阶段，学习阶段，教师复习相关数学知识，并在黑板上讲解例题。第二阶段，练习题阶段，不同组可以使用不同资源：对照组使用课本和笔记，GPT Base 组使用普通 GPT 工具，GPT Tutor 组使用带有教学护栏的 GPT 工具。第三阶段，考试阶段，学生参加无辅助考试，所有学生都不能使用 AI、课本、笔记或其他资源。这个设计的优势在于，它可以同时观察两个结果：学生在 AI 帮助下是否表现更好，以及学生离开 AI 后是否真正学会。

研究结果

研究发现，AI 显著提高了练习题阶段的表现。与对照组相比，GPT Base 组学生在练习题上的成绩提高了 48%；GPT Tutor 组学生的练习成绩提高了 127%。这说明，AI 在场时，学生确实能完成更多题目，获得更高分数。尤其是 GPT Tutor，由于加入了教师设计的解法和提示，效果明显强于普通 GPT Base。

但真正关键的结果出现在无辅助考试阶段。在考试中，所有学生都不能使用 AI。此时，GPT Base 组学生的成绩比对照组低 17%。也就是说，普通 GPT 工具虽然提高了学生练习时的成绩，却让学生在独立考试中表现更差。GPT Tutor 组则没有出现这种显著负面影响，他们在无辅助考试中的表现与对照组没有显著差异。换言之，带有教学护栏的 AI 工具基本消除了普通 GPT 工具带来的学习损害。这组结果非常重要。它说明，AI 对学习的影响并不是单向的。AI 可以在短期内提高表现，也可能在缺少合理设计时削弱学习。决定结果的，不只是 AI 是否强大，而是 AI 如何被设计，以及学生如何使用它。

表1 学生练习题阶段与考试阶段标准化表现的回归结果

研究者进一步分析了 GPT Base 为什么会损害学习。一种可能解释是，GPT Base 给错了答案，学生被错误答案误导。研究确实发现，GPT Base 在数学题上并不稳定。但更关键的问题是，学生在使用 GPT Base 时，往往只是直接索要答案。研究者分析了学生与 AI 的聊天记录，发现 GPT Base 组学生更常发送表层信息，例如重复题目、询问答案；而GPT Tutor 组学生更常尝试作答、请求帮助，互动更加深入。这意味着，GPT Base 的问题不只是偶尔答错，而是它改变了学生的学习方式。学生在练习中更容易跳过思考过程，直接获得结果。等到考试阶段AI 被拿走，他们真实掌握不足的问题就暴露出来了。

图2 学生参与度随时间的变化：A 为每题平均学生消息数；B 为每次课程中非表层对话的平均占比。表层对话指简单重复题目或直接询问答案，比较对象为 GPT Base 和 GPT Tutor 两组

研究总结

生成式 AI 可以提高学生使用 AI 时的表现，但如果 AI 缺少教学护栏，并且直接给出答案，就可能损害学生离开 AI 后的真实学习能力。这项研究的重要意义，不在于否定 AI 进入教育，而在于提醒我们：教育 AI 不能只追求答题效率。对教育而言，更重要的是学生是否经历了必要的思考过程，是否能够识别错误，是否能够理解方法，以及是否能够在没有工具时独立完成任务。

因此，教育 AI 的关键不只是更快给出答案，而是更好地保护学习过程。一个真正有教育价值的 AI 工具，不应该只是帮助学生完成题目，而应该引导学生保留思考、尝试和修正的过程。只有这样，AI 提高的才不只是工具辅助下的短期表现，而是学生可以真正带走的能力。

参考文献