当 ChatGPT 在 2022 年 11 月横空出世时,教育界最担心的问题终于变成了现实:如果 AI 能替学生写论文、写代码,那大学的考试和作业还有什么意义?
最新发表的一项重磅研究给出了令人不安的答案。加州大学伯克利分校的经济学家伊戈尔・奇里科夫分析了美国一所顶尖公立大学超过 50 万份学生成绩单后发现:ChatGPT 发布后,写作和编程类课程的 A 等生比例暴涨了 13 个百分点,相当于在短短三年内增加了 30% 的 A 等生。
更关键的是,这项研究用严谨的因果证据证明:这些分数的上涨并非因为学生的能力真的提升了,而是因为 AI 直接替代学生完成了作业。这是一种前所未有的 "技术驱动型分数膨胀",正在从根本上瓦解大学成绩作为技能认证信号的价值。
一、分数膨胀的新变种:从 "老师放水" 到 "AI 替考"
分数膨胀早已不是新鲜事。过去几十年,美国大学的 GPA 一直在稳步上升。哈佛大学的数据显示,A 等生的比例从 2005 年的 24% 飙升至 2025 年的 60.2%,A 已经成为了最常见的成绩。
传统的分数膨胀主要源于评分环节的问题:老师为了获得更好的学生评价而放宽标准,学校为了吸引生源和提高就业率而默许高分,不同院系之间的评分竞赛等等。这些问题虽然严重,但都发生在学生提交作业之后。
生成式 AI 的出现,彻底改变了游戏规则。
AI 不是在评分环节放水,而是在作业生产环节直接接管了学生的工作。 即便老师的评分标准完全不变,只要学生能用 AI 写出比自己水平高得多的论文和代码,分数就会自动上涨。这种新型分数膨胀更隐蔽、更难检测,也更具破坏性。
奇里科夫在论文中指出:"如果成绩越来越多地反映 AI 的输出而不是学生自己的技能,那么它们的信息价值就会下降,从而削弱人力资本配置的效率。"
二、50 万份成绩单的铁证:高 AI 暴露课程分数暴涨
为了验证 AI 对成绩的影响,奇里科夫收集了美国德克萨斯州一所大型公立研究型大学 2018 年至 2025 年的所有成绩数据。这所大学有超过 5 万名学生,覆盖了所有主要学科领域。
研究的核心设计非常巧妙:
首先,根据 2022 年秋季(ChatGPT 发布前)的课程大纲,将所有课程按照 "AI 任务暴露度" 进行分类。写作和编程是 AI 能力最强的领域,因此这类任务占比越高的课程,AI 暴露度就越高。
然后,采用双重差分法,对比 ChatGPT 发布前后,高 AI 暴露课程和低 AI 暴露课程的成绩变化。
研究结果令人震惊:
ChatGPT 发布后,高 AI 暴露课程的 A 等生比例显著上升了 13 个百分点,从 2022 年的 44% 上升到 2025 年的 58% 左右。
这些课程的平均 GPA 上升了 0.12 分。
与此同时,成绩分布的标准差下降了 0.09,说明分数正在向高分段集中,学生之间的成绩差异越来越小。
值得注意的是,这种分数上涨主要集中在高分段:A - 和 B + 的学生大量变成了 A,而 B 及以下的学生成绩没有明显变化。这符合 AI 的使用模式:中等水平的学生最容易通过 AI 大幅提升作业质量,而原本就能得 A 的学生和成绩较差的学生受益相对较小。
三、决定性证据:不是能力提升,是 AI 替代作业
看到这里,你可能会问:有没有可能是 AI 帮助学生更好地学习了,所以成绩才提高了?
这正是研究最精彩的部分。奇里科夫没有止步于证明 AI 和分数上涨的相关性,而是进一步设计了一个三重差分实验,决定性地排除了 "能力提升" 的可能性。
他的逻辑非常清晰:
如果 AI 真的提升了学生的能力,那么这种提升应该体现在所有形式的考核中,无论是课后作业还是课堂考试。
如果 AI 只是替代学生完成了作业,那么分数上涨应该只出现在作业权重高的课程中,而在以课堂考试为主的课程中则不会出现。
研究结果完全支持第二种假设:
在 ** 作业权重低于中位数(30%)** 的高 AI 暴露课程中,ChatGPT 发布后成绩没有显著变化。
在作业权重高于中位数的高 AI 暴露课程中,A 等生比例额外增加了 16 个百分点。
这一发现排除了所有其他可能的解释:
不是学生能力提升,否则课堂考试成绩也会提高;
不是好学生都选了高 AI 暴露课程,否则所有考核形式的成绩都会提高;
不是老师放宽了评分标准,否则低作业权重的课程成绩也会提高。
唯一合理的解释就是:学生在课后用 AI 完成了作业,而在课堂考试中无法使用 AI,因此只有作业权重高的课程出现了分数膨胀。
四、比分数膨胀更可怕的后果:技能空心化
AI 驱动的分数膨胀不仅仅是一个公平问题,它正在对整个高等教育体系产生深远的负面影响。
首先,成绩的信号价值正在迅速瓦解。雇主和研究生院一直依赖成绩单来筛选人才,但现在他们越来越难区分哪些 A 是学生自己挣来的,哪些是 AI 写出来的。这将导致人才匹配效率下降,企业不得不花费更多成本进行额外的技能考核。
其次,这会形成一个危险的反馈循环:学生用 AI 完成作业,得到高分,于是误以为自己已经掌握了这些技能,从而减少了在核心技能上的投入。结果就是,学生在 AI 最强的领域(写作、编程)的实际能力反而越来越弱。
奇里科夫警告说:"如果 AI 在学习过程中取代了技能培养任务,学生毕业时在 AI 最强的领域的能力可能会更弱。这将在教育中的 AI 和生产中的 AI 之间形成一个反馈循环,可能会加速自动化并扩大劳动力市场的技能差距。"
五、没有简单答案的难题
面对这一危机,大学目前的应对措施远远不够。
最直接的办法是把所有考核都改成课堂考试,但这显然不现实。很多重要的技能,比如写一篇严谨的学术论文、开发一个复杂的软件项目,根本无法在两小时的课堂考试中完成。如果我们只考核那些 AI 无法完成的任务,最终会导致大学教育的内容变得越来越狭隘。
另一种思路是将 AI 纳入教学过程,教会学生如何正确使用 AI 工具。但这说起来容易做起来难,如何在允许 AI 辅助的同时,确保学生真正掌握了核心技能,目前还没有成熟的解决方案。
奇里科夫在论文的结尾写道:"评估改革是最直接的制度回应,但其设计并非易事。一个更有前途的方向是重新设计评估方式,要么从结构上限制 AI 的使用,要么有目的地将 AI 融入其中,例如要求学生记录他们的工作过程、证明他们的选择,或者通过后续互动来展示理解。"
ChatGPT 发布还不到三年,但它已经深刻地改变了高等教育的面貌。当 AI 能替我们完成越来越多的任务时,大学教育的意义到底是什么?我们到底应该教给学生什么?这可能是未来十年教育界需要回答的最根本的问题。
分数膨胀只是表象,真正的危机在于:
当 AI 可以替我们完成所有标准化的任务,大学教育的意义到底是什么?
是继续培养会考试、会写论文的 “AI 模仿者”,还是培养 AI 无法替代的、有独立思考和创造力的人?
这个问题,需要我们每一个人来回答。 欢迎在评论区留下你的思考。
如果你觉得这篇文章有价值,欢迎转发分享,让更多人关注 AI 时代的教育变革。
参考资料:Chirikov, I. (2026). Artificial Intelligence and Grade Inflation. CSHE Higher Education Working Paper Series, Vol. 26-3.
本文来源:CSHE
转载之作品,仅作学习、研究之用,并不代表本公众号赞同其观点或对其真实性负责。本公众号所转载之作品的版权归版权所有人所有,若作者或版权所有人不愿被使用,请来函联系,我们会及时处理。
夜雨聆风