和 AI 一起变聪明:MIT 关于教育的七个判断-夜雨聆风

和 AI 一起变聪明:MIT 关于教育的七个判断

读完这篇文章，你将获得一个判断 AI 教育产品的完整框架——它源自 MIT 一整天的研讨会、十几位研究者的实战经验。你会带走七个具体的判断尺，下次看到任何 “AI + 教育” 的产品宣称，都能在五分钟内辨别出它是真有想法，还是在卖空气。

这场研讨会的主题是 “生成式 AI 与教育”。说话的人不是 PR 团队，是几十年在这个领域真刀真枪做研究的学者：Scratch 编程语言的发明者 Mitch Resnick、《破坏失败》一书作者 Justin Reich、媒体实验室个人机器人组的 Cynthia Breazeal、物理系教授 Jesse Thaler、教学与学习实验室主任 Janet Rankin、App Inventor 项目主导者 Hal Abelson，以及一线学生、空军少校、商学院讲师、贫民窟里的 12 岁女孩。

把他们说的话放在一起看，会发现一条贯穿始终的线——

重要的不是造更聪明的 AI，是和 AI 一起变聪明。

这是研讨会闭幕讲者 Valdemar Dhanru 留下的口号。它值得被刻在每一个 AI 产品团队的墙上。

下面七个判断，是这条线的展开。

一、Papert 的 50 年问题：AI 在编程孩子，还是孩子在编程 AI？

整场研讨会的起点是一个老问题。

半个多世纪前，MIT 的教育思想家 Seymour Papert 问过一个问题：

我们是要用计算机来编程孩子，还是让孩子来编程计算机？

Justin Reich 在台上把这个问题更新成了今天的版本：

我们是要让 AI 来编程孩子，还是让孩子来编程 AI？

这个问题背后是两种根本对立的教育哲学。

第一种叫教学派（instructionist）。它问的是怎么把知识更高效地”传递”给学生。技术的角色是优化”教”这个动作——智能辅导系统就是典型，根据学生反应调整下一道题。

第二种叫建构派（constructionist）。它问的是另一个问题：怎么让学生通过设计、创造、试错，长出自己的好奇心和创造力？技术不是用来”教”的，是给学生当材料的。Logo、App Inventor、Scratch 都是这条路。

这两种立场的根本差异在哪里？

教学派把孩子当成需要被优化的对象。建构派把孩子当成创造者。

Mitch Resnick 在台上说了一句很扎心的话——传统的 AI 更容易被嵌入教学派的范式，因为它本来就擅长”判断对错、给反馈、调整下一步”。所以过去几十年，AI 在教育里主要长成”更聪明的辅导工具”。

而生成式 AI 这一波，第一次让两条路都打开了。

但 Mitch 紧接着说出了他的失望——

“看现在教育科技领域里发生的事，大多数还是在用这项新技术强化传统的教育方式。“

技术的可能性在变大，但人们的想象力仍然停留在老路径上。

这是你下次评估任何 AI 教育产品时要问的第一个问题：它把孩子当成被优化的对象，还是当成创造者？

二、最被忽视的区分：能力 vs 赋能

如果第一个判断是关于”立场”的，第二个判断是关于”产品”的。

MIT 媒体实验室的博士生 Braden 在闪电演讲里抛出了一个区分。这个区分简单到容易被忽视，但一旦你掌握了它，你看任何 AI 产品的眼光都会变。

AI 的”能力”，和它的”赋能”，是两件不同的事情。

能力（capability） 是技术指标——这个模型能写多少字、识别多少种语言、生成多清晰的图。这些都可以脱离使用者讨论。

赋能（affordance） 不行。赋能必须把 AI 的能力和特定的人、特定的情境绑在一起讨论才有意义。

举个例子。一个会写 800 字流畅议论文的模型，对一个博士生是低端工具，对一个失读症的初中生可能是改变人生的杠杆。

同一种 AI 能力，对不同的人意味着不同的事。赋能不是技术属性，是关系属性。

这个区分听起来抽象，但它是判断 AI 教育产品最锋利的尺。

绝大多数 “AI + 教育” 产品在卖能力——”我们的 AI 能写、能讲、能批改”。

少数好产品在卖赋能——”它能让一个具体的人，做到一件 Ta 以前做不到的事”。

下次你听到某个产品宣称自己有多强大时，试着问一句：

它让一个具体的、有名字的、有困难的人，做到了什么 Ta 以前做不到的事？

如果答不上来，那就是在卖能力，不是赋能。

三、为什么每一波”民主化教育”都失败了？

到这里有人会问——AI 不是要让教育人人可得吗？这不是好事吗？

Justin Reich 讲了一个全场会心一笑的故事。

他参加哈佛的一场会议，一位非常乐观的 AI 倡导者 Ethan Mollick 在台上说：AI 会让教育民主化，每个人都能免费拥有个性化的导师。

听众里有人举手问：”那 MOOC（慕课）呢？十年前不也是这么说的吗？”

Mollick 回应说：”哦不，MOOC 就是一群人坐在那里看视频，怎么可能有意思呢？”

Justin 听完心想——

十年前我们也是这么说教科书的。”教科书当然不能民主化教育，要靠精心制作的、人性化的视频，那才是改变教育的东西。”

十年后，肯定也会有人坐着看 Mollick 演讲的录像，说：”当然不可能靠一群孩子对着辅导机器人聊天就能改变教育。”

每一波技术浪潮都重复着同一个剧本：宣称要颠覆 → 被认真期待 → 某种程度上失败 → 再被下一波技术宣称要超越。

为什么会这样？Justin 给出了一个最朴素也最难反驳的解释：

当一个孩子坐下来学代数时，问题不是教材好不好、视频好不好、辅导机器人好不好。问题是这个孩子根本就不想学代数。

Ta 想做什么？Ta 想和老师建立关系。Ta 想和身边的同学产生连接。

学习从根上是一场社会活动。

这句话解释了过去四十年大部分教育技术失败的真正原因——它们都在为”信息传输”做设计，而真正的学习发生在人与人之间。

Justin 给出了一个让所有改革者头脑清醒的判断：

如果你以为你做了一个 App、人们下载到手机上，然后这个系统就被你改变了——我向你保证，那不会发生。

当系统真的发生改变时，那是因为我们和教育者合作、和学习者合作、和家庭合作，一起建立了他们的能力。

技术能轻易转动方向盘。问题是车开向哪。

四、ChatGPT 不是作弊工具——它是”绕过有用认知”的工具

这场研讨会上几乎所有教师都同意一件事——

不要加入追作弊者的游戏。这听起来太悲惨了。（Sloan 讲师 Melissa Webster）

不要把焦点放在作弊检测上，那是一场永远打不完的仗。（Eric Klopfer）

但他们没停在这里。Justin 给出了一个更好的框架——把”作弊”重新定义为”绕过有用认知”。

学校多年来发明了一系列练习，用来帮助学生发展某些技能、能力和知识。然后我们发明了一台机器，可以替学生完成其中很多练习。这件事不是从今天才开始的。

回看历史：

我们曾让学生做的事	后来发明的”绕过工具”
总结大量信息	百科全书
计算数学题	计算器
在两种语言间翻译文档	Google Translate

ChatGPT 只是这条长链上的最新一环。它带来的真正问题不是”学生作弊”，而是逼老师重新问：

哪些认知，我们其实不需要再做了？哪些认知，我们必须保护它不被绕过？

Justin 讲了一个学生的例子。他问那个学生用 ChatGPT 做什么，学生说：”格式化我论文里的 LaTeX。”

Justin 的反应是：

“太棒了。永远不要再想这件事。如果机器能替你做，这就不是有用的认知。”

但写作不一样。学生写作不只是为了产出文档。

写作就是思考。

绕过这个过程，可能就是在绕过有用的认知。

数学老师 30 年前就处理过这个问题。他们意识到禁止计算器是糟糕的主意。但他们也意识到：在某些时候、某些课时、某些作业里，应该把计算器关在门外。因为如果你对基本运算没有自动化能力，你以后做更深的数学思考时会卡住。

该用就用，该挡就挡。这条边界不是一刀切的，是有教学逻辑的。

学校领导者今年最紧迫要做的事，就是为生成式 AI 画出类似的边界。

五、90% 完美，10% 致命：物理学家的俄罗斯轮盘

到这里你听到的还是教育层面的判断。Dirk Englund 把视角拉到一个更冷峻的层面——技术本身的可信度问题。

Dirk 是 EECS 副教授，他的实验室造量子计算机和 AI 加速器。他既懂 AI 底层硬件，也懂 AI 的边界。

去年 11 月，他给自己的量子计算课程做了一个情境感知的辅导器——它知道学生现在在课程网站的哪一页，知道整个课程的内容，错误率非常低。

学生反馈很好。但 Dirk 紧接着说出了那句让全场安静的话：

它 90% 的时间给你完美的答案。10% 的时间给你一个错误的答案。

在物理里——本质上是应用数学——错误的答案就是错误的。没有灰度，没有”差不多对”。

而你不知道哪一次是哪一次。

用这个工具，就像玩俄罗斯轮盘。

这是一个让人脊背发凉的描述。它直接否定了”加点提示词就能用”的乐观主义。

Dirk 的解决方案：让 AI 通过代码”自证清白”

过去半年 Dirk 一直在想一个问题——怎么让 AI 在物理和数学里说真话？

他的方法精彩。不让 AI 直接从问题跳到答案——而是：

从问题，跳到一个”诚实的推理内核”。这个内核写代码。

流程是这样的：

学生问问题

AI 不直接回答，而是写一段可执行的代码

代码可被运行验证

代码留下完整的执行记录

AI 再回到”翻译者”的角色——把代码的输出翻译回人话

结果：在物理和数学领域，幻觉率被压到接近零。

为什么这条路在物理里走得通？

因为我们知道真相是什么。给定输入条件，根据物理定律，输出是可以被证明的。

数学和物理是有”真理函数 f(x)”的领域。AI 可以绕过自己去查这个函数。在没有这种真理函数的领域（社会科学、人文、商业判断），同样的方法不一定行得通。

Dirk 留下的三种”可信度等级”

这是他在 Q&A 里给出的最珍贵的清单——值得每个用 AI 做严肃工作的人记住：

第一类：你问问题，AI 直接给答案。你只能盲信。

第二类：你问问题，AI 写出可被你独立验证的代码。你不必信 AI，你只需要信代码。

第三类：你能把问题映射到一个已知为真的函数上。你信的是数学/物理本身。

这是评估任何 AI 输出的核心尺子——你处在哪一类？

六、答案不是关键，溯源是

Dirk 解决幻觉是从工程入手。Jesse Thaler 解决的是同一个问题，但他的入口是教育哲学。

Jesse 是 MIT 物理系教授，IAIFI 主任。他讲了一个 ChatJesseT 的故事。

有人为他做了一个网站作为愚人节玩笑——用 GPT-4 微调，让它学过 Jesse 写过的所有论文、网站、维基百科条目。它能很热情地回答物理问题。

玩笑成功后，他们做了一个 Oppenheimer 虚拟版。它会用奥本海默的语气回答问题。

但当一个对物理几乎一无所知的项目经理问虚拟奥本海默：”什么是 Born-Oppenheimer 近似？”

模型给出了正确的概念解释，然后给了三篇参考文献。结果：

•

第一篇真的存在

•

第二篇不存在

•

第三篇不适合学术引用

这就是著名的”幻觉”问题。但 Jesse 看到的是更深的东西——

第一件事：理解信息的来源链条

我们的网络世界到处都是超链接。为什么生成式空间里反而不是？

奥本海默的回答完全有可能附上链接指向原始材料——但它没有。这是一个可以解决的设计选择。

学生需要学会的，是追溯信息从哪来的乐趣，是钻进文献里挖宝的过程。这种能力比”接受一个看起来对的答案”重要得多。

第二件事：理解生成式 AI 不是确定性工具

它不是一个计算器。计算器里 3+3 永远等于 6。但生成式 AI 是概率分布。

人们只问一次问题、只生成一张图，就把答案当真。但如果你生成一千张同样 prompt 的图片呢？这个分布会是什么样子？

教育要发生的转向：从只基于微积分的确定性思维，转向更概率统计、更分布式的思考方式。

后来一位观众提了个问题：能不能用 8、9 个 AI 投票来过滤掉幻觉？

Jesse 的回答非常重要：

多数原则不是好的安全策略。

他引用爱因斯坦那句——当大多数科学家攻击他时，爱因斯坦说，如果我真的错了，只需要一个人证明就够。

真理不是民主投票。那靠什么？

你真正需要的是溯源（provenance）。你真正需要的是逻辑探究。

这是 Jesse 留给教育界的核心命题——理解信息的来源比相信答案重要。

七、Backward Design：把混乱整理成三步

到这里你听到的所有判断都是关于”为什么”的。Janet Rankin 给了一个”怎么办”。

Janet 是 MIT 教学与学习实验室主任。她把所有零散的实践，装进了一个 30 年前就存在的框架——反向设计（Backward Design）。

这个框架有三步，注意顺序：

第 1 步：重新定义你的目标

第 2 步：根据新目标，修改评估和作业

第 3 步：根据新评估，重新设计教学方式和学习活动

绝大多数老师做反了——他们想”我下学期讲什么”，把第三步当成了第一步。

把反向设计套到生成式 AI 上：三步工作流

第一步：自己用一遍。

挽起袖子，弄脏手。试试 ChatGPT 能不能做你的习题集，能不能完成你布置的作业。

不亲手用过的老师，谈论 AI 都是凭想象。

第二步：问自己——目标还成立吗？

如果 ChatGPT 能完美完成你的作业——也许那不是个好作业。

这不是要打架。但如果它能算这道题、能写这篇文章——那学生还能做什么更有意思的事？

第三步：从作业反推回来。

很多老师会发现先改作业更容易。看看现在的作业被 AI 做成什么样、然后问自己——

“我当初为什么布置这道作业？为什么这道作业重要？”

这一问，常常会暴露一个尴尬的真相：很多作业的设计理由已经过时了，老师只是惯性地继续布置。

Mitch 的三年级故事：让任务落在工具无法替你做的部分

Mitch Resnick 讲过一段他自己童年的故事，是这条原则最具体的案例。

他三年级时被布置了一篇作文——写一个你敬佩的人的传记。他从百科全书里抄了一段，没逐字复制，但只用了一个来源。

老师批改时给了一个强烈的批评：

“你应该让这篇文章更个人化——为什么你认为这个人重要？这件事和你自己的生活有什么关系？”

Mitch 至今记得这条评语。因为它问的，正是百科全书无法回答的事，也正是今天 ChatGPT 无法替代的事。

设计任务的时候，要让任务的重点落在工具无法替你完成的部分。

这是 Backward Design 落到具体作业的最具操作性的版本。

八、三个登月计划与一个无人回答的问题

到这里你已经拿到了七个判断。但研讨会的最后一场圆桌——”登月计划”——把所有这些判断推到了一个更大的尺度上。

三位发言人面对的尺度天差地别：

Pattie Maes 的登月：每个孩子一位私人苏格拉底。

她的核心判断是：

我们到现在认为最理想的教学方式，仍然是 2400 年前的苏格拉底式对话——老师不输出答案，老师只输出问题。

她要做的”私人苏格拉底”不是 ChatGPT 的反向版。它做的事情是：

用同样的底层技术，让系统问你问题。聪明的问题。

举个具体的画面。一个孩子在野外看到一棵奇怪的植物，掏出设备问：”这是什么？”

私人苏格拉底说：”那是一种猪笼草。它能捕昆虫。”

孩子继续问：”它怎么做到的？”

私人苏格拉底说：”想一下。看看它的形状。看看叶面是什么样的。“

它知道答案。但它不给。

它把”想”这件事，留给了孩子。

Hal Abelson 的登月：让 12 岁的孩子今天就能做出有用的东西。

Hal 给他的登月计划起了个名字——计算行动（computational action）。

这不是关于训练他们以后去工业界打工。这是关于：哪怕初中的孩子，今天就能做出有意义的东西。

为了证明这不是空话，他讲了印度孟买 Dharavi 贫民窟里一群 12 到 16 岁的女孩——她们用 App Inventor 做了一个叫 PANI 的 App，给社区水站排队的事情做调度。又讲了四个摩尔多瓦高中女生做的 Apa Pură——一个国家级的水源质量地图。

这是四个高中女生。她们做出了一个国家级的资源。

App Inventor 服务器上 10 年里出现了 2000 万用户、8000 万 App。”普通人编程”已经发生了——只是大多数 MIT 之外的人没注意到。

Megan Muniz 少校的登月：升级一支拥有 80 个全球基地的军队。

她负责美国空军 AI 加速器的教育研究。她展示的数字让在场所有人愣住——超过 200 种空军专业、80 多个全球基地、军衔跨度从新兵到 30 年老兵。

她留下了登月计划里最让人沉默的一句：

人和 AI 协作，不只是关于”你怎么和聊天机器人互动”。

它的本质是——我们可能在和一个 AI 智能体并肩战斗。

我们怎么训练人去做这件事？怎么让他们信任一个他们字面意义上要并肩作战的智能体？

那个无人回答的问题：所有权

主持人 Philip 在最后的讨论里抛出了一个问题——

如果”未来的编程语言是英语”——那提供这个翻译服务的人，会立刻变得极其有权力。但实际情况是，能造这种模型的，只有几家私人公司。

Pattie 说出了她的不安：

现在所有这些技术，基本上只有私营公司、大公司有能力造、训练、部署。他们控制技术、可以心血来潮地修改。

Megan 给出了空军视角下最朴素的承认：

国防部没法自己造这个。我们没有那么多算力，没有那么多人。

这个问题留在了那里——

阿波罗计划是国家级登月。AI 教育的登月，应该由谁来发起？

如果答案是”那几家公司”——那已经不是我们的登月了。

核心收获：你现在拥有了什么

读完这篇文章，你应该带走七个具体的判断尺：

1. Papert 式的提问——这个 AI 教育产品，是把孩子当成被优化的对象，还是当成创造者？

2. 能力 vs 赋能——这个产品在卖技术指标，还是让一个具体的人做到一件以前做不到的事？

3. 学习是社会活动——任何”做个 App 就改变教育”的承诺都会失败。真正的改变发生在人与人之间，需要和教育者、学习者、家庭长期合作。

4. 把”作弊”重新定义为”绕过有用认知”——别问”怎么防 AI”，问”哪些认知必须保护它不被绕过”。

5. Dirk 的三种可信度等级——盲信 vs 代码可验证 vs 真理函数已知。用任何 AI 输出之前，先问自己处在哪一类。

6. 溯源比答案重要——这是 AI 时代最关键的元能力。它对抗幻觉，也对抗多数原则的伪安全感。

7. Janet 的反向设计三步——目标在前，评估第二，教学最后。先自己用一遍工具，再决定教什么。

这七个判断的最简洁概括，来自 Valdemar Dhanru 在研讨会闭幕时留下的那句话——

不是要造更聪明的 AI。

是我们和 AI 一起变聪明。

它在一句话里筑起了边界——

•

不是 AI 替我们思考（这是大多数产品在做的）

•

不是我们崇拜 AI（这是大多数用户在做的）

•

而是 AI 让我们自己变得更敏锐、更有判断力、更不容易被骗

最后留一个问题给你：

你今天用 AI 做的所有事——

是在让你的判断力变强，

还是在让你的判断力变弱？

如果是前者，你在和 AI 一起变聪明。

如果是后者——

你正在被那台机器掏空。

而判断这件事的责任，最终不在 OpenAI、不在 Anthropic、也不在你的老师手上。

它在你手上。