《学习软件进化论》上篇·第一次革命:理念与技术的五大遗产第一章记忆科学的数字化:从艾宾浩斯到间隔重复-夜雨聆风

《学习软件进化论》上篇·第一次革命:理念与技术的五大遗产第一章记忆科学的数字化:从艾宾浩斯到间隔重复

1885 年，柏林。一间简朴的书房里，一位 35 岁的德国学者端坐在桌前，面前堆着一叠又一叠写满奇怪字母组合的纸片。这些纸片上印着“zog” 、“xot” 、“gij” 、“nov”之类的三字母组合— —它们毫无意义，也几乎无法唤起任何联想。

这位学者叫赫尔曼·艾宾浩斯。他正在进行一项前所未有的实验：用自己当实验对象，试图揭开人类记忆的奥秘。

在此之前，关于记忆的讨论主要停留在哲学层面。柏拉图以蜡板作比喻，亚里士多德分析回忆机制，奥古斯丁则以经验描述其复杂性。但这些都不是实验科学。记忆被视为心灵的一部分，而非可以测量的对象。

艾宾浩斯选择了不同路径。他受 Gustav Fechner 刚出版的《心理物理学纲要》启发，决定将实验方法引入记忆研究。他创造了一套严格的实验程序：制作数百个无意义音节，编成长短不等的音节序列，一遍遍地诵读，直到能够准确背诵；然后等待一段时间，再尝试重新学习录每次学习所节省的时间。

过程枯燥且漫长。艾宾浩斯一遍遍诵读、记录、间隔、再学习。他记录了无数数据，某种规律开始显现：遗忘在学习之后立即开始，而且遗忘的进程并不均匀——最初遗忘得很快，以后逐渐缓慢。他将这些数据绘制成一条曲线，这就是后来闻名世界的“艾宾浩斯遗忘曲线 ”。一百年后，这条曲线将成为数字记忆工程化的基础。一个叫 Piotr Woźniak 的波兰医学生，将用计算机将这条曲线变成可执行的算法，改变数百万人的学习方式。

本章将追溯这段思想史：从艾宾浩斯的遗忘曲线，到二十世纪记忆理论的演进，再到间隔重复思想的萌芽，最终抵达计算机时代的门槛。

1.1 遗忘曲线的诞生

实验方法的创新

艾宾浩斯首先需要解决的是如何测量记忆的问题。

如果用有意义的材料，比如诗歌或散文，既有的经验会干扰实验结果。某些词句因为具有熟悉的语义而更容易记忆，这就会污染实验数据，使得“记忆”难以被单独观察。

艾宾浩斯的解决方案是构造“无意义音节”——由两个辅音加一个元音组成的三字母组合，如“zog” 、“xot” 、“gij” 、“nov”。这些音节虽然可以被朗读，但不携带任何语义负载，从而在一定程度上隔离了已有知识的影响。他一共构造了约 2300 个这样的音节，并根据一定原则编排以避免潜在的语言联想：同一辅音不得在音节中的相同位置上连续出现，字母排列顺序要避免与常见单词相似。

接下来，艾宾浩斯设计了“节省法”来测量记忆。节省法选择用两次学习的差异来作为度量记忆的指标，而不是直接测量遗忘量。他先反复诵读一个音节序列直到能无误背诵，记录学习次数；然后等待一段时间，再重新学习同一序列，记录第二次学习所需的次数。第二次学习比第一次节省的次数，就是记忆保持量的指标——“节省量”。

例如，第一次学习可能需要 12 次诵读，一天后再学习可能只需要 5 次，节省了7 次。这7次就是“节省量 ”，即为记忆的保持程度的一种近似表达。

这一方法并不直观，但在当时，它提供了一种可重复、可量化的路径。

遗忘曲线的发现

通过“节省法”，艾宾浩斯测试了不同时间间隔后的记忆保持量，得到了如下数据：

时间间隔	节省量（保持量）
20 分钟	58.2%
1 小时	44.2%
8-9 小时	35.8%
1 天	33.7%
2 天	27.8%
6 天	25.4%
31 天	21.1%

将这些数据绘制为曲线后，一个关键特征变得清晰：遗忘速度并不恒定。曲线在最开始急剧下降——20 分钟内遗忘了40%以上；然后下降速度逐渐放缓；31 天后，仍然有约 21%的记忆内容被保留。

这条曲线揭示了遗忘的基本规律：先快后慢。遗忘在学习之后立即开始，而且最初遗忘速度很快，以后逐渐减慢。这种“先快后慢”的模式，成为后续研究的基准假设之一。

需要指出的是，这一结论并非直接适用于所有记忆情境。材料类型、学习方式、个体差异都会产生影响。但作为统计意义上的趋势，它具有稳定性。

学术界的反应

艾宾浩斯在 1885 年出版的《记忆：对实验心理学的贡献》一书中公布了这些发现。这本书在当时反响并不强烈——毕竟，用无意义音节研究记忆，在许多人看来过于人工化，与现实生活中的记忆相去甚远。

但随着时间的推移，艾宾浩斯的方法和发现逐渐被认可。他是第一个用实验方法研究高级心理过程的人，为记忆研究开辟了全新的道路。他的遗忘曲线成为心理学教科书中的经典内容，至今仍被引用。

更重要的是，艾宾浩斯的工作提出了一个根本性问题：既然遗忘是有规律的，那么能否利用这个规律来对抗遗忘？如果知道某个时间点记忆即将大量遗忘，提前进行复习，能否阻止遗忘的发生？

这个问题，等待了一百年才得到真正的回答。

1.2 记忆研究的一百年

从艾宾浩斯到 20 世纪中叶，记忆研究经历了一系列重要进展。心理学家们不再满足于描述遗忘曲线，而是试图构建记忆的理论模型，解释记忆是如何工作的。

巴特利特的图式理论

1932 年，英国心理学家弗雷德里克·巴特利特出版了《记忆：实验社会心理学研究》一书，对艾宾浩斯的传统提出了挑战。巴特利特认为，用无意义音节研究记忆，脱离了真实的生活情境，无法揭示记忆的真正本质。

巴特利特用民间故事作为实验材料。他让被试阅读一个印第安民间故事《幽灵之战》，然后在不同时间间隔后让被试回忆。结果发现，被试的回忆充满了错误——他们省略了不熟悉的细节，改变了故事的逻辑，使故事更符合自己的文化背景。

巴特利特由此提出，记忆不是被动的复制，而是主动的“建构 ”。人们在记忆中会调用已有的知识结构——“ 图式”——来组织新信息。图式是从过去经验中形成的知识框架，它影响我们如何编码新信息，也影响我们如何回忆旧信息。

巴特利特的理论对后来的认知心理学产生了深远影响。它揭示了记忆的主动性，也解释了为什么不同人对同一件事会有不同记忆。

米勒的神奇数字 7±2

1956 年，乔治·米勒发表了一篇影响深远的论文——《神奇数字 7±2：人类信息加工能力的某些局限》。米勒发现，人类短时记忆的容量是有限的，平均只能保持 7±2 个信息单位。

这个“信息单位”可以是数字、字母、单词，也可以是更大的“组块 ”。例如，一串数字“1-9-4-9-1-0-0-1”有 8 个数字，可能超出记忆容量；但如果将它们组合成“1949” 、“1001”两个年份，就变成了两个组块，可以轻松记住。

米勒的研究揭示了工作记忆的基本特征：容量有限，但可以通过“组块化”策略来扩展。这个发现对教育实践有重要启示——教学应当帮助学习者建立知识组块，而不是灌输零散信息。

阿特金森-谢夫林的多重存储模型

1968 年，理查德·阿特金森和理查德·谢夫林提出了“记忆的多重存储模型 ”，将记忆分为三个子系统：

• 感觉记忆：保持时间不足 2 秒的记忆，它保持的是刺激的物理映象，容量几乎无限，但信息很快消失。

• 短时记忆：保持时间不超过 1 分钟的记忆，是一种工作记忆，容量为7±2 个组块，主要以听觉形式编码。

• 长时记忆：保持时间在 1 分钟以上的记忆，容量几乎是无限的，有语义、意象等多种编码方式。

这个模型用流程图描述了信息加工的过程：感觉记忆中的信息一旦受到注意，就会转入短时记忆；短时记忆中的信息经过复述，则会转入长时记忆。

多重存储模型提供了一个清晰的框架，将记忆研究从零散的发现整合为一个系统。它后来虽然受到诸多批评和修正，但仍然是记忆心理学中最有影响力的理论之一。

1.3 计算机的出现

从理论到模拟

20 世纪50 年代，计算机的出现为记忆研究带来了全新的可能性。计算机不仅可以模拟人类的认知过程，还可以执行复杂的计算，这正是动态模拟遗忘曲线所需要的。

早期计算机辅助教学（ CAI）系统开始尝试用计算机来教学。1958 年，IBM 开发了第一个计算机辅助教学系统，用于教授小学生二进制算术。1960 年代，斯坦福大学和伊利诺伊大学等机构相继开发了更复杂的教学系统。

但这些早期系统本质上只是“ 电子练习册 ”。它们呈现题目，接收答案，给出反馈，但完全不理解学生是如何学习的，更谈不上个性化安排复习。学生做题的顺序是固定的，复习的间隔是随意的，算法完全没有参与。

遗忘曲线的数字化潜力

然而，计算机的出现至少证明了一件事：遗忘曲线可以被数字化。艾宾浩斯的曲线是一个统计平均，但计算机可以为每个学习者、每个知识点生成个性化的遗忘曲线。它可以记录每次学习的时间，预测下次复习的最佳时机。

这个潜力在 1960-70 年代已经被一些研究者注意到。心理学家们开始研究“间隔效应 ” （spacing effect）——分散学习比集中学习效果更好的现象。但他们大多停留在实验层面，用统计方法比较不同间隔的效果，而不是用算法来动态调整间隔。

真正的突破需要等到 1980 年代，当个人电脑开始普及，当有人既有心理学的洞见又有编程的能力，才能将遗忘曲线从理论转化为可执行的算法。

1.4 间隔重复思想的萌芽

梅尔顿的间隔效应研究

1970 年，阿瑟·梅尔顿在《言语学习与言语行为杂志》上发表了一篇重要论文，系统总结了关于“间隔效应”的研究。梅尔顿发现，当学习被分散到多个时间段时，记忆效果远远好于集中在一段时间内学习。

例如，学习一组单词，如果连续重复 10 次，可能几天后就忘得差不多了；但如果将这10次重复分散到一周内，一周后还能记住大部分。这种现象被称为“间隔效应 ”。

梅尔顿的研究还发现，间隔的长度也有最优范围。间隔太短（几秒内重复），效果接近于集中学习；间隔太长（几天甚至几周），可能已经遗忘太多，需要重新学习。最优的间隔应该是逐渐拉长的——第一次复习在几小时后，第二次在一天后，第三次在一周后，以此类推。

这已经非常接近后来 SuperMemo 的核心思想。但梅尔顿的研究仍然是描述性的——他发现了现象，但没有提出实现的方法。

从描述到规范

1970 年代末，一些研究者开始尝试将间隔效应转化为可操作的复习策略。兰德·鲍尔和罗伯特·比约克在 1978 年提出了“扩展式检索”策略：第一次复习在学习后立即进行，第二次复习在第一次后稍长间隔，第三次再延长，以此类推。

他们的研究表明，这种扩展式检索比固定间隔检索更有效。因为每次成功检索都在一个稍长的间隔后进行，记忆被反复激活，逐渐巩固。

鲍尔和比约克的工作为后来的间隔重复算法提供了重要的理论依据。但他们仍然没有提出一个可执行的算法——如何根据每个学习者的表现动态调整间隔？如何为成千上万个知识点分别安排复习时间？这些问题需要计算机来解决。

计算机与心理学的交汇

1980 年代初，个人电脑开始进入大学和研究机构。一些有编程背景的心理学家开始尝试将间隔重复思想实现为计算机程序。其中最著名的尝试来自德国心理学家塞巴斯蒂安·莱特

纳，他在 1972 年发明了“莱特纳系统”——一个基于五个盒子的闪卡学习系统。

莱特纳系统的工作原理是：学习者将闪卡放入五个盒子中，第一个盒子每天复习，第二个盒子每两天复习，第三个盒子每周复习，以此类推。如果一张卡片被正确回忆，就移到下一个盒子；如果错误，就移回第一个盒子。

这个系统虽然简陋，但已经具备了间隔重复的核心要素：不同卡片有不同的复习频率，复习间隔根据表现动态调整。莱特纳系统在 80 年代广为流行，成为许多语言学习者的工具。

但莱特纳系统仍然是手工操作的，无法精确计算每个知识点的最优间隔。真正的突破，需要等到 1985 年，当波兰医学生 Piotr Woźniak 开始编写他的第一个 Basic 程序。

1.5 从思想到算法

1985 年，克拉科夫

Piotr Woźniak 并不是心理学家，也不是计算机科学家，他只是一个普通的医学生，正在为期末考试发愁。医学词汇量庞大，他发现自己昨天背过的内容今天又忘了。他问自己：能不能用计算机算法来安排复习，让记忆效率最大化？

Woźniak 查阅了当时可及的所有文献——艾宾浩斯的遗忘曲线、米勒的短时记忆理论、梅尔顿的间隔效应研究、莱特纳的闪卡系统。他意识到，所有这些研究的共同指向是：复习的最佳时机是在遗忘即将发生的那一刻。

但问题在于，每个人、每个知识点的遗忘速度都不同。有人对某些单词记得牢，有人忘得快；同一个单词，第一次学后可能一天就忘，第三次学后可能一周才忘。固定的间隔无法满足个性化的需求，必须有一种算法，能够根据每个人的表现动态调整。

首次尝试

Woźniak 在简陋的8 位微计算机上用 Basic 语言编写了第一个程序。这个程序的功能很简单：记录每个单词的复习时间，以及每次复习时是否成功回忆。然后根据这些数据，计算下次复习的最佳时间。

最初的算法非常粗糙：如果成功回忆，间隔乘以一个系数；如果失败，间隔缩短。但系数的选择完全靠直觉，效果并不理想。Woźniak 没有放弃，他把自己当成实验对象，每天花费数小时记录数据，反复调整参数，持续了整整两年。

1987 年，他终于找到了一个相对稳定的公式，这就是后来被称为SM-2 的算法。SM-2 算法的核心是三个变量：重复次数、难度因子、复习间隔。每次复习后，算法根据用户自评的质量调整难度因子，并根据难度因子计算下次复习间隔。

SM-2的简洁和有效，使它迅速在早期用户中传播开来。它不需要复杂的硬件，只需要一台普通的个人电脑；它不需要专业的心理学知识，只需要用户诚实地评价自己的回忆质量。

理念到算法的跨越

从艾宾浩斯到 Woźniak，记忆科学走过了一百年的历程。艾宾浩斯绘制了遗忘曲线，证明了遗忘是有规律的；巴特利特揭示了记忆的建构性，米勒发现了短时记忆的容量，阿特金森和谢夫林构建了记忆的模型，梅尔顿和鲍尔研究了间隔效应。但所有这些研究，都停留在“描述”层面——它们告诉我们记忆是什么，却没有告诉我们“怎么做 ”。

Woźniak 的贡献，在于将描述性的理论转化为规范性的算法。他不仅知道遗忘是有规律的，还知道如何利用这个规律来对抗遗忘；他不仅知道间隔效应存在，还知道如何安排间隔来最大化效果。

这个跨越，是记忆科学数字化的关键一步。从此，记忆不再是只能被研究的神秘现象，而变成了可以被管理、被优化的工程问题。

1.6 现代记忆科学的新发展

神经科学的视角

1990 年代以来，神经科学的发展为记忆研究提供了全新的视角。功能性磁共振成像（fMRI）和脑电图（EEG）等技术，让研究者可以直接观察记忆发生时大脑的活动。

研究发现，记忆的形成涉及“长期增强作用 ”（LTP）——当神经元反复被刺激时，它们之间的连接会增强。这个过程发生在海马体、前额叶皮层等多个脑区。

更重要的是，记忆巩固不是一次性完成的。新形成的记忆最初存储在海马体，然后在睡眠中逐渐转移到大脑皮层，形成长期记忆。这个过程可能需要数天甚至数周。睡眠对记忆巩固至关重要——在深度睡眠阶段，大脑会“重放”白天的经历，强化神经连接。

这些发现为间隔重复提供了神经科学的解释：每次复习都重新激活记忆的神经回路，触发长期增强作用；而两次复习之间的间隔，正是记忆巩固所需要的时间。间隔太短，巩固还未完成；间隔太长，记忆可能已经消退。

认知科学的新模型

认知科学家也对记忆模型进行了持续修正。阿兰·巴德利在 1974 年提出了“工作记忆”模型，取代了阿特金森-谢夫林的“短时记忆”概念。工作记忆不仅是一个存储系统，更是一个加工系统，包括中央执行系统、语音环路和视空间画板三个部分。

2001 年，尼尔森·考恩提出了“神奇数字 4±1”的修正，认为工作记忆的容量可能只有 4 个组块，而不是米勒所说的 7 个。这个修正得到了后续实验的支持，也引发了新的研究。

实践应用的发展

记忆科学的新发现，很快被应用到教育实践中。研究者发现，间隔重复可以显著提高学习效率，尤其是在词汇学习领域。Bahrick 等人的长期追踪研究表明，通过间隔重复学习的词汇，可以在 8 年后仍然保持较高水平。

但更重要的是，这些研究揭示了一个核心原则：学习不是一次性事件，而是一个时间序列管理过程。真正的学习，不是在学习的那一刻发生的，而是在学习与学习之间的间隔中发生的。记忆的巩固需要时间，需要睡眠，需要适当的复习间隔。

这个原则，对教育实践有深远的影响。它意味着，我们不能只关注“怎么教 ”，更要关注“什么时候复习”；不能只关注课堂上的学习，更要关注课后的间隔安排。一个好的学习系统，应该是一个时间管理系统，而不仅仅是一个内容传递系统。

1.7 理念的遗产

从 SuperMemo 到 Anki

SM-2 算法诞生后，迅速在学术圈和爱好者中传播。Woźniak 将 SuperMemo 作为免费软件发布在互联网上，吸引了大量用户——医学生、语言学习者、程序员……他们根据自己的需求，创建了各种词库，分享使用心得。

2006 年，澳大利亚程序员 Damien Elmes 开发了一款名为 Anki 的开源闪卡软件。Anki 直接采用了 SM-2 算法作为核心引擎，并增加了许多现代功能——云端同步、多媒体支持、插件系统。Anki 迅速成为最流行的间隔重复软件，用户遍及全球。

Memrise 、Duolingo 等现代语言学习App 也融合了间隔重复理念。虽然它们的算法各有调整，但核心思想始终来自 SM-2：通过动态调整复习间隔，让每次复习都发生在遗忘边缘。

理念的普适性

间隔重复的价值不仅限于语言学习。医学生用它记忆解剖术语，法学生用它背诵法律条文，程序员用它学习编程语法，音乐家用它练习乐理知识。任何需要记忆的领域，都可以从间隔重复中受益。

更重要的是，间隔重复改变了人们对学习的认知。它告诉我们，记忆不是天赋，而是技术；不是随机和偶然，而是有规律的算法。每个人都有能力记住海量信息，只要找到正确的方法。

算法的力量与局限

但间隔重复也有其局限。它能帮你记住，但不能帮你理解；它能强化记忆，但不能生成意义。真正的学习，需要算法与理解的结合，需要记忆与思考的互动。

这也是本系列文章的立意所在。我们将看到，1990 年代的语言学习软件，不仅在算法上有所突破，在设计理念、交互方式、课程结构上也各有创新。它们共同构成了一个完整的生态系统，为后来者提供了丰富的理念传承。

本章小结

从艾宾浩斯的遗忘曲线到 Woźniak 的SM-2 算法，记忆科学走过了一百多年的历程。艾宾浩斯证明了遗忘是有规律的；巴特利特揭示了记忆的建构性；米勒发现了短时记忆的容量；阿特金森和谢夫林构建了记忆的模型；梅尔顿和鲍尔研究了间隔效应；而 Woźniak 最终将这些理论转化为可执行的算法。

这一百年，是记忆从哲学思辨走向科学实验，再从科学实验走向工程实践的一百年。它告诉我们：记忆不是神秘的天赋，而是可以被理解、被优化、被管理的认知过程。

但算法只是工具，真正的学习还需要理解的参与。在接下来的章节中，我们将看到其他软件如何用不同的方式，帮助学习者在记忆的基础上，走向真正的理解。

本章完结

《学习软件革命》 | 按章节更新

下一篇：《学习软件革命》第二章听觉学习的革命：从听力训练到口语流利

参考文献：

1.Ebbinghaus, H. (1885). Memory: A Contribution to Experimental Psychology. New York: Dover.

2.Bartlett, F. C. (1932). Remembering: A Study in Experimental and Social Psychology. Cambridge: Cambridge University Press.

3.Miller, G. A. (1956). The magical number seven, plus or minus two: Some limits on our capacity for processing information. Psychological Review, 63(2), 81-97.

4.Atkinson, R. C., & Shiffrin, R. M. (1968). Human memory: A proposed system and its control processes. Psychology of Learning and Motivation, 2, 89-195.

5.Melton, A. W. (1970). The situation with respect to the spacing of repetitions and memory. Journal of Verbal Learning and Verbal Behavior, 9(5), 596-606.

6.Baddeley, A. D., & Hitch, G. (1974). Working memory. Psychology of Learning and Motivation, 8, 47-89.

7.Landauer, T. K., & Bjork, R. A. (1978). Optimum rehearsal patterns and name learning. In M. M. Gruneberg, P. E. Morris, & R. N. Sykes (Eds.), Practical Aspects of Memory (pp. 625-632). London: Academic Press.

8.Cowan, N. (2001). The magical number 4 in short-term memory: A reconsideration of mental storage capacity. Behavioral and Brain Sciences, 24(1), 87-114.

9. Woźniak, P. (1995). Optimization of Learning. Master’s Thesis, Poznań University of Technology.

end