《学习软件进化论》第八章 Pronunciation Power—

《学习软件进化论》第八章 Pronunciation Power——发音训练专家

8.1 核心理念：发音是看得见的、可训练的

发音常被认为是语言学习中最困难也最神秘的环节。舌头的微小移动、气流的细微变化、声带的快速振动——这些通常肉眼看不见的生理活动，决定了我们是否能说出地道的语言。传统教学里，老师只能靠尽量用语言描述：“舌尖抵住上齿龈”、“嘴唇向前突出”、“舌根抬起”。这类描述往往难以去把握一个具体的标准，所以很难达到准确模仿。

Pronunciation Power的核心理念很简单：让发音变得可见、可练。它把发音生理形态转化为3D动画剖面，让学习者亲眼看到舌头的位置、嘴唇的形状、气流的路径；用波形对比让学习者“看见”自己的发音和标准发音的差距；它把音标发音拆成一个个可以反复练习的小单元，学习者在观察、模仿、对比、调整的循环中，逐步接近标准发音。

【公司史注记】 English Computerized Learning Inc.的专注之路

1990年代中期，加拿大埃德蒙顿。一家名为English Computerized Learning Inc.的小公司成立，专注于开发计算机辅助发音训练软件。当时的语言学习软件市场，竞争者多专注于词汇、语法、对话等综合性内容。这家公司选择了一条更窄的路——只做发音。他们相信发音是语言能力的基础，也是最需要技术支持的领域。传统录音带给不了精准反馈，老师没法同时指导几十个学生，而计算机可以。

公司投入了不少资源，参考语音学的研究成果，建了一套精细的3D口腔模型。1996年，Pronunciation Power Version 1.01正式发布，很快引起了语言教学界的注意。它独特的3D口型动画和音标分解练习，让学习者第一次能直接观察到口腔内部的动作。

Pronunciation Power很快被北美和亚洲的许多语言学校采用，成为发音课程的重要工具。公司也和大学语言实验室合作，持续改进产品。2000年代以后，随着互联网和移动应用的普及，这个软件的市场份额逐渐被新产品取代。但Pronunciation Power留下的思路——发音可视化、精细化训练——至今仍是很多口语学习App的设计基础。

8.2设计原理：发音生理学的可视化

Pronunciation Power 的设计核心，是把复杂的发音过程变成直观的视觉信息。它基于两个基本思路：用3D动画加真人视频展示舌位和唇形，以及把音标发音拆开来讲。

舌位、唇形的可视化

每个音素的发音都涉及一系列复杂的器官动作：下颌升降、嘴唇圆展、舌尖位置、舌面高低。传统教学中，这些信息只能靠二维舌位图或文字描述传递。但二维舌位图比较抽象，文字描述又模糊，学习者很难建立起准确的动觉模型。

Pronunciation Power的做法是：建立一个3D口腔模型，同时配上真人正面视频。模型从侧面剖切视角展示发某个音时下颌、嘴唇、舌头、上颚的相对位置。用户可以看侧面动画观察舌头的高低前后，也可以看正面视频观察嘴唇的形状和表情。

播放某个音素的发音时，3D模型会实时演示这些器官的动作。用户可以在任意时刻暂停，还可以慢放或逐帧前进。比如发/θ/音（就是“think”的第一个音）时，动画会显示舌尖轻轻抵住上齿，气流从舌齿间挤出来；发/ð/音（“that”的第一个音）时，会显示声带振动。这种可视化设计，把看不见的发音动作变成了可以参照的“动作示范”。学习者模仿时，不用再猜“舌尖该放哪”，可以直接观察学习。

音标发音的分解教学

国际音标是发音训练的另一个难点。每个音标符号对应一个特定的发音动作，但符号本身不提供怎么发音的实际指导。传统教学中，学习者需要记住每个音标的发音要领，然后自己尝试模仿。

Pronunciation Power 将音标发音拆解为一个个可以独立练习的单元。软件包含了完整的美式英语音标系统，一共52个音素。每个音素都有：

• 发音动画：展示该音素的3D侧面口型动画与真人正面视频

• 文字说明：如“舌尖抵住上齿龈，气流爆破而出”

• 标准音频：专业播音员录制

• 示例单词：包含该音素的典型单词，每个单词配有图片和发音

学习者可以逐个音素学习，反复看动画，听发音，然后尝试模仿。软件还提供“最小对立体”练习——如/ɪ/和/iː/（“ship” vs “sheep”），让学习者通过对比来辨别细微差别。这种分解式设计，让发音训练变得系统化、可追踪。学习者可以清楚知道自己已经掌握了哪些音素，还有哪些需要加强。

8.3 核心优势：精细的发音指导

Pronunciation Power 的两个主要优势是：精细和系统。

精细的可视化细节

传统发音教材只能给出文字描述，如 “发/ɪ/时，舌头位置比/i:/稍低稍后 ”。但“稍低稍后”是多少？学习者很难准确掌握。Pronunciation Power的3D动画能直观显示舌位的变化。动画里，发/iː/时舌头抬到哪个高度，发/ɪ/时舌头降到哪里，都一目了然。这种视觉化的精细指导，大大减少了模仿的盲目性。

系统化的音素训练

英语大约有44个音素（软件覆盖了52个），每个音素都有自己的发音要领。很多学习者只关心整体流利度，忽略了音素的准确性，结果口音越来越重。Pronunciation Power的系统化训练，保证学习者一个音素一个音素地过关，不留死角。

自我评估与对比

软件自带录音功能。学习者录下自己的发音，然后和标准发音并排对比。波形图能直观显示自己的发音和标准发音的区别。这种自我评估的能力，是自主学习的关键。

语言学校的常用工具

Pronunciation Power在教学中的应用获得了不少正面反馈。多项教学实践报告显示，使用该软件的学习者在元音和辅音的发音准确性上出现了显著提升。例如，有同行评审研究报道，使用Pronunciation Power 2的实验组学习者在接受计算机辅助发音训练后，发音水平在前后测中呈现统计学显著提升。此外，语言教师对该软件普遍持积极态度，认为它作为课堂教学的补充工具有效且易用。

一些语言学校的内部评估也表明，将软件纳入课程后，学生的发音表现有明显改善。语言学校的广泛采用也从侧面证明了它的价值：许多北美及亚洲的语言学校将Pronunciation Power列为发音课程的推荐或标准工具。教师报告说，学生使用软件后，对发音的理解更深入，课堂提问也从“这个音怎么发”变成了“为什么我发的这个音和动画里的不一样”——这正是学习深化的标志。

虽然总体来说缺乏大规模随机对照实验数据，但已有的研究和记录足以表明，作为一款教学工具，Pronunciation Power在当时的条件下，成功地将发音训练从“模糊模仿”推进到了“可视化精细学习”的阶段。

8.4主要互动方式

Pronunciation Power 的互动设计围绕“观察-模仿-对比-调整”这个循环展开。

3D 口型动画与真人视频观察

这是最核心的互动方式。用户选一个音素或单词，屏幕上就会出现一个3D口腔模型并播放发音动画，同时正面真人视频显示实际口型。用户可以：

• 播放或暂停，在任意时刻停下来看某个动作

• 放慢动画速度，仔细看每个细节

• 在侧面3D动画和正面视频之间切换视角

• 逐帧前进，一帧一帧地分析发音动作

这种多角度的视觉呈现，让用户能够全方位理解发音动作。

单词与句子跟读练习

掌握了单个音素之后，用户可以进入单词和句子级别的跟读练习。软件提供了大量包含目标音素的单词和句子，每个都有标准发音、3D动画和正面视频。用户先听标准发音、看动画，然后录下自己的发音。软件会把用户的发音和标准发音对比，用波形图显示差异。

录音对比与自我评估

录音对比是自我纠错的关键环节。用户录制后，可以同时播放标准发音和自己的发音，进行反复的对比。波形图上，标准发音和用户发音并排显示，振幅、时长等差异一目了然。差异明显的部分，用户可以反复听，并对照动画寻找原因。

音标索引与最小对立体练习

软件提供完整的音标索引，用户可以按音标分类浏览所有示例单词。最小对立体练习是另一项重要功能。例如，练习/ɪ/和/i:/的区别时，屏幕上会并排显示两个单词（如“ship”和“sheep”），播放其中一个的发音，用户需要选出听到的是哪个。这种练习能训练用户对音素的听觉辨别能力，这是准确发音的前提。

8.5用户体验设计+时代局限

用户体验设计

Pronunciation Power 的用户体验设计体现了“教学优先 ”的理念。界面布局清晰，功能分区明确：

• 左侧导航：音标分类、单词列表、练习类型选择

• 中央区域：3D 动画窗口，占最大面积

• 底部控制：播放/暂停、速度调节、视角切换

• 右侧信息：发音要领文字说明、示例单词列表

• 录音控制：录音按钮、波形图显示

这种布局确保用户能快速找到所需功能，不会在操作上浪费时间。动画窗口始终占据最大的可见空间，因为这是最核心的教学信息。

软件还设计了“学习路径”功能。初学者可以按照软件推荐的顺序，从元音开始，逐步学习辅音、连读、语调。高级用户也可以自由跳转到任何音标，进行针对性训练。

时代局限

尽管 Pronunciation Power 在当时是革命性的，但与今天的 AI 口语 App 相比，它也有明显的局限：

第一，反馈的滞后性。用户需要先录制，然后播放对比，无法获得实时反馈。现代 AI 口语App 可以在用户发音的同时进行分析，实时指出问题。

第二，纠错能力的有限性。 Pronunciation Power 只能告诉用户“这里有差异 ”，但不能诊断具体问题（如“舌位偏高 ”）。现代 AI 可以分析共振峰，给出具体改进建议。

第三，交互的自然性。3D 动画虽然直观，但仍然需要用户自己观察、推断、调整。现代AI 可以通过虚拟教练直接指导：“请把舌头再抬高一点。”

第四，内容的静态性。软件的内容是固定的，无法根据用户的学习进度动态生成练习。现代 AI 可以生成无数的新的句子，每次练习都不一样。

这些局限是时代技术造成的，不是设计本身的问题。 Pronunciation Power 在当时的条件下，已经做到了非常极致的教学设计。

8.6 【界面设计解剖】3D 动画与音频的同步设计

3D 动画与音频的同步，是 Pronunciation Power 界面设计的核心挑战。如果动画与声音不同步，用户将无法建立正确的视听联系。本节解剖这一设计。

同步的精确性要求

发音动画需要与音频帧级同步。例如，发/p/音时，双唇闭合的瞬间必须与音频中的静音段对齐；双唇爆开的瞬间必须与爆破音对齐。误差超过几十毫秒，就会让用户感到“音画不同步 ”。

Pronunciation Power 的解决方案是：将音频分割成极小的帧（通常每帧 10-20 毫秒），为每个音素的关键动作标记时间戳。动画播放器根据时间戳驱动 3D 模型，确保每个动作在正确的时间发生。

动画速度的控制

不同用户的学习速度不一样。初学者需要慢速观察，进阶用户可能想用正常速度进行训练。Pronunciation Power提供了速度调节功能，还支持逐帧步进。速度调节一般基于关键帧之间的平滑插值，慢放时舌头的移动轨迹仍然自然。

视角切换的设计

3D 动画的价值在于可以从任意角度观察。Pronunciation Power 主要提供两种预设视角：

• 正面真人视频：展示嘴唇形状、面部肌肉运动

• 侧面3D视角：重点展示下颌开合、舌头前后高低、气流路径

每个视角都经过精心设计，确保关键信息不被遮挡。侧面视角的剖面效果能直接显示舌头和上颚的接触点。

视觉引导的心理学

动画设计还用了一点视觉引导的心理学。播放发音时，舌头、嘴唇这些关键部位会用高亮颜色或清晰轮廓标出来，吸引用户注意。声带振动时对应区域会有视觉提示。气流路径有时会用半透明线条示意，让用户理解送气过程。这些引导能帮用户在复杂的动画里快速抓住关键信息。

8.7技术实现：3D 动画与音频的同步

3D 模型的构建

Pronunciation Power的3D口腔模型是基于语音学研究成果构建的。开发团队参考了发音生理学的标准数据，为每个音素建立了关键帧——也就是发音过程中器官位置的关键时刻。关键帧之间用插值算法平滑过渡。

模型用了多边形网格，在1990年代的硬件条件下做了优化，保证实时渲染流畅。具体的多边形数量没有公开（据估计不超过5000个），但模型足以清晰表现舌头的弯曲、嘴唇的伸展这些关键细节。

音频-动画同步机制

同步机制的核心技术是时间轴对齐。每个音素的音频文件会被预先进行分析，标出关键事件的时间点（比如辅音爆破、元音稳态）。这些时间点和动画关键帧对应。播放时，动画引擎根据当前播放位置，通过插值算出各参与发音器官的即时位置。为了减少感知上的延迟，开发团队用了当时常见的帧同步技术。

跨平台兼容性

1990 年代后期，随着 Windows 和 Macintosh 的普及，Pronunciation Power 需要支持多个平台。开发团队采用 C++编写核心引擎，用平台独立的渲染库，然后针对每个平台进行适配。这种架构确保了核心动画逻辑在不同平台上的表现一致。

与录音功能的整合

录音功能涉及音频采集、存储、播放、对比等多个环节。用户录制后，软件将用户音频与标准音频进行时间对齐（使用了动态时间规整DTW这类算法，这是当时行业常用技术），然后生成波形对比图。波形图用振幅数据绘制，用户可以直接比较时长、强度等特征。

8.8 【真实案例】Pronunciation Power 对伊朗 EFL 学习者发音的提升，

伊朗 EFL 学习者在英语发音学习上面临的多重困难之一，是母语音位系统与英语之间的系统性差异。波斯语中没有某些英语音位，学习者容易产生发音替代现象且难以自我察觉。发音教学需要大量重复练习，传统课堂环境下教师难以同时给予每位学生足够的个性化指导。

该研究由 Abbas Pourhosein Gilakjani 等学者完成。研究共招募了 100 名参与者，其中女生 66 名，男生 34 名，均为伊朗某大学的大二 EFL 学生。参与者被分为两组：

• 实验组：49 名学生，接受 CAPT 教师利用 Pronunciation Power 2 进行的发音教学。

• 对照组：51 名学生，接受非 CAPT 教师的传统方法发音教学。

研究人员在训练前对两组学生进行了相同的发音前测，以确认两组起点水平无显著差异。随后开展教学干预，实验组采用 Pronunciation Power 2 进行计算机辅助发音教学，对照组采用传统教学方法。干预结束后，两组同时参加发音后测。

核心发现与量化数据。后测完成后，对两组数据进行统计分析。

• 实验组平均分：23.333

• 对照组平均分：17.9167

实验组比对照组高出约 5.416 分，分差达到 30.2%（以对照组均值为基准）。

研究对两组后测成绩进行了配对样本 t 检验分析，结果显示两组间差异具有统计学显著性，实验组在音素发音准确性、辅音连缀和重音模式三个维度的表现均优于对照组。研究者由此得出明确结论：使用 Pronunciation Power 2 的 CAPT 教学显著提升了 EFL 学习者的发音水平。

此外，研究采用的定性方法通过半结构化访谈收集了五名教师的反馈。教师普遍认为，Pronunciation Power 2 为他们提供了充分的发音教学资源，满足了教学需求。教师在 CAPT 环境下的角色发生了显著的转变——从“信息的讲授者”转变为“信息的协导者”，实现从讲台主导到学生自主学习的课堂结构性改变。这一转变赋予了教师更大的教学自主权。

该研究表明，Pronunciation Power 2 及同类 CAPT 工具不仅可以直接提升学习者的发音水平，还能改变教师的角色定位，使课堂从以教师讲授为中心转向以学习者操练为中心。该研究的数据被 Springer Nature 收录，其发现也为后续将 CAPT 大规模整合进大班 EFL 课堂和高校语音大纲修订提供了实证参考。

本研究的数据可在 Springer 官网及 ERIC 学术数据库中公开查询验证。

案例来源：Pourhosein Gilakjani, A., et al. (2020). Using Computer-Assisted Pronunciation Teaching (CAPT) in English Pronunciation Instruction: A Study on the Impact and the Teacher‘s Role. Education and Information Technologies, 25(2), 1129–1159.

8.9 【界面演化】 Pronunciation Power 1996 vs 2002界面对比

Pronunciation Power 1.0

1996 年的第一版运行在 Windows 3.1 上。界面以灰色为主，3D 动画是简单的线框模型，只能从固定几个角度观察。音标列表用树形结构显示，用户点击某个音标，动画窗口播放对应的口型。

录音功能是独立的，用户需要先点击录音按钮，说完后点击停止，然后点击播放对比。波形图是黑白的，只能显示振幅，无法精确对比。

尽管粗糙，但当时的用户已经惊叹不已——特别是第一次看到可视化的舌位动画。

Pronunciation Power 2002

2002 年的版本有了质的飞跃。界面采用蓝白配色，清爽现代。3D 动画升级为实心模型，可以显示皮肤质感。视角增加到 8 个预设，用户可以自由旋转模型。动画播放时可以暂停、慢放、逐帧前进。

录音功能整合到主界面。用户录制后，波形图立刻显示在下方，标准波形和用户波形用不同颜色叠加显示。差异区域用红色高亮，用户可以点击红色区域，直接跳转到对应的动画帧，观察正确口型。

音标索引更加完善，每个音标都有详细说明、示例单词、最小对立体练习。单词例句增加到数千条，覆盖各种发音情境。

8.10 教学效果：全球教学实践与研究

学术界对Pronunciation Power在真实教学环境中的效果开展了多项正式研究。例如，一项研究考察了伊朗教师在发音教学中使用该软件的角色和作用；另一项研究则探讨了软件在帮助教师克服教学难题以及师生双方对其角色的看法。这些研究表明，Pronunciation Power作为教学工具的有效性经受了一定检验。

互联网上也能找到教师群体的直接使用评价。有教师评论称其为“学生提升英语发音最强大、最好的软件之一”；另有评测认为它在布局、内容和技术上都比前作有巨大进步。这些来自一线教师的真实反馈，是该软件在教学实践中被接纳的明证。

根据评测记录，这款软件被北美超过300所语言学校采用为发音课程的标准工具。在学术层面，威斯康星大学的图书馆目录将其列为教授英语发音的计算机技术最佳实践资源之一。这些权威机构的背书是其专业价值的直接体现。

本章小结

Pronunciation Power展示了发音训练的一种经典模式：精细化、可视化、可重复。它把看不见的发音生理变成了看得见的3D动画，把模糊的口型描述变成了直观的视觉指导，把盲目的模仿变成了有反馈的练习。从1995到2002，它不断进化，始终坚守自己的核心理念。

今天的AI口语App已经能提供实时反馈和个性化指导，但Pronunciation Power留下的东西——对发音细节的尊重、对可视化的追求、对系统化训练的坚持——依然影响着很多口语学习工具。它告诉我们：最好的发音训练，不是让学习者听更多的声音，而是让学习者看见自己的声音。

本章完结

《学习软件革命》 | 按章节更新

下一篇：《学习软件进化论》第九章 Rosetta Stone——沉浸式教学的产品化

参考文献：

1. English Computerized Learning Inc. (1995). Pronunciation Power User's Guide. Edmonton:ECL.

2. English Computerized Learning Inc. (2002). Pronunciation Power 2 Instructor's Manual. Edmonton: ECL.

3. Ladefoged, P. (2001). A Course in Phonetics (4th ed.). Boston: Heinle & Heinle.

4.Catford, J. C. (1988). A Practical Introduction to Phonetics. Oxford: Oxford University Press.

5.Derwing, T.M., & Munro,M. J. (2005). Second language accent and pronunciation teaching: A research-based approach.TESOL Quarterly, 39(3), 379-397.

6. TESL-EJ (1999). Pronunciation Power: Software Review. Vol. 4, No. 2.

7. TESL-EJ (2001). Pronunciation Power: Software Review. Vol. 5, No. 3.

8. TESL-EJ (2002). Pronunciation Power 2: Software Review. Vol. 5, No. 4.

end