史有為 | AI对语言研究和二语教学的启发

点击蓝字

关注我们

对语言研究和二语教学的

启发

史有为

（山东大学教育高等研究院）

【说明】

本文是作者在2024年11月山东大学《语言教育与文化传播》集刊组织的咨询会上的发言。整理修改后发表于该刊2026年第三辑（1-6页）。AI发展迅猛，等文章发表，AI又朝前飞奔了很大的一段距离。因此，只能按2024年前后几个月的形势去读这篇短文。

作者2026.5.12

我并非技术专业人士，对于AI这样的新兴领域并不擅长，但也愿意尝试去学习并了解AI。机器翻译和自然语言处理从最初的模仿和依靠语法规则，到现在改变为基于统计和围绕向量的处理，整个工作模式乃至整个领域已经彻底改观，发生了翻天覆地的变化。现在无需纠缠于字与词，每个字和每个标点都可以是一个token（参见文后的【附言】）。别家的系统也可以把统计上大概率同现的几个字一起算成一个token，例如成语、多音节词甚至一段惯用的话（例如“我以为”）都可以设置成一个token。不同的设置可能有不同的方便，也会带来计算量的变化。把所有的token关系或联系的信息输入进机器，就可以依靠算法，计算token之间在统计学上的关系，可以获得所需成为合格结构的答案。不需要分词，不需要标注词类，等等，省去了许多麻烦。这些变化实际上是从起点设置开始改变的，语言学也应该从起点上开始思考、开始怀疑，重新审视语言学的研究方法和目的。中文二语教学其实也可以这样去思考，不必作为纯粹的应用者。

当前语言学主要聚焦于理解型的语言学，而产出型语言学根本就没有。所谓的“生成语言学”，这个“生成”只是语言底层到表层的理论设想，符号来符号去，并非真的想产出。因此最后也只能改称形式语言学，是符号形式搭建起来的语言学。乔姆斯基以其数学和哲学的背景，致力于通过符号分析理解人类语言规律，但并未直接指向语言产出或机器应用，与产出型语言学相去甚远，仍然是一种理解型的语言学。真正的生成，或者产出，现在只能是AI的大语言模型。二语教学，也是讲究“产出”的，但不是机器的产出，而是人的第二语言产出。对于二语教学，有效率的正确产出至关重要。而大语言模型作为另一重要产出主体，可以在许多方面给二语教学提供启发性的对比。

现在语言学理论确实很多，但实际上又严重滞后于现实需要。各派理论的分歧与独立意识导致难以整合。语言学缺乏实际应用，导致没有可以测试的标准，也导致难以整合。应用和效用会让分歧在实践中越来越缩小。当前，大语言模型的能力和效用促使语言学界进入思考期，我们将何去何从？中国语言学是抱残守缺，固步自封，还是从起点开始变革？我们要不要正处于转型关键期，需从分析性研究转向综合性研究？要不要重视语言实际应用与教学？综合性研究必然是工程性的，或者是与实际应用相关的。二语教学就是实际应用之一，是需要综合性的努力。赵元任先生一辈子关注中文的二语教学，身体力行，许多精力都投入到中文二语教学里。我想，赵先生一定觉得二语教学里能够出真知灼见。当前是个机会，我们应该紧跟科技发展步伐，利用新技术推动自身的变革。

作为共时语言学，大致分为应用语言学（侧重教学）、思辨语言学（哲学性的探讨）和以主流语法学为核心的理解型语言学。然而，主流语法学正面临衰落或挑战，各派理论难以统一。实验语言学被视为一种出路。现在众多语言研究机构纷纷设立“实验”语言学部门，旨在自救，以避免被淘汰。“实验”最早开始于语音学，然而传统的语音实验方法已陷入困境，早被边缘化，甚至放弃。科大讯飞等语音技术公司采用更高效的模式，实现高度逼真的语音产出。因此，对于各种语言实验研究室，笔者持赞许又同时观望的态度。因为新的实验研究需要跨学科知识，而我们这一代的语言学者基本上缺乏这样的素养，而仅仅停留在利用AI大模型又是绝对不够的。

至于中文二语教学，我一向提倡面向实际，淡化语法。从AI的大语言模型中也可以得到启发，AI的学习就是在算法的支持下把语言实例当数据喂给它吃，而人的二语学习其实也是消化语言实例。AI舍弃了语法规则这个从前非常依赖的一步，实现了飞跃。而人如果老是在句法规则里打转，也是学不好二语的。因为语言不是一种预规划的系统，多半是随遇而安的东西，是一种习惯。自然语言里规则的和说不上规则（即例外）的几乎平分秋色。按照规则是学不到真实语感的。大语言模型用token的向量去处理，就是摆脱了传统的语法学、语法规则，等于一个token加上一个向量统计就是一条规则。如果把二语学习也当成一半规则一半不规则去学习，当成习惯去学习，那就可以保留更多的语词个性，增加语感的形成。

中文二语学习其实有三种可能的学习工具：语音、汉字和拼音。在没有拼音工具的时候，语音和汉字就是工具。当有了拼音，我们就很容易忽视语音这个更真实的工具。我们现在依赖拼音去学习汉字，把汉字当成了一种目标。其实，跟具体语言联系在一起的语音和拼音不但是工具，其实也都可以成为目标。更自然的教学是从语音到达二语，今天则是通过拼音这个桥梁到达汉字，到达语言。当然也可以通过拼音，跳过汉字到达中文口语。今天数字化技术和AI技术又打开了另一种可能性，在数字转换技术的支持下，可以跳过汉字或手写汉字从拼音实现汉语目标。我提出的全拼音教学和拼音+识字教学就是这样的两种模式。后一种现在已经以“电写汉字”形式在美国广泛开展。在西方，老师们要跟西班牙语、日语等班级抢生源，面临招生的困难。没有学生就没有生计。这是环境逼他们上了梁山。困难的另一面就是，往往逼着人们冲破框框，踏出新路。

而前一种全拼音教学，现在还是设想，也只是一种选项，适合只需口语、无须文字的人士。这也有许多成功的先例。这个设想在数字转换技术、AI技术和电子游戏经验的支持下，完全可以实现。可以创造出“AI掌上听/随身学”工具，摸索出新的教学方式，使学习更加便捷、高效，以适应碎片化的条件。它应该同样有广阔的前景。

我们并不反对在中国境内的教学使用汉字教学，因为国内具有良好的汉字环境。但可以根据学生的不同情况，降低汉字和声调的准确度。同时，也不必反对在国外使用不同的教学工具和路径。它们都有助于中文/汉语的传播。

跟科技界相比，中国的语言学和二语教学都缺乏想象力，太崇信乔姆斯基的“获得/习得”理论。我们完全可以根据新的技术条件，踏出一条新路并提出适合中文教学的理论。新的高度、新的台阶在等待我们。

2025.3.5定稿

【附言】

关于token的感想

Token现在被有关部门确定译为“词元”。然而这个翻译并不完美，只能是凑合。汉语是一个以已有词素（字）基本按照句法关系去组成新语的。而这两个字可以应对传统的事物，但往往不能完全应对新科技的概念。Token并不是词。只是一个计算和处理单位。可大可小。在汉语里基本就是“字”和标点（=停顿），还可以是更大的固定短语。token是相对于type的，是例和类/型的相对。AI界使用token显然是为了避开语言学关于语法是类（type）的规则。由于完全是以“例”来运作，消除了由“类化”带来的无穷尽的争吵，大模型才能迅速地实现成功。因此更加慎重地思考之后，准确的翻译也许是“例元”。是语言的例，而且还在一个处理“单元”。当然也可以音译，可以加入一点谐音因素。例如音译成“豆坑”，避免因“词元”带来的不当联想。

史有为

附言

2026.5.12