AI对语言研究和二语教学的启发

我并非技术专业人士，对于AI这样的新兴领域并不擅长，但也愿意尝试去学习并了解AI。机器翻译和自然语言处理从最初的模仿和依靠语法规则，到现在改变为基于统计和围绕向量的处理，整个工作模式乃至整个领域已经彻底改观，发生了翻天覆地的变化。现在无需纠缠于字与词，每个字和每个标点都可以是一个token（详见附记之二）。别家的系统也可以把统计上大概率同现的几个字一起算成一个token，例如成语、多音节词甚至一段惯用的话（例如“我以为”）都可以设置成一个token。不同的设置可能有不同的方便，也会带来计算量的变化。把所有的token关系或联系的信息输入进机器，就可以依靠算法，计算token之间在统计学上的关系，可以获得所需成为合格结构的答案。不需要分词，不需要标注词类，等等，省去了许多麻烦。这些变化实际上是从起点设置开始改变的，语言学也应该从起点上开始思考、开始怀疑，重新审视语言学的研究方法和目的。中文二语教学其实也可以这样去思考，不必作为纯粹的应用者。

当前语言学主要聚焦于理解型的语言学，而产出型语言学根本就没有。所谓的“生成语言学”，这个“生成”只是语言底层到表层的理论设想，符号来符号去，并非真的想产出。因此最后也只能改称形式语言学，是符号形式搭建起来的语言学。乔姆斯基以其数学和哲学的背景，致力于通过符号分析理解人类语言规律，但并未直接指向语言产出或机器应用，与产出型语言学相去甚远，仍然是一种理解型的语言学。真正的生成，或者产出，现在只能是AI的大语言模型。二语教学，也是讲究“产出”的，但不是机器的产出，而是人的第二语言产出。对于二语教学，有效率的正确产出至关重要。而大语言模型作为另一重要产出主体，可以在许多方面给二语教学提供启发性的对比。

现在语言学理论确实很多，但实际上又严重滞后于现实需要。各派理论的分歧与独立意识导致难以整合。语言学缺乏实际应用，导致没有可以测试的标准，也导致难以整合。应用和效用会让分歧在实践中越来越缩小。当前，大语言模型的能力和效用促使语言学界进入思考期，我们将何去何从？中国语言学是抱残守缺，故步自封，还是从起点开始变革？我们正处于转型关键期，要不要从分析性研究转向综合性研究？要不要重视语言实际应用与教学？综合性研究必然是工程性的，或者是与实际应用相关的。二语教学就是实际应用之一，是需要综合性的努力。赵元任先生一辈子关注中文的二语教学，身体力行，许多精力都投入到中文二语教学里。我想，赵先生一定觉得二语教学里能够出真知灼见。当前是个机会，我们应该紧跟科技发展步伐，利用新技术推动自身的变革。

作为共时语言学，大致分为应用语言学（侧重教学）、思辨语言学（哲学性的探讨）和以主流语法学为核心的理解型语言学。然而，主流语法学正面临衰落或挑战，各派理论难以统一。实验语言学被视为一种出路。现在众多语言研究机构纷纷设立“实验”语言学部门，旨在自救，以避免被淘汰。“实验”最早开始于语音学，然而传统的语音实验方法已陷入困境，早被边缘化，甚至放弃。科大讯飞等语音技术公司采用更高效的模式，实现高度逼真的语音产出。因此，对于各种语言实验研究室，笔者持赞许又同时观望的态度。因为新的实验研究需要跨学科知识，而我们这一代的语言学者基本上缺乏这样的素养，而仅仅停留在利用AI大模型又是绝对不够的。

至于中文二语教学，我一向提倡面向实际，淡化语法。从AI的大语言模型中也可以得到启发，AI的学习就是在算法的支持下把语言实例当数据喂给它吃，而人的二语学习其实也是消化语言实例。AI舍弃了语法规则这个从前非常依赖的一步，实现了飞跃。而人如果老是在句法规则里打转，也是学不好二语的。因为语言不是一种预规划的系统，多半是随遇而安的东西，是一种习惯。自然语言里规则的和说不上规则（即例外）的几乎平分秋色。按照规则是学不到真实语感的。大语言模型用token的向量去处理，就是摆脱了传统的语法学、语法规则，等于一个token加上一个向量统计就是一条规则。如果把二语学习也当成一大半规则一小半不规则去学习，当成习惯去学习，那就可以保留更多的语词个性，增加语感的形成。

中文二语学习其实有三种可能的学习工具：语音、汉字和拼音。在没有拼音工具的时候，语音和汉字就是工具。当有了拼音，我们就很容易忽视语音这个更真实的工具。我们现在依赖拼音去学习汉字，把汉字当成了一种目标。其实，跟具体语言联系在一起的语音和拼音不但是工具，其实也都可以成为目标。更自然的教学是从语音到达二语，今天则是通过拼音这个桥梁到达汉字，到达语言。当然也可以通过拼音，跳过汉字到达中文口语。今天数字化技术和AI技术又打开了另一种可能性，在数字转换技术的支持下，可以跳过汉字或手写汉字从拼音实现汉语目标。我提出的全拼音教学和拼音+识字教学就是这样的两种模式。后一种现在已经以“电写汉字”形式在美国广泛开展。在西方，老师们要跟西班牙语、日语等班级抢生源，面临招生的困难。没有学生就没有生计。这是环境逼他们上了梁山。困难的另一面就是，往往逼着人们冲破框框，踏出新路。

而前一种全拼音教学，现在还是设想，也只是一种选项，适合只需口语、无须文字的人士。这也有许多成功的先例。这个设想在数字转换技术、AI技术和电子游戏经验的支持下，完全可以实现。可以创造出“AI掌上听/随身学”工具，摸索出新的教学方式，使学习更加便捷、高效，以适应碎片化的条件。它应该同样有广阔的前景。

我们并不反对在中国境内的教学使用汉字教学，因为国内具有良好的汉字环境。但可以根据学生的不同情况，降低汉字和声调的准确度。同时，也不必反对在国外使用不同的教学工具和路径。它们都有助于中文/汉语的传播。

跟科技界相比，中国的语言学和二语教学都缺乏想象力，太崇信乔姆斯基的“获得/习得”理论。我们完全可以根据新的技术条件，踏出一条新路并提出适合中文教学的理论。新的高度、新的台阶在等待我们。

【附记】

之一：本文是作者在2024年11月山东大学《语言教育与文化传播》集刊组织的咨询会上的发言。2025年整理修改后发表于该刊2026年第三辑（1-6页）。AI发展迅猛，等文章发表，AI又朝前飞奔了很大的一段距离。因此，再写了几段说明，代替注解，以赶上时代。

之二：有关部门现在正式确定token译为“词元”。然而这个翻译并不完美，只能是凑合。许多学界的人对此提出了不同看法。Token并不是词。只是一个计算和处理单位。可大可小。在汉语里基本就是“字”和标点（=停顿），还可以是更大的固定短语。为什么AI界要放弃西方传统的word而改用token呢？因为AI界已经认识到word的局限性。Word对于有屈折形态的语言是合适的，但对于世界另一些语言却是没有说服力的。其中汉语就是一个。汉语的字（语素）和词（word）是个永远的纠缠关系，剪不断理还乱。如果采用word做计算单元，那就会乱成一锅粥。还有一些语言的word（词）和sentence（句）合二为一，用word做AI计算单元，等于放弃计算。因此，AI界就采取了一个工程学的办法，绕过word，在不同语言里寻找最便于分割计算的东西，命名为token，这样就在计算单位上越过了争不清楚的阻碍，统一了所有语言的工程计算单位。毫无疑问，这非常聪明。

另一个可能的考虑是：token是相对于type的。token是例，是符号之例，type是类，是符号之类，这是一组相对的术语。大语言模型喂入的语料都是实际使用的例，而不是类。使用token显然是为了避开现代语言学关于语法是类（type）的理论。而这个理论引起了无休止的争论。对于工程意义上的AI来说，这是不符合工程需要。工程不需要扯皮，而需要实际推动。token的翻译应该反映这个关键。

汉语是一个以已有词素（字）并基本按照句法关系去组成新语的。这种办法传统对于事物是完全足够应对，但面对新科技往往就不能完全应对。因此我们才需要音译。比如我们可以音译加上点谐意因素，音译成“豆肯”或“豆坑”。如果意译，那么应该尽量回避“词（word）”的不当联想。如果考虑到token的基本意义是实例或符号之例，那么“例元”或有朋友建议的“符元”，也许是更为合适的译名。

之三：座谈之时，笔者尚未看到“数智”一词。本文发表于该刊“数智时代语言学研究的传承与创新”多人谈栏目之下。显然，“数智”技术已经涉及到二语教学了。这应该是时代的必然。“数智”是利用“数字技术”“人工智能”二者的成分构成的新词。内涵除这两项外，还可以包含“云技术”。“数智”可以组成“数智化”“数智技术”和“数智时代”等等。当代是一个以数智技术为标志的新科技时代。在二语教学方面，数智技术当然也会是一个标志，但却不是所有方面都可以“数智化”。数智化带有普遍化并主体化的含意，主要用于第二产业。但第三产业的二语教学是人对人的活动，数智技术只能在局部辅助教学，并不能完全代替人对人的教学。笔者认为，在二语教学上“数智赋能”的提法似乎更为稳妥。

之四：因为是座谈，所以没有说明有些说法的来源。此外，本次转载前也顺便调整了一下个别文字。请予理解。

作者谨记2026.5.14

（山东大学教育高等研究院）