我并非技术专业人士,对于AI这样的新兴领域并不擅长,但也愿意尝试去学习并了解AI。机器翻译和自然语言处理从最初的模仿和依靠语法规则,到现在改变为基于统计和围绕向量的处理,整个工作模式乃至整个领域已经彻底改观,发生了翻天覆地的变化。现在无需纠缠于字与词,每个字和每个标点都可以是一个token(详见附记之二)。别家的系统也可以把统计上大概率同现的几个字一起算成一个token,例如成语、多音节词甚至一段惯用的话(例如“我以为”)都可以设置成一个token。不同的设置可能有不同的方便,也会带来计算量的变化。把所有的token关系或联系的信息输入进机器,就可以依靠算法,计算token之间在统计学上的关系,可以获得所需成为合格结构的答案。不需要分词,不需要标注词类,等等,省去了许多麻烦。这些变化实际上是从起点设置开始改变的,语言学也应该从起点上开始思考、开始怀疑,重新审视语言学的研究方法和目的。中文二语教学其实也可以这样去思考,不必作为纯粹的应用者。
当前语言学主要聚焦于理解型的语言学,而产出型语言学根本就没有。所谓的“生成语言学”,这个“生成”只是语言底层到表层的理论设想,符号来符号去,并非真的想产出。因此最后也只能改称形式语言学,是符号形式搭建起来的语言学。乔姆斯基以其数学和哲学的背景,致力于通过符号分析理解人类语言规律,但并未直接指向语言产出或机器应用,与产出型语言学相去甚远,仍然是一种理解型的语言学。真正的生成,或者产出,现在只能是AI的大语言模型。二语教学,也是讲究“产出”的,但不是机器的产出,而是人的第二语言产出。对于二语教学,有效率的正确产出至关重要。而大语言模型作为另一重要产出主体,可以在许多方面给二语教学提供启发性的对比。
现在语言学理论确实很多,但实际上又严重滞后于现实需要。各派理论的分歧与独立意识导致难以整合。语言学缺乏实际应用,导致没有可以测试的标准,也导致难以整合。应用和效用会让分歧在实践中越来越缩小。当前,大语言模型的能力和效用促使语言学界进入思考期,我们将何去何从?中国语言学是抱残守缺,故步自封,还是从起点开始变革?我们正处于转型关键期,要不要从分析性研究转向综合性研究?要不要重视语言实际应用与教学?综合性研究必然是工程性的,或者是与实际应用相关的。二语教学就是实际应用之一,是需要综合性的努力。赵元任先生一辈子关注中文的二语教学,身体力行,许多精力都投入到中文二语教学里。我想,赵先生一定觉得二语教学里能够出真知灼见。当前是个机会,我们应该紧跟科技发展步伐,利用新技术推动自身的变革。
作为共时语言学,大致分为应用语言学(侧重教学)、思辨语言学(哲学性的探讨)和以主流语法学为核心的理解型语言学。然而,主流语法学正面临衰落或挑战,各派理论难以统一。实验语言学被视为一种出路。现在众多语言研究机构纷纷设立“实验”语言学部门,旨在自救,以避免被淘汰。“实验”最早开始于语音学,然而传统的语音实验方法已陷入困境,早被边缘化,甚至放弃。科大讯飞等语音技术公司采用更高效的模式,实现高度逼真的语音产出。因此,对于各种语言实验研究室,笔者持赞许又同时观望的态度。因为新的实验研究需要跨学科知识,而我们这一代的语言学者基本上缺乏这样的素养,而仅仅停留在利用AI大模型又是绝对不够的。
至于中文二语教学,我一向提倡面向实际,淡化语法。从AI的大语言模型中也可以得到启发,AI的学习就是在算法的支持下把语言实例当数据喂给它吃,而人的二语学习其实也是消化语言实例。AI舍弃了语法规则这个从前非常依赖的一步,实现了飞跃。而人如果老是在句法规则里打转,也是学不好二语的。因为语言不是一种预规划的系统,多半是随遇而安的东西,是一种习惯。自然语言里规则的和说不上规则(即例外)的几乎平分秋色。按照规则是学不到真实语感的。大语言模型用token的向量去处理,就是摆脱了传统的语法学、语法规则,等于一个token加上一个向量统计就是一条规则。如果把二语学习也当成一大半规则一小半不规则去学习,当成习惯去学习,那就可以保留更多的语词个性,增加语感的形成。
中文二语学习其实有三种可能的学习工具:语音、汉字和拼音。在没有拼音工具的时候,语音和汉字就是工具。当有了拼音,我们就很容易忽视语音这个更真实的工具。我们现在依赖拼音去学习汉字,把汉字当成了一种目标。其实,跟具体语言联系在一起的语音和拼音不但是工具,其实也都可以成为目标。更自然的教学是从语音到达二语,今天则是通过拼音这个桥梁到达汉字,到达语言。当然也可以通过拼音,跳过汉字到达中文口语。今天数字化技术和AI技术又打开了另一种可能性,在数字转换技术的支持下,可以跳过汉字或手写汉字从拼音实现汉语目标。我提出的全拼音教学和拼音+识字教学就是这样的两种模式。后一种现在已经以“电写汉字”形式在美国广泛开展。在西方,老师们要跟西班牙语、日语等班级抢生源,面临招生的困难。没有学生就没有生计。这是环境逼他们上了梁山。困难的另一面就是,往往逼着人们冲破框框,踏出新路。
而前一种全拼音教学,现在还是设想,也只是一种选项,适合只需口语、无须文字的人士。这也有许多成功的先例。这个设想在数字转换技术、AI技术和电子游戏经验的支持下,完全可以实现。可以创造出“AI掌上听/随身学”工具,摸索出新的教学方式,使学习更加便捷、高效,以适应碎片化的条件。它应该同样有广阔的前景。
我们并不反对在中国境内的教学使用汉字教学,因为国内具有良好的汉字环境。但可以根据学生的不同情况,降低汉字和声调的准确度。同时,也不必反对在国外使用不同的教学工具和路径。它们都有助于中文/汉语的传播。
跟科技界相比,中国的语言学和二语教学都缺乏想象力,太崇信乔姆斯基的“获得/习得”理论。我们完全可以根据新的技术条件,踏出一条新路并提出适合中文教学的理论。新的高度、新的台阶在等待我们。
【附记】

之一:本文是作者在2024年11月山东大学《语言教育与文化传播》集刊组织的咨询会上的发言。2025年整理修改后发表于该刊2026年第三辑(1-6页)。AI发展迅猛,等文章发表,AI又朝前飞奔了很大的一段距离。因此,再写了几段说明,代替注解,以赶上时代。
之二:有关部门现在正式确定token译为“词元”。然而这个翻译并不完美,只能是凑合。许多学界的人对此提出了不同看法。Token并不是词。只是一个计算和处理单位。可大可小。在汉语里基本就是“字”和标点(=停顿),还可以是更大的固定短语。为什么AI界要放弃西方传统的word而改用token呢?因为AI界已经认识到word的局限性。Word对于有屈折形态的语言是合适的,但对于世界另一些语言却是没有说服力的。其中汉语就是一个。汉语的字(语素)和词(word)是个永远的纠缠关系,剪不断理还乱。如果采用word做计算单元,那就会乱成一锅粥。还有一些语言的word(词)和sentence(句)合二为一,用word做AI计算单元,等于放弃计算。因此,AI界就采取了一个工程学的办法,绕过word,在不同语言里寻找最便于分割计算的东西,命名为token,这样就在计算单位上越过了争不清楚的阻碍,统一了所有语言的工程计算单位。毫无疑问,这非常聪明。
另一个可能的考虑是:token是相对于type的。token是例,是符号之例,type是类,是符号之类,这是一组相对的术语。大语言模型喂入的语料都是实际使用的例,而不是类。使用token显然是为了避开现代语言学关于语法是类(type)的理论。而这个理论引起了无休止的争论。对于工程意义上的AI来说,这是不符合工程需要。工程不需要扯皮,而需要实际推动。token的翻译应该反映这个关键。
汉语是一个以已有词素(字)并基本按照句法关系去组成新语的。这种办法传统对于事物是完全足够应对,但面对新科技往往就不能完全应对。因此我们才需要音译。比如我们可以音译加上点谐意因素,音译成“豆肯”或“豆坑”。如果意译,那么应该尽量回避“词(word)”的不当联想。如果考虑到token的基本意义是实例或符号之例,那么“例元”或有朋友建议的“符元”,也许是更为合适的译名。
之三:座谈之时,笔者尚未看到“数智”一词。本文发表于该刊“数智时代语言学研究的传承与创新”多人谈栏目之下。显然,“数智”技术已经涉及到二语教学了。这应该是时代的必然。“数智”是利用“数字技术”“人工智能”二者的成分构成的新词。内涵除这两项外,还可以包含“云技术”。“数智”可以组成“数智化”“数智技术”和“数智时代”等等。当代是一个以数智技术为标志的新科技时代。在二语教学方面,数智技术当然也会是一个标志,但却不是所有方面都可以“数智化”。数智化带有普遍化并主体化的含意,主要用于第二产业。但第三产业的二语教学是人对人的活动,数智技术只能在局部辅助教学,并不能完全代替人对人的教学。笔者认为,在二语教学上“数智赋能”的提法似乎更为稳妥。
之四:因为是座谈,所以没有说明有些说法的来源。此外,本次转载前也顺便调整了一下个别文字。请予理解。
作者谨记2026.5.14
(山东大学教育高等研究院)
夜雨聆风