
史有为


本文是作者在2024年11月山东大学《语言教育与文化传播》集刊组织的咨询会上的发言。整理修改后发表于该刊2026年第三辑(1-6页)。AI发展迅猛,等文章发表,AI又朝前飞奔了很大的一段距离。因此,只能按2024年前后几个月的形势去读这篇短文。
作者2026.5.12
我并非技术专业人士,对于AI这样的新兴领域并不擅长,但也愿意尝试去学习并了解AI。机器翻译和自然语言处理从最初的模仿和依靠语法规则,到现在改变为基于统计和围绕向量的处理,整个工作模式乃至整个领域已经彻底改观,发生了翻天覆地的变化。现在无需纠缠于字与词,每个字和每个标点都可以是一个token(参见文后的【附言】)。别家的系统也可以把统计上大概率同现的几个字一起算成一个token,例如成语、多音节词甚至一段惯用的话(例如“我以为”)都可以设置成一个token。不同的设置可能有不同的方便,也会带来计算量的变化。把所有的token关系或联系的信息输入进机器,就可以依靠算法,计算token之间在统计学上的关系,可以获得所需成为合格结构的答案。不需要分词,不需要标注词类,等等,省去了许多麻烦。这些变化实际上是从起点设置开始改变的,语言学也应该从起点上开始思考、开始怀疑,重新审视语言学的研究方法和目的。中文二语教学其实也可以这样去思考,不必作为纯粹的应用者。
当前语言学主要聚焦于理解型的语言学,而产出型语言学根本就没有。所谓的“生成语言学”,这个“生成”只是语言底层到表层的理论设想,符号来符号去,并非真的想产出。因此最后也只能改称形式语言学,是符号形式搭建起来的语言学。乔姆斯基以其数学和哲学的背景,致力于通过符号分析理解人类语言规律,但并未直接指向语言产出或机器应用,与产出型语言学相去甚远,仍然是一种理解型的语言学。真正的生成,或者产出,现在只能是AI的大语言模型。二语教学,也是讲究“产出”的,但不是机器的产出,而是人的第二语言产出。对于二语教学,有效率的正确产出至关重要。而大语言模型作为另一重要产出主体,可以在许多方面给二语教学提供启发性的对比。
现在语言学理论确实很多,但实际上又严重滞后于现实需要。各派理论的分歧与独立意识导致难以整合。语言学缺乏实际应用,导致没有可以测试的标准,也导致难以整合。应用和效用会让分歧在实践中越来越缩小。当前,大语言模型的能力和效用促使语言学界进入思考期,我们将何去何从?中国语言学是抱残守缺,固步自封,还是从起点开始变革?我们要不要正处于转型关键期,需从分析性研究转向综合性研究?要不要重视语言实际应用与教学?综合性研究必然是工程性的,或者是与实际应用相关的。二语教学就是实际应用之一,是需要综合性的努力。赵元任先生一辈子关注中文的二语教学,身体力行,许多精力都投入到中文二语教学里。我想,赵先生一定觉得二语教学里能够出真知灼见。当前是个机会,我们应该紧跟科技发展步伐,利用新技术推动自身的变革。
作为共时语言学,大致分为应用语言学(侧重教学)、思辨语言学(哲学性的探讨)和以主流语法学为核心的理解型语言学。然而,主流语法学正面临衰落或挑战,各派理论难以统一。实验语言学被视为一种出路。现在众多语言研究机构纷纷设立“实验”语言学部门,旨在自救,以避免被淘汰。“实验”最早开始于语音学,然而传统的语音实验方法已陷入困境,早被边缘化,甚至放弃。科大讯飞等语音技术公司采用更高效的模式,实现高度逼真的语音产出。因此,对于各种语言实验研究室,笔者持赞许又同时观望的态度。因为新的实验研究需要跨学科知识,而我们这一代的语言学者基本上缺乏这样的素养,而仅仅停留在利用AI大模型又是绝对不够的。
至于中文二语教学,我一向提倡面向实际,淡化语法。从AI的大语言模型中也可以得到启发,AI的学习就是在算法的支持下把语言实例当数据喂给它吃,而人的二语学习其实也是消化语言实例。AI舍弃了语法规则这个从前非常依赖的一步,实现了飞跃。而人如果老是在句法规则里打转,也是学不好二语的。因为语言不是一种预规划的系统,多半是随遇而安的东西,是一种习惯。自然语言里规则的和说不上规则(即例外)的几乎平分秋色。按照规则是学不到真实语感的。大语言模型用token的向量去处理,就是摆脱了传统的语法学、语法规则,等于一个token加上一个向量统计就是一条规则。如果把二语学习也当成一半规则一半不规则去学习,当成习惯去学习,那就可以保留更多的语词个性,增加语感的形成。
中文二语学习其实有三种可能的学习工具:语音、汉字和拼音。在没有拼音工具的时候,语音和汉字就是工具。当有了拼音,我们就很容易忽视语音这个更真实的工具。我们现在依赖拼音去学习汉字,把汉字当成了一种目标。其实,跟具体语言联系在一起的语音和拼音不但是工具,其实也都可以成为目标。更自然的教学是从语音到达二语,今天则是通过拼音这个桥梁到达汉字,到达语言。当然也可以通过拼音,跳过汉字到达中文口语。今天数字化技术和AI技术又打开了另一种可能性,在数字转换技术的支持下,可以跳过汉字或手写汉字从拼音实现汉语目标。我提出的全拼音教学和拼音+识字教学就是这样的两种模式。后一种现在已经以“电写汉字”形式在美国广泛开展。在西方,老师们要跟西班牙语、日语等班级抢生源,面临招生的困难。没有学生就没有生计。这是环境逼他们上了梁山。困难的另一面就是,往往逼着人们冲破框框,踏出新路。
而前一种全拼音教学,现在还是设想,也只是一种选项,适合只需口语、无须文字的人士。这也有许多成功的先例。这个设想在数字转换技术、AI技术和电子游戏经验的支持下,完全可以实现。可以创造出“AI掌上听/随身学”工具,摸索出新的教学方式,使学习更加便捷、高效,以适应碎片化的条件。它应该同样有广阔的前景。
我们并不反对在中国境内的教学使用汉字教学,因为国内具有良好的汉字环境。但可以根据学生的不同情况,降低汉字和声调的准确度。同时,也不必反对在国外使用不同的教学工具和路径。它们都有助于中文/汉语的传播。
跟科技界相比,中国的语言学和二语教学都缺乏想象力,太崇信乔姆斯基的“获得/习得”理论。我们完全可以根据新的技术条件,踏出一条新路并提出适合中文教学的理论。新的高度、新的台阶在等待我们。
2025.3.5定稿
【附言】

Token现在被有关部门确定译为“词元”。然而这个翻译并不完美,只能是凑合。汉语是一个以已有词素(字)基本按照句法关系去组成新语的。而这两个字可以应对传统的事物,但往往不能完全应对新科技的概念。Token并不是词。只是一个计算和处理单位。可大可小。在汉语里基本就是“字”和标点(=停顿),还可以是更大的固定短语。token是相对于type的,是例和类/型的相对。AI界使用token显然是为了避开语言学关于语法是类(type)的规则。由于完全是以“例”来运作,消除了由“类化”带来的无穷尽的争吵,大模型才能迅速地实现成功。因此更加慎重地思考之后,准确的翻译也许是“例元”。是语言的例,而且还在一个处理“单元”。当然也可以音译,可以加入一点谐音因素。例如音译成“豆坑”,避免因“词元”带来的不当联想。
史有为
附言
2026.5.12
夜雨聆风