

李翠萍,安徽理工大学外国语学院教师。余翔宇,上海交通大学外国语学院博士研究生。
当我们与AI助手相谈甚欢时,可曾想过:机器究竟如何“听懂”人言?答案,正藏在那一次次不动声色的切分之中——将连贯的语句拆解为最小单元,再逐一赋予意义。这最小的意义载体,便是“词元”(Token)。然而,“词元”的疆域远不止于人工智能。它在语义学、心理学、词典学乃至法律实践等诸多天地里,焕发着迥异而丰饶的光彩。且让我们放慢脚步,去看看“词元”背后的丰富世界。


人工智能处理文本时,“词元”是简单的字符串切分单位:通常按空格与标点切碎即可,不问意义。汉语没有天然空格,在中文信息处理领域,“词元”是指按一定规则将汉语词汇分解后的“词部件”,比如“图书馆”可拆为“图书”和“馆”两个词元。英文处理方面,“词元”是指英语单词中允许出现的字符,包括字母、撇号(’)和连字符(-),用于机器识别单词的边界。连续的词元字符构成一个单词,一旦遇到非词元字符(如空格、标点),则认为一个单词结束。比如Tom’s、apple-pie由词元字符构成,因此是单词,而apple pie因含有空格,不被识别为一个单词。
识别单词之后,还需处理词尾变化。语料库语言学中的“词元”(lemma)是指一个词的基本形式或规范原形,适用于含有词尾变化的语言。比如“He likes dogs.”,其中likes和dogs都带有词尾变化(-s),对应的“词元”就是like和dog,即单词原形。“词元化”是计算机自然语言处理中的关键步骤,帮助系统识别和归并同一词的不同形式,提高搜索、分类等任务的准确性。在上述各种操作中,“元”都指向形式层面的基本单元。


在认知层面,“词元”是我们从小学习词汇的基础,也是展开联想的线索。儿童语言习得领域将同一词形的不同意义视为不同词元。比如,幼儿使用的“要”至少包含三种含义:意愿(“要吃饼干”)、应该(“要听话”)、时态(“要下雨了”)。研究者将其标记为“要₁”“要₂”“要₃”,在儿童的心理词典中,这是三个独立的词元。
这种“一词一义”也是框架语义学的核心理念。词元可以是动词、名词、形容词、短语、成语、惯用语等不同形式,每个词元都可以激活特定的语义框架,也即语义场景。比如“促销”“跳楼价”能够激活“销售”框架,“案板”“红烧”能够激活“烹饪”框架等。有的词无法充当词元,如“的、了、在”等虚词。多义词分化为多个词元——“攻击”既可指军事进攻,也可指言语指责,因此被视为两个不同的词元。
词元可以激活语义场景,那么场景中的图像、声音又如何表征?加拿大心理学家佩维奥提出“双重编码理论”:大脑存在两套系统——言语系统储存“词元”(文字、话语),非言语系统(表象系统)储存“象元”(图像、音响)。词元的运作方式是顺序性的。典型的例子就是,诗句默写时,根据后半句填写前半句,往往需要从头背起。正因如此,“倒背如流”才会成为夸奖。另外,大脑难以同时处理不同类型的词元,比如一边听广播一边看文件。象元的运作方式是整体性,被激活后会唤起相关场景的全貌。读到“大海”二字,词元系统处理字形字音,象元系统却浮现出蓝色波浪;听到一段熟悉的旋律,词元系统理解歌词寓意,象元系统可能唤起童年往事。词元与象元的协同,成就了“诗中有画,画中有诗”的认知效果。
在此层面,“词元”体现为认知活动中的基本心理单元,既是学习的构件,又是联想的开关。


词元不仅存在于个体心智,更活跃于语言和生活的具体实践中。在词典编纂领域,“词元”被用作解释工具,是指日常语言交际的必用词汇以及词典解释词义的必用词汇。1978年问世的《朗文当代高级辞典》仅用2000个词元便解释了56000个义项。这些词元让我们能够用最小的努力获知更多的新词新语,扩展我们的知识边界。词典上的“词元”静静栖身于书页,等待我们翻阅,而语言学家徐德江先生则赋予“词元”以动态品格。
徐老将“词元”与“词”视为“个别”与“一般”的关系。他认为,词典中的“词”只是一般概念,而每一次说话、写作中实际使用的具体实例才是“词元”。试看“大门是红的”这句话,“大门”“是”“红的”便是三个词元——它们存在于鲜活的话语之中。而“词”则是从“词元”中抽象概括出来的一般概念,比如作为词的“大门”代表了生活中作为建筑物出入口的各式各样的门,是一般性的概念。
“活的”词元进入特定专业领域语境后,便会发生有趣的特化。“秤砣”在日常语境中仅为称重工具,但在伤害案件的判决书里,其“重击”功能得到凸显;“翻越”本为中性动作,但在司法表述中,便沾染了“未经许可”的违法色彩。更典型的争议是“气枪”:打气球所用的娱乐气枪是否属于法律意义上的“枪支”?这些进入法律领域的大众词语可统称为“法律语境表述词元”。普通语义与法律概念之间的落差,折射出词元在特定领域中的语义变异。王东海等学者主张综合运用法律经验、物理经验与生活经验进行动态判定。可以说,对这类词元的辨析与界定,在一定程度上推动了相关实践与社会认知的发展。无论是词典中的核心词、理论中的具体实例,还是司法语境中的特化用词,均彰显了词元在生活实践中的功能价值。
从人工智能的字符碎片,到语言学的鲜活实例;从心理学的思维构件,到词典学的解释工具,“词元”一路穿行,折射出意义的多棱光彩。下次您与AI对话时,不妨稍稍驻足,想一想那个被机器利落切分的“词元”,并非冰冷的算法零件。在每一次理解与被理解中,它都会苏醒过来,展现属于自己的、连接技术与人文的辽阔生命。


吕叔湘和朱德熙两位语言学大师的《语法修辞讲话》,匡谬正俗,功不可没,是汉语规范化的典范作品。2020年10月,由上海师范大学宗守云教授撰写的《语法修辞例话》面市。它对标《语法修辞讲话》,是一本向大师致敬的语文普及图书。它涉及语法修辞的方方面面,语言风格生鲜活泼,得到了读者的广泛认可和好评,畅销过万册。
2026年2月,《语法修辞例话》(第二版)与各位读者相约早春,再论新知。本版在《语法修辞例话》原有五个部分——词汇、虚词、结构、表达和语用的基础上,增加“理解”和“认知”两讲。部分章节也做了调整和补充。本书紧扣当下的语言生活,释疑解惑,积极推进新时代语言文字的规范化。

本期编辑:棠荔

夜雨聆风