AI还是听不懂你的方言——这不只是技术问题

AI还是听不懂你的方言——这不只是技术问题
普通话识别准确率已经超过人类速记员,但你用粤语或闽南话跟语音助手说话,它还是一脸茫然。这个落差背后,不是算法不够聪明,而是一个更麻烦的问题:谁来决定哪种语言值得被「听见」。
先说一个反直觉的事实:语音识别这项技术,在技术层面早就「解决」了。深度学习模型处理普通话的准确率已经稳定在97%以上,噪音环境、口音、语速,基本都能应对。但与此同时,全国还有数以亿计的人,在用自己的母语跟机器说话时,得到的是一堆乱码。技术明明在进步,为什么这个问题还在原地踏步?
数据不是「收集来的」,是「选择来的」
语音识别模型的核心是数据。要训练一个能听懂粤语的模型,你需要大量标注好的粤语语音数据——不同年龄、不同地区、不同语速的真实录音,每一条都要人工核对转写。这个过程贵、慢、难规模化。普通话有国家标准、有广播体系、有几十年的语料积累;粤语、闽南语、吴语,虽然各有几千万甚至上亿的使用者,但系统性的语音语料库,几乎是空白的。
●不是没人说,是没人记录——方言的数字化程度,比大多数人想象的低得多。
更深的问题在于:即便有人愿意做这件事,「方言」本身就是一个模糊的边界。粤语在广州和香港的发音差异,比很多人以为的要大。闽南语在泉州、漳州、台湾三地,调值就已经不同。「训练一个方言模型」这句话,听起来是一个任务,实际上可能是十几个任务叠在一起。
迁移学习:用已有的知识撬动新语言
当然,研究者不是在从零开始。目前最主流的技术路径叫迁移学习——先用海量普通话数据训练出一个强大的底层模型,再用少量目标方言数据对它「微调」。这个思路的逻辑是:不同汉语方言之间,共享大量语音特征,底层的声学规律是相通的,只需要在顶层调整方言特有的部分。
1/10
迁移学习所需的方言标注数据量,大约只有从头训练的十分之一
这个方法有效,但有边界。迁移学习的前提是「两种语言足够相近」。粤语和普通话的差距,实际上比英语和德语还大——声调系统完全不同,粤语有九个声调,普通话只有四个。用普通话模型迁移到粤语,就像用德语模型去适配汉语,底层假设本来就不太成立。效果会有,但天花板很低。
真正的突破,来自一个意外的方向
过去两年,大语言模型的崛起意外地给方言识别带来了新思路。以Whisper为代表的多语言语音模型,训练数据横跨近百种语言,它学到的不只是「这个音对应这个字」,而是更底层的语音表征能力——某种意义上,它学会了「听」这件事本身。把这类模型用于方言识别,即便没有专门的方言数据,效果也比传统迁移学习好一截。
「
真正的通用语音模型,不是把所有语言都学一遍,而是学会了语言背后的共同结构。
」
但即便如此,这条路也没有绕开数据问题。Whisper在粤语上的表现,明显好于闽南语,原因很简单:网上能抓到的粤语内容,比闽南语多得多。互联网上的语言分布,本来就是不均匀的,模型只能学到它见过的东西。
谁在解决这个问题,用什么方式
商业公司的逻辑很直接:哪个方言的用户多、付费意愿强,就优先支持哪个。粤语因为港澳市场的存在,商业价值相对清晰,所以各家大厂都有粤语语音产品。闽南语、客家话、东北话,就很难排进优先级。这不是歧视,是商业决策——但结果是,使用小语种方言的人,被系统性地排除在语音交互的便利之外。
●方言识别的不平等,本质上是数字资源分配的不平等。
另一条路来自学术界和非营利组织。Mozilla的Common Voice项目,通过众包方式收集多语言语音数据,目前已经覆盖一百多种语言,包括部分汉语方言。国内也有高校在做类似的语料库建设工作。这类项目的优势是覆盖广,劣势是数据量和质量参差不齐,离实用还有距离。
还有一个没人在认真讨论的问题
假设技术问题真的解决了,方言语音识别真的做到了普通话的水平,然后呢?方言是活的,它在持续演变。年轻一代的粤语里混入了大量普通话词汇和英文词汇,老一辈的发音和新一代已经有明显偏差。一个在2020年训练的模型,到2030年可能已经跟不上语言的变化。语音识别不是一个「解决一次就好」的问题,它需要持续更新,而这又回到了数据和资源的问题上。
更深层的问题是:当机器开始定义「标准」发音,方言本身的多样性会不会因此加速消失?人们为了让机器听懂自己,会不会主动向「机器能识别的发音」靠拢?这不是科幻,这是已经在普通话推广过程中发生过的事情。技术从来不是中性的,它在记录语言的同时,也在悄悄塑造语言。
✦ 小结
方言语音识别的困境,表面上是技术问题,实质上是资源分配和价值判断的问题。迁移学习和大模型让技术门槛降低了,但数据的稀缺和商业逻辑的优先级,决定了哪些语言会被「听见」。在AI重塑人机交互的时代,值得追问的不只是「技术能不能做到」,而是「我们愿不愿意做,以及为谁做」。
夜雨聆风