
AI说中文为什么像个外国人:语言歧视背后的真相
你有没有发现,用AI翻译或生成中文、日文、阿拉伯文时,总感觉哪里不对劲——语法没错,但就是「不像人说的话」。这不是你的错觉,也不是AI不够聪明。背后有一个大多数人从没想过的结构性原因。
先做一个思想实验。假设你要教一个外星人学语言,你给了他一亿本英文书、一千万本中文书、一百万本斯瓦希里语书。你觉得他最终会哪门语言说得最流利?答案显而易见。但问题是,现在所有主流AI系统,干的基本就是这件事。
训练数据的「原罪」
大型语言模型的能力,从根本上取决于它吃进去了多少高质量文本。而互联网上的文本,从一开始就是严重倾斜的。2020年一项对Common Crawl数据集的分析显示,英文内容占比接近50%,加上其他欧洲语言,西方语言的占比超过75%。中文大约占4%,日文、韩文、阿拉伯文加起来不超过5%。
75%
主流AI训练数据中,西方语言内容的占比
这不只是「数量少」的问题。更关键的是质量和类型的差距。英文数据里有海量的学术论文、技术文档、新闻报道、小说、论坛讨论——覆盖了几乎所有场景和语体。而亚洲语言的数据,往往集中在某几类内容,覆盖的场景天然就窄。模型在英文里见过「法庭辩论」的写法,但可能从没见过一篇地道的中文判决书。
不只是数据,是语言本身的结构差异
但如果只是数据量的问题,那加大投入就能解决。真正麻烦的地方在于:亚洲语言在结构上,对AI来说就是更难的题。
1中文没有空格分词,「研究生命科学」可以是「研究生 / 命科学」也可以是「研究 / 生命科学」,断错一个词,整句话的语义就崩了
2日文混用平假名、片假名、汉字三套书写系统,还夹杂大量依赖上下文才能确定的省略主语
3阿拉伯文从右到左书写,词根变形系统极度复杂,同一个词根能派生出几十种形态
4中文的语气、礼貌程度、正式感,大量靠词汇选择和语序来表达,没有英文那种清晰的语法标记
这些不是「方言差异」,而是底层逻辑的不同。现有的Transformer架构,是在大量英文文本上发展起来的,它对语言的「默认假设」天然更贴近英文的结构。用同一套框架去处理结构迥异的语言,本来就是在用锤子拧螺丝。
「够用就行」的商业逻辑在固化这个差距
「
技术差距一旦被商业利益锁定,就很难靠技术本身来纠正。
」
有人会说,现在GPT-4、Claude的中文不是已经很好了吗?确实进步了很多。但「进步了」和「差距消除了」是两回事。更值得追问的是:这个差距为什么还在?
原因很简单:修复亚洲语言的收益,长期低于修复英文的收益。硅谷的AI公司,核心用户是英语用户,核心付费市场是欧美企业。投入资源优化英文,每一分钱都能直接换成收入。优化中文或泰文,市场更小、变现路径更长、还要面对本地竞争对手。这不是偏见,是资本的理性选择——但理性选择积累起来,就成了系统性的不平等。
被忽视的代价
这个差距,带来的不只是「翻译有点奇怪」这种小麻烦。想象一下:一个农村医生用AI辅助诊断,结果AI在处理方言描述的症状时频繁出错;一个东南亚的小企业主用AI写合同,结果生成的文本在法律表达上有微妙的歧义;一个日本学生用AI学习,结果AI对日文古典文学的理解漏洞百出。语言能力的不平等,最终会转化为机会的不平等。
●当AI成为基础设施,语言处理的质量差距就不再只是技术问题,而是一种新型的数字鸿沟。
更深的问题是,AI生成的文本正在反过来影响训练数据。越来越多的网络内容是AI写的,而AI写的中文,带着英文逻辑的痕迹。这些内容被爬取,进入下一代模型的训练集,形成一个「文化漂移」的正反馈循环——中文在AI的世界里,正在缓慢地变得越来越「英文化」。
出路在哪里
好消息是,这个问题正在被认真对待。百度、阿里、腾讯、字节都在训练以中文为核心的大模型;日本有专门针对日文优化的模型;韩国、阿拉伯世界也在跟进。本土模型的崛起,是目前最直接的解法——不是因为「国产」这个标签,而是因为这些团队真正把目标语言当作第一语言来优化,而不是英文的附属品。
技术层面也在演进。专门为形态复杂语言设计的分词器、针对低资源语言的迁移学习方法、多语言对齐训练……这些研究正在把差距一点一点地缩小。但速度够快吗?在AI应用爆炸式普及的当下,这个问题的答案,决定了未来十年谁能真正用上AI,谁只能用上一个「残缺版」的AI。
✦ 小结
AI处理亚洲语言的错误率更高,根源不是技术能力不足,而是训练数据的结构性偏斜、语言本身的复杂度差异、以及商业逻辑对这一差距的固化。当AI从工具变成基础设施,语言能力的不平等就会直接转化为人与人之间的机会不平等。这才是这个技术细节真正值得认真对待的理由。
夜雨聆风