同一个问题换一种语言问,AI 给出的常常不只是另一种表达,而是另一套语料重心、Tokenizer 成本、知识路径、文化默认值和对齐制度。AI 没有母语,但它有被训练出来的语言重力。
同一个问题换一种语言问,AI 改变的不只是表达方式。它会经过不同的语料重心、Tokenizer 成本、知识路径、文化默认值和对齐制度。AI 没有母语,但它有语言重力。
① 输入法不是答案 → ② 互联网语言分布 → ③ 模型训练语料的公开与不公开 → ④ Tokenizer 语言税 → ⑤ 语言、文化和意识形态
开头:同一个 AI,为什么像换了一个人?
你问一个大语言模型:
你怎么看人工智能对教育的影响?
用中文问,它可能谈学习焦虑、应试教育、家长、补课、就业。
用英文问,它可能谈 personalized learning、equity、teacher productivity、privacy。
用法语问,它可能更自然地进入欧洲公共教育、文化保护、语言多样性。
用俄语问,它可能带出国家、技术主权、地缘安全。
用日语或韩语问,它可能更容易落到少子化、职场、学校制度、社会压力。
如果你用拉丁语问,它甚至会像从一间古典图书馆里回答你:语法端正,历史感很强,但现实生活感很弱。
这就引出一个很要命的问题:
AI 到底有没有母语?
如果没有,为什么换一种语言,答案的气质会变?
如果有,它的母语是英文吗?中文模型的母语是中文吗?还是说,模型真正的语言根本不是人类语言,而是向量?
这篇文章想给一个更准确的回答:
AI 没有母语,但它有语料重心、Tokenizer 成本、内部表示的偏心、对齐制度和价值坐标。你切换的不只是中文和英文,有时是在切换一套被压缩进模型的世界观。
这个问题表面是技术问题,深处其实是文明问题。
语言不是外壳。语言是人类理解世界的路线图。
当 AI 学会语言,它学到的不只是词汇和语法,也学到了一套世界如何被划分、命名、排序和评价的方式。
一、先排除一个误会:不是输入法决定 AI 的语言
有人会问:AI 对中文和英文的差异,是不是因为计算机底层就更适合英文?
毕竟键盘是英文键盘。
编程语言大多是英文。
ASCII 最早只服务英文。
英文一个字母只占 1 个字节,中文一个汉字在 UTF-8 里通常占 3 个字节。
这些都是真的,但它们不是最终答案。
你在手机上用中文输入法打出“人工智能”时,输入法先把你的拼音、手写或语音变成汉字。进入计算机之后,它走的是这条链:
输入法 → Unicode 字符 → UTF-8 字节 → Tokenizer → token ID → Embedding 向量 → Transformer 内部激活 → 输出 token → 再解码成人类文字AI 不是在“英文键盘”里思考。
它也不是直接在“中文输入法”里思考。
输入法只是入口。真正决定模型怎么处理语言的,是后面的三件事:
这种语言在训练数据里出现了多少。 Tokenizer 有没有为这种语言设计高效的表示。 对齐和安全训练有没有覆盖这种语言和文化语境。
计算机的底层确实有历史遗留。ASCII、Unicode、UTF-8、BPE,都不是从一个完美平等的语言宇宙里长出来的。它们是在真实互联网、真实工程、真实成本里演化出来的。
所以更准确的说法不是:
计算机天生讲英文。
而是:
互联网和计算机工业的早期历史,让英文在数字世界里获得了巨大的先发优势。
这个先发优势后来被写进了网页、代码、文档、开源社区、论文、评测集、Tokenizer 和训练数据。
它没有决定一切。
但它给所有后来语言都设了一道门槛。
二、第一层偏心:互联网本身就不是按人口分布写成的
大语言模型吃的不是“人类全部经验”。
它吃的是可获得、可抓取、可授权、可清洗、可训练的文本。
这句话很重要。
世界上说中文的人很多,说印地语、阿拉伯语、西班牙语的人也很多。但这不等于这些语言在可训练互联网文本里占同样比例。
W3Techs 在 2026 年 6 月 4 日的内容语言统计显示,在已知内容语言的网站中,英文仍占 49.7%。后面依次是西班牙语 6.0%、德语 6.0%、日语 5.0%、法语 4.6%、葡萄牙语 4.1%、俄语 3.5%、意大利语 2.8%。中文是 1.2%,韩语是 0.9%。拉丁语则在“低于 0.1%”的长尾里。
英文
W3Techs 网站内容占比(2026-06-04):49.7%
对 AI 训练的含义:最大的公开网页知识池,论文、代码、文档、论坛高度集中
西班牙语
W3Techs 网站内容占比(2026-06-04):6.0%
对 AI 训练的含义:高资源语言,拉美和欧洲语境丰富,但仍远低于英文
德语
W3Techs 网站内容占比(2026-06-04):6.0%
对 AI 训练的含义:高资源欧洲语言,技术和制度文本质量较高
日语
W3Techs 网站内容占比(2026-06-04):5.0%
对 AI 训练的含义:资源不低,但书写系统和 Tokenizer 要求更高
法语
W3Techs 网站内容占比(2026-06-04):4.6%
对 AI 训练的含义:高资源语言,欧洲、非洲、加拿大语境混合
葡萄牙语
W3Techs 网站内容占比(2026-06-04):4.1%
对 AI 训练的含义:巴西语境很重要,和欧洲葡语也不同
俄语
W3Techs 网站内容占比(2026-06-04):3.5%
对 AI 训练的含义:技术、文学、地缘政治内容都强,但语境高度区域化
中文
W3Techs 网站内容占比(2026-06-04):1.2%
对 AI 训练的含义:人口大,但大量内容在 App、公众号、平台墙和不可抓取空间里
韩语
W3Techs 网站内容占比(2026-06-04):0.9%
对 AI 训练的含义:本土平台和文化语境强,需要专门数据补足
拉丁语
W3Techs 网站内容占比(2026-06-04):<0.1%
对 AI 训练的含义:古典文本多,活的日常反馈极少
这张表不能简单等同于训练语料比例。模型公司会购买数据、合成数据、过滤数据、加权采样,也会刻意补齐某些语言。
但它揭示了一个基本事实:
AI 吃到的世界,不是人口统计意义上的世界,而是可数字化、可抓取、可训练的世界。
中文世界有一个特殊问题:很多真正有价值的中文内容不在开放网页上。
公众号、微信群、知乎盐选、小红书、B 站评论、垂直社群、企业文档、地方政务材料、课堂笔记、行业报告,大量内容要么不可爬,要么版权复杂,要么噪声巨大,要么平台封闭。
所以中文不是“不重要”。
恰恰相反,中文世界很大。
问题是:这个世界有相当一部分没有以训练友好的方式进入模型。
这也是为什么“数据主权”不是一句口号。它背后是一个非常具体的技术问题:
谁能把一个语言共同体的真实经验,整理成可训练、可验证、可更新、可对齐的数据?
三、第二层偏心:模型训练语料不是一个公开透明的账本
很多人想知道:GPT、Claude、Qwen、DeepSeek、Llama,到底用了多少中文、多少英文、多少日语、多少韩语?
真正麻烦的是:大多数模型并不公开精确语言分布。
目前最有代表性的精确公开数字,反而来自比较早的 GPT-3。
OpenAI 在 GPT-3 论文配套数据中公开过按词数统计的语言分布:英文 92.64708%,法语 1.81853%,德语 1.46937%,西班牙语 0.77289%,意大利语 0.60793%,葡萄牙语 0.52483%,俄语 0.18843%,日语 0.11109%,中文 0.09905%。
换句话说,GPT-3 不是一个“多语言均衡模型”。
它首先是一个英文互联网压缩器,然后在这个基础上长出了跨语言迁移能力。
我们先把能看到的线索摆出来。
GPT-3
公开线索:官方公开语言表,英文 92.65%,中文约 0.10%,日语约 0.11%,俄语约 0.19%
我会怎么读:这是早期 GPT 英文重心的硬证据
还不确定的地方:拿这个比例直接推 GPT-5 / GPT-5.5,会太粗
GPT-5 / GPT-5.5
公开线索:GPT-5 系统卡说用了公开互联网信息、第三方合作数据、用户/标注员/研究者提供或生成的数据,并经过过滤和安全训练;GPT-5.5 系统卡更多谈安全评测和部署防护
我会怎么读:可以判断它早已不是 GPT-3 那种简单英文网页压缩器,而是混合数据、后训练和产品制度共同塑形的系统
还不确定的地方:中文、英文各占多少,官方没给,只能从能力、评测和产品定位侧面估
GPT-4o
公开线索:旧系统卡提到 Web、代码数学、多模态数据,也提到 45 种语言红队测试和低代表性语言评测
我会怎么读:说明 OpenAI 很早就在补多语言和多模态评测
还不确定的地方:训练语料的语言比例依然不是一本公开账
Claude 4.x 系列
公开线索:Anthropic 系统卡和透明度报告说有公开互联网信息、第三方非公开数据、标注数据、用户选择加入数据和内部生成数据;系统卡页截至 2026-06-04 已列到 Claude Opus 4.8
我会怎么读:可以读出它是专有混合数据,再经过 helpful, honest, harmless、Constitutional AI、RLHF/RLAIF 等对齐塑形
还不确定的地方:中文、英文、法语、日语各占多少,没有公开
Llama 3
公开线索:约 15T 多语言 token;最终数据混合约 50% 通用知识、25% 数学推理、17% 代码、8% 多语言;128K 词表中额外加入 28K 非英语 token
我会怎么读:这是英文、代码、通用知识很强,同时主动补非英语 token 的路线
还不确定的地方:8% 多语言里每种自然语言怎么分,没有细账
DeepSeek-V2
公开线索:8.1T token;技术报告明确说中文 token 约比英文多 12%;主要由中文和英文内容组成,其他语言需谨慎
我会怎么读:这是少数把中英文相对比例说得比较清楚的中国模型
还不确定的地方:拿 V2 的比例直接推 DeepSeek-V3 或后续模型,也会太粗
Qwen2.5
公开线索:18T token;151,643 词表;多语言语料、中文英文评测、多语言后训练都很明确
我会怎么读:中英和多语言不是补丁,而是核心设计之一
还不确定的地方:中文精确占比没有公开
GLM-4
公开线索:约十万亿 token,主要是中文和英文,另有 24 种语言小规模语料;150K 词表由中文、多语言和 cl100k_base 合并
我会怎么读:典型的中英双主干路线
还不确定的地方:中文、英文各自百分比没有公开
Baichuan 2
公开线索:2.6T token,多语言,重点覆盖中文和英文,125,696 词表
我会怎么读:明显是在中英文上做优化
还不确定的地方:语言比例没有公开
BLOOM
公开线索:ROOTS 语料 1.61TB,46 种自然语言 + 13 种编程语言
我会怎么读:它不一定是今天最强助手,但多语言治理和透明度很有标本价值
还不确定的地方:它更像透明多语言项目的标本,不等于前沿闭源模型的普遍做法
这张表不只是为了列资料。它真正想说明的是:
闭源前沿模型能力最强,但语言分布最不透明;开放模型透明一些,但也很少把每种语言比例完整公开。
所以,面对“GPT 的中文占比多少”“Claude 的中文占比多少”这类问题,我不会说完全不能估。
人当然会估。
我自己也会估。
但要把两件事分开:
官方没公开,这是事实。根据能力、评测、产品定位和公开系统卡去推测,这是分析。
前者是账本。
后者是判断。
判断可以大胆一点,但不能把它写成账本。
从现有公开材料看,我会这样读:
从系统卡和产品评测看,GPT-5 / GPT-5.5 已比 GPT-3 时代更系统地处理多语言、工具和安全评测,但语言比例仍然不知道。
Claude 4.x 系列也明确使用大规模多样数据和多语言安全评测,但比例同样不知道。
Qwen、DeepSeek、GLM、Baichuan 这类中国模型明显把中文和英文作为核心训练语言,而不是把中文当作英文模型的附属能力。
Llama 3 则更像一个以英文和代码为强中心、额外增强多语言能力的开放权重模型。
这就是模型的“语言重心”。
它不是母语。
但它会影响模型默认知道什么,优先联想到什么,在哪些语言里更顺,在哪些语境里更容易露怯。
四、第三层偏心:Tokenizer 是一道语言税
训练数据决定模型见过什么世界。
Tokenizer 决定模型用多大代价读这个世界。
这件事常常被低估。
同一句话,如果英文只需要 10 个 token,某些语言却需要 20、30、甚至 100 多个 token,那么这个语言的用户就天然吃亏:
更贵。
更慢。
上下文窗口里能塞进去的信息更少。
同样 128K context,英文用户能塞一本书,某些低资源语言用户可能只能塞半本甚至更少。
NeurIPS 2023 有篇论文《Language Model Tokenizers Introduce Unfairness Between Languages》,研究的就是这道隐藏的语言成本。它发现,同一内容翻译成不同语言后,token 长度可以相差非常大,极端情况下可到 15 倍。即使是刻意支持多语言的 tokenizer,也无法完全消除差异。
这就是所谓的 tokenization unfairness。
它不是模型“回答得好不好”之后才出现的问题。
它在模型看到文本之前就已经发生了。
对中文来说,早期英文中心 tokenizer 的问题非常明显。
原始 LLaMA 词表里中文 token 很少,很多汉字会被拆成 3 到 4 个 UTF-8 字节 token。Chinese-LLaMA 的技术报告直接指出:原始 LLaMA vocabulary 对中文覆盖不足,所以他们额外加入 20,000 个中文 token,把中文 tokenizer 合并后扩到约 49,953 个 token。初步实验显示,新的中文 LLaMA tokenizer 生成的 token 数大约是原始 LLaMA tokenizer 的一半。
这不是小修小补。
这意味着同样的上下文窗口可以装进大约两倍中文信息,生成速度也显著改善。
Llama 3 也吸取了这个教训。它的 128K 词表里,100K 来自 tiktoken,另外加入 28K token 来更好支持非英语语言。Meta 的技术报告明确说,这改善了非英语语言压缩率和下游性能,并且不影响英文 tokenization。
Qwen 和 GLM 的路线更直接:一开始就把中文、多语言和英文 token 设计进统一词表。
这里有一个关键判断:
Tokenizer 不是中性的刀。它在哪里切,什么语言就在哪里流血。
英文有空格,BPE 容易学出高频词块。
中文没有空格,一个词的边界本来就需要统计和语义判断。
日语混用汉字、假名、外来语片假名。
韩语有音节块和词尾变化。
俄语、西班牙语、法语有复杂屈折、性数格、重音符号。
阿拉伯语、印地语、泰语、藏语、缅甸语、许多少数民族语言还有更复杂的书写和分词问题。
如果 tokenizer 的训练数据里这些语言少,它就不会给它们留下足够好的“短编码”。
你可以把它理解成一种语言税:
语言税 = 同样意思需要多付出的 token = 更多费用 + 更多延迟 + 更短上下文 + 更弱训练效率从这个角度看,中文模型不是只在“民族情绪”上需要。
它在工程上也需要。
如果一个语言长期用别人的 tokenizer、别人的语料重心、别人的对齐制度来进入 AI,它就会长期多交这道税。
五、模型内部到底用什么语言思考?
到这里,问题又变复杂了。
如果模型最终都把 token 变成向量,那么它内部到底是在中文里思考,还是在英文里思考?
我的判断是:
都不是。
模型内部不是中文句子,也不是英文句子。
它内部是高维向量、注意力模式、残差流、MLP 激活和概率分布。
在《万物皆向量》那篇文章里,我们说过一句话:
人类用语言把世界切成碎片来理解,AI 用向量把碎片织成连续的空间来理解。
这句话放在多语言问题上同样成立。
“苹果”“apple”“pomme”“manzana”“яблоко”“りんご”“사과”这些词,在人类语言里属于不同系统。但在模型的向量空间里,它们可以被拉到相近区域,因为它们出现在相似语境里,和类似视觉、味觉、购买、食物、神话、科技品牌等概念共同出现。
但“相近”不等于“完全一样”。
还有一个更细的问题:同一个事实,换一种语言问,模型是不是真的在调用同一份知识?
2023 年有篇跨语言事实一致性研究(arXiv:2310.10378)就在看这个问题。它发现,不同语言用户向同一个模型问同一个事实问题时,模型不一定给出一致答案;模型变大可以提升很多语言的事实准确率,但不必然提升跨语言一致性;语言之间的词表重叠和书写系统相似度,会显著影响知识是否能跨语言共享。
这就解释了一个现象:
模型不是简单地在“世界知识库”里查一个事实,然后翻译成不同语言。
很多时候,它是在不同语言入口下,激活了不同的局部路径。
这些路径可能重合。
也可能分叉。
英文和西班牙语、法语之间,拉丁字母、词源、互联网交叉引用、翻译数据和共享知识更多,路径更容易相连。
俄语和乌克兰语同属西里尔书写和相近语系,某些事实路径也可能更接近。
中文、日语、韩语之间共享一部分汉字文化圈遗产,但现代语料、政治语境、平台生态和 tokenizer 设计又差异很大。
拉丁语则更特殊。它有大量高质量古典文本,却缺少现代生活中的原生反馈。模型会学会“拉丁语作为古典文本”的世界,却很难学到“拉丁语作为当代社区日常语言”的世界。
所以,“AI 是不是在英文里思考”这个问题,答案不能简单说是或否。
更准确的说法是:
AI 不在英文里思考,但许多模型的内部表示和知识路径被英文语料强烈塑形。
英文不是模型内部唯一的语言。
但它经常是最大的重力源。
六、不同语言用户,拿到的是不是同一个世界?
现在可以回答一个更现实的问题:
如果法国人、西班牙人、俄罗斯人、中国人、日本人、韩国人、拉丁语学习者都用母语问同一个 AI,他们拿到的信息一样吗?
不完全一样。
差异大致来自五个层面:
同一个问题 → 不同语言表达 → 不同 token 序列 → 不同向量路径 → 不同训练语料邻域 → 不同对齐和安全触发 → 不同答案这不是说 AI 每次都会给出相反答案。
而是说,语言会改变模型进入知识空间的路径。
英文:默认主干
英文是当前 AI 世界的主干语言。
论文、代码、GitHub issue、Stack Overflow、产品文档、Hacker News、Reddit、技术博客、模型评测,大量关键训练材料和对齐材料都以英文存在。
所以英文用户经常得到最稳定、最完整、最少翻译腔的回答。
这不是因为英文更高级。
是因为可训练数字世界长期围绕英文组织。
中文:人口巨大,但可训练空间割裂
中文的优势是使用者多、文化密度高、现实议题强。
中文的劣势是开放网页占比不高,大量内容在平台内、App 内、封闭社群内、图片视频内,或者以难以清洗的形式存在。
中国模型通过提高中文语料、重训 tokenizer、做中文后训练和中文评测,把这个差距补回来。
DeepSeek-V2 的“中文 token 约比英文多 12%”,GLM-4 的“主要中文和英文”,Qwen 的 151K 大词表和中文多语言评测,都是这个方向的工程信号。
但中文还有一个额外问题:政治和平台生态会强烈影响可见文本。
这不是中文独有的问题。
所有语言都有自己的政治过滤、媒体结构和平台偏见。
只是中文在中美 AI 竞争、信息管制、平台封闭和地缘叙事上,表现得更集中、更显眼。
法语和西班牙语:高资源,但不是“小英文”
法语和西班牙语是高资源语言。
它们有大量网页、书籍、媒体、法律和教育文本,也和英文共享大量拉丁词根、学术概念和翻译数据。
所以它们通常比低资源语言更接近英文主干。
但它们不是英文的翻译。
法国语境里的世俗主义、教育、文化保护、欧盟监管,和美国英语语境不同。
西班牙语也不是一个单一世界。西班牙、墨西哥、阿根廷、哥伦比亚、智利、美国拉美社区,政治文化和日常生活差异很大。
模型如果只学到“西班牙语 = 西班牙或泛拉美刻板印象”,就会在具体文化问题上犯错。
俄语:语言、国家和地缘政治高度纠缠
俄语资源丰富,文学传统深,技术资料也不少。
但俄语语料里的政治、媒体和国家叙事高度集中。
当用户用俄语问历史、战争、国际关系、国家制度,模型激活的不只是俄语语法,还可能激活一整套俄语互联网中的叙事结构。
这不意味着俄语一定带来某种立场。
它意味着:语言入口会改变模型最容易调用的语料邻域。
日语和韩语:强文化共同体,需要本土语料
日语和韩语都有高度发达的本土互联网、媒体、娱乐、教育和职场语境。
它们对 AI 的挑战不只是“翻译准确”。
而是能不能理解:
敬语。
暧昧表达。
社会角色。
学校和公司制度。
偶像文化、游戏文化、漫画语境。
南北韩同用韩语,但文化现实完全不同。BLEND 文化基准里就把 South Korea 和 North Korea 分开处理,因为同一种语言可以承载不同社会。
这件事提醒我们:
语言不是文化的全部,但语言是进入文化的主要入口。
拉丁语:知识多,生活少
拉丁语是一个很好的反例。
它有高度经典化的文本传统:西塞罗、维吉尔、奥古斯丁、经院哲学、教会文献、科学命名。
模型可以学到很多“高质量拉丁语”。
但拉丁语缺少现代母语社区、现代口语生活、当代社交媒体反馈和日常纠错。
所以 AI 的拉丁语能力很容易像一座博物馆:
典雅。
庄重。
但不太像一个活人生活的街区。
这也解释了为什么“语料质量”和“语料生命力”不是一回事。
一个语言可以有极高质量的经典文本,却缺少现代经验。
一个语言可以有海量日常文本,却充满噪声、平台梗、广告和重复。
模型需要两者:经典给结构,日常给生命。
七、文化不是装饰,它会进入模型的默认答案
2024 年的 BLEND benchmark 做了一件很有意义的事:它不是问模型“法国首都是哪里”这种百科题,而是问日常文化问题。
例如一个国家的人生日吃什么、孩子在学校玩什么、体育场常吃什么、节日怎么过。
这些知识不一定写在维基百科里。
但它们是真实生活的一部分。
BLEND 覆盖 16 个国家或地区、13 种语言、约 52.6K 个问答对。结果很清楚:模型对互联网高代表性文化表现更好,对低代表性文化表现明显更差。论文里有个很刺眼的数字:在短答格式下,GPT-4 作为最佳模型,也可能出现最高 57.34% 的文化表现差距。
更有意思的是:
对西班牙语、中文这类中高资源语言,模型用当地语言回答时往往更好。
对阿姆哈拉语、巽他语、阿塞拜疆语这类低资源语言,模型用英文反而更好。
这就很有意思了:
母语不一定总能带来最好的 AI 答案。前提是模型真的学过你的母语和你的生活。
如果模型没有足够的本地语言能力,它可能用你的母语说出一段很像翻译过来的英文世界。
如果模型有本地语料和本地后训练,它才更可能给出本地生活感。
这也是为什么 Qwen 在中文文化问题上可能有优势,HyperCLOVA 在韩语语境中可能有优势。
不是因为它们拥有某种神秘的“民族灵魂”。
而是因为它们更可能吃过那个语言共同体真实留下的文本。
八、意识形态从哪里来?
到这里,这篇文章必须进入最敏感也最重要的一层:
AI 的政治导向从哪里来?
答案不是单一的。
至少有五个来源:
预训练语料
作用:决定模型见过哪些叙事、事实、争论和沉默
例子:哪些媒体、论坛、百科、书籍、法律文本被纳入
数据过滤
作用:决定什么被删掉,什么被保留,什么被降权
例子:色情、暴力、仇恨、政治敏感、低质量文本
后训练对齐
作用:决定模型应该用什么语气、拒绝什么、回避什么
例子:RLHF、DPO、Constitutional AI、安全数据
产品政策
作用:决定部署时的规则和边界
例子:系统提示词、审核器、地区政策、API 过滤
法律与市场
作用:决定公司必须服从谁的规则
例子:美国平台政策、欧盟监管、中国生成式 AI 管理要求
所以 AI 的意识形态不是藏在某一条系统提示词里。
它是一整套训练和部署制度的结果。
OpenAI 的帮助中心也提醒,ChatGPT 并不是没有偏见:它会受到训练数据影响,当前能力仍更偏西方视角,并且英文表现最好;一些安全缓解步骤也主要在英文中测试。OpenAI 2025 年的政治偏差评测文章同样先从美国英语语境做细粒度测试,再观察其他地区和语言的泛化。
Anthropic 的 Claude 4.x 系统卡也能看出类似逻辑:模型不是只靠预训练长出来的,它还会被 helpful, honest, harmless、Constitutional AI、人类反馈、AI 反馈和各种安全评测继续塑形。Claude Opus 4.5 的系统卡还把非英语单轮安全测试扩展到阿拉伯语、法语、韩语、中文普通话和俄语。这里的“宪法”本身就是一种价值选择。
中国模型也一样。中国生成式 AI 服务面对的是另一套监管和平台环境,政治敏感、国家安全、公共舆论、历史叙事都会进入模型开发和部署边界。
这不需要阴谋论。
承认这个事实就够了:
对齐从来不是把 AI 对齐到抽象的人类,而是把 AI 对齐到某个制度、公司、市场、法律和文化共同认可的可接受行为。
当同一个模型用中文和英文回答政治问题时,它可能调用不同语料邻域,也可能触发不同安全策略。
Scientific Reports 2024 的一项双语 GPT 政治偏差研究就发现,模型在中英文提问下对一些中美相关议题会呈现不同倾向。
2026 年还有一个台湾主权双语基准研究,测试同一模型在繁体中文和英文下对台湾相关问题的回答差异。这个研究样本不大,作者立场也很明确,不能当成最终结论。但它提醒我们一个麻烦:
政治敏感问题不能只测一种语言。
如果一个 AI 面向全球用户,它不能只在英文里表现得开放、平衡、准确,而在另一种语言里变成另一套叙事。
这不是“翻译质量”问题。
这是信息世界是否被语言分割的问题。
九、中美 AI 竞争,本质上也是语言世界的竞争
现在回到中文和英文。
中美 AI 竞争表面上是模型、算力、芯片、开源、闭源、Agent、机器人。
但它还有一条更隐蔽的线:
谁来压缩世界。
英文模型如果压缩的是英文互联网,它天然继承英文世界的知识结构、问题设置、价值争论和制度默认值。
中文模型如果压缩的是中文互联网,它天然继承中文世界的生活经验、政策语境、文化记忆、平台表达和沉默区域。
这不是谁“更客观”的简单问题。
任何模型都不是从上帝视角压缩世界。
它只能从某些数据、某些语言、某些机构、某些规则出发压缩世界。
这就解释了为什么中国必须做自己的模型。
不仅是因为中文回答更顺。
不仅是因为国产替代。
也不仅是因为数据安全。
更深一层是:
如果一个文明没有能力把自己的语言、经验和问题压缩进基础模型,它就会长期通过别人的概念框架理解自己。
反过来,英文世界也会担心中国模型输出另一套价值体系。
所以 AI 语言问题天然有政治性。
不是因为技术人员非要把政治塞进模型。
而是因为语言本来就是政治、文化、历史和经验的压缩格式。
你训练语言模型,就不可能只训练语法。
你一定在训练一种世界如何被叙述。
十、那 AI 到底有没有母语?
现在可以收束了。
AI 没有人类意义上的母语。
它没有童年。
没有母亲。
没有地方口音。
没有第一次听懂一句话时的身体记忆。
但 AI 有另一种东西:
AI 的“语言重力” = 互联网语言分布 × 训练语料比例 × Tokenizer 成本 × 内部表示对齐 × 后训练和产品制度这不是母语。
但它会表现得很像母语。
它会决定模型在哪种语言里更自然。
在哪种语言里更便宜。
在哪种语言里更有知识。
在哪种语言里更安全或更保守。
在哪种语言里更容易继承某种文化和政治默认值。
所以,问“AI 的母语是不是英文”,不如问:
这个模型的重力中心在哪里?
它吃过什么语言?
它的 tokenizer 给谁留了短路?
它的内部表示里哪些语言共享知识,哪些语言彼此隔离?
它的对齐数据是谁标的?
它的安全边界由哪套制度定义?
它服务的是哪个市场?
它害怕冒犯谁?
它默认把谁当成普通用户?
这些问题加起来,才是 AI 的语言身份。
结尾:语言是文明给世界做的压缩
人类发明语言,是为了把混沌世界切成可以理解、可以交流、可以继承的结构。
中文切出一套世界。
英文切出一套世界。
法语、西班牙语、俄语、日语、韩语、阿拉伯语、拉丁语,也各自切出一套世界。
AI 的出现,让我们第一次这么清楚地看到:
语言不是透明玻璃。
语言是一把刀。
它切开世界,也塑造世界。
大语言模型表面上在学习语言,实际上是在学习人类如何压缩世界。
所以,当你切换提示词语言时,你切换的不是外壳。
你是在换一条进入世界的路。
AI 没有母语。
但它有来路。
它的来路写在语料里,写在 tokenizer 里,写在向量空间里,写在对齐制度里,也写在每一种语言背后的文明经验里。
这才是“AI 有母语吗”这个问题真正有意思的地方。
它最后问的不是 AI。
它问的是我们:
一个语言共同体,是否还有能力把自己的世界,压缩进下一代智能的底层结构里。
本公众号延伸阅读
- 中文 vs 英文:大语言模型的语言鸿沟与技术突围
:本文的技术前传,讲训练语料、Tokenizer 和 Embedding 如何造成中英文差异。 - 计算机只懂 0 和 1——从莫尔斯电码到 GPT 的编码简史
:理解输入法、Unicode、UTF-8、BPE 和 token 的关系。 - 当数字学会了远近亲疏——Embedding 的一步跨越
:理解为什么编号不是意义,向量才开始接近意义。 - 万物皆向量——当 AI 选择用数学理解世界
:理解为什么 AI 的内部表示不是中文或英文,而是高维向量结构。 - 谁在决定 AI 的性格?——从文字接龙到讨好型机器
:理解对齐、RLHF、产品政策如何塑造 AI 的公共人格。
参考资料
W3Techs. Usage statistics of content languages for websites. 2026-06-04. Brown et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165. OpenAI GPT-3 language statistics: languages_by_word_count.csv.OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774. OpenAI (2024). GPT-4o System Card. OpenAI (2025). GPT-5 System Card and Evaluating political bias in GPT-5. OpenAI (2026). GPT-5.5 System Card. Anthropic (2026). Claude model system cards and Transparency Hub model reports. Meta AI (2024). The Llama 3 Herd of Models. arXiv:2407.21783. DeepSeek-AI (2024). DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv:2405.04434. Qwen Team (2024). Qwen2.5 Technical Report. arXiv:2412.15115. GLM Team (2024). ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools. arXiv:2406.12793. Yang et al. (2023). Baichuan 2: Open Large-scale Language Models. arXiv:2309.10305. BigScience Workshop (2022). BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. arXiv:2211.05100. Petrov et al. (2023). Language Model Tokenizers Introduce Unfairness Between Languages. NeurIPS 2023 / arXiv:2305.15425. Cui et al. (2023). Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca. arXiv:2304.08177. Fierro & Søgaard / Qi et al. (2023). Cross-lingual Consistency of Factual Knowledge in Multilingual Language Models. arXiv:2310.10378. Myung et al. (2024). BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages. arXiv:2406.09948. Wang et al. (2024). Political biases and inconsistencies in bilingual GPT models: A case study of ChatGPT. Scientific Reports. Ko (2026). Bilingual Bias in Large Language Models: A Taiwan Sovereignty Benchmark Study. arXiv:2602.06371. Anthropic (2025). On the biology of a large language model and Natural Language Autoencoders. Anthropic Research.
AI-lab学习笔记
夜雨聆风