AI 有母语吗?——从中文、英文到模型的世界观

同一个问题换一种语言问，AI 给出的常常不只是另一种表达，而是另一套语料重心、Tokenizer 成本、知识路径、文化默认值和对齐制度。AI 没有母语，但它有被训练出来的语言重力。

同一个问题换一种语言问，AI 改变的不只是表达方式。它会经过不同的语料重心、Tokenizer 成本、知识路径、文化默认值和对齐制度。AI 没有母语，但它有语言重力。

① 输入法不是答案 → ② 互联网语言分布 → ③ 模型训练语料的公开与不公开 → ④ Tokenizer 语言税 → ⑤ 语言、文化和意识形态

开头：同一个 AI，为什么像换了一个人？

你问一个大语言模型：

你怎么看人工智能对教育的影响？

用中文问，它可能谈学习焦虑、应试教育、家长、补课、就业。

用英文问，它可能谈 personalized learning、equity、teacher productivity、privacy。

用法语问，它可能更自然地进入欧洲公共教育、文化保护、语言多样性。

用俄语问，它可能带出国家、技术主权、地缘安全。

用日语或韩语问，它可能更容易落到少子化、职场、学校制度、社会压力。

如果你用拉丁语问，它甚至会像从一间古典图书馆里回答你：语法端正，历史感很强，但现实生活感很弱。

这就引出一个很要命的问题：

AI 到底有没有母语？

如果没有，为什么换一种语言，答案的气质会变？

如果有，它的母语是英文吗？中文模型的母语是中文吗？还是说，模型真正的语言根本不是人类语言，而是向量？

这篇文章想给一个更准确的回答：

AI 没有母语，但它有语料重心、Tokenizer 成本、内部表示的偏心、对齐制度和价值坐标。你切换的不只是中文和英文，有时是在切换一套被压缩进模型的世界观。

这个问题表面是技术问题，深处其实是文明问题。

语言不是外壳。语言是人类理解世界的路线图。

当 AI 学会语言，它学到的不只是词汇和语法，也学到了一套世界如何被划分、命名、排序和评价的方式。

一、先排除一个误会：不是输入法决定 AI 的语言

有人会问：AI 对中文和英文的差异，是不是因为计算机底层就更适合英文？

毕竟键盘是英文键盘。

编程语言大多是英文。

ASCII 最早只服务英文。

英文一个字母只占 1 个字节，中文一个汉字在 UTF-8 里通常占 3 个字节。

这些都是真的，但它们不是最终答案。

你在手机上用中文输入法打出“人工智能”时，输入法先把你的拼音、手写或语音变成汉字。进入计算机之后，它走的是这条链：

输入法   → Unicode 字符   → UTF-8 字节   → Tokenizer   → token ID   → Embedding 向量   → Transformer 内部激活   → 输出 token   → 再解码成人类文字

AI 不是在“英文键盘”里思考。

它也不是直接在“中文输入法”里思考。

输入法只是入口。真正决定模型怎么处理语言的，是后面的三件事：

这种语言在训练数据里出现了多少。
Tokenizer 有没有为这种语言设计高效的表示。
对齐和安全训练有没有覆盖这种语言和文化语境。

计算机的底层确实有历史遗留。ASCII、Unicode、UTF-8、BPE，都不是从一个完美平等的语言宇宙里长出来的。它们是在真实互联网、真实工程、真实成本里演化出来的。

所以更准确的说法不是：

计算机天生讲英文。

而是：

互联网和计算机工业的早期历史，让英文在数字世界里获得了巨大的先发优势。

这个先发优势后来被写进了网页、代码、文档、开源社区、论文、评测集、Tokenizer 和训练数据。

它没有决定一切。

但它给所有后来语言都设了一道门槛。

二、第一层偏心：互联网本身就不是按人口分布写成的

大语言模型吃的不是“人类全部经验”。

它吃的是可获得、可抓取、可授权、可清洗、可训练的文本。

这句话很重要。

世界上说中文的人很多，说印地语、阿拉伯语、西班牙语的人也很多。但这不等于这些语言在可训练互联网文本里占同样比例。

W3Techs 在 2026 年 6 月 4 日的内容语言统计显示，在已知内容语言的网站中，英文仍占 49.7%。后面依次是西班牙语 6.0%、德语 6.0%、日语 5.0%、法语 4.6%、葡萄牙语 4.1%、俄语 3.5%、意大利语 2.8%。中文是 1.2%，韩语是 0.9%。拉丁语则在“低于 0.1%”的长尾里。

英文

W3Techs 网站内容占比（2026-06-04）：49.7%

对 AI 训练的含义：最大的公开网页知识池，论文、代码、文档、论坛高度集中

西班牙语

W3Techs 网站内容占比（2026-06-04）：6.0%

对 AI 训练的含义：高资源语言，拉美和欧洲语境丰富，但仍远低于英文

德语

W3Techs 网站内容占比（2026-06-04）：6.0%

对 AI 训练的含义：高资源欧洲语言，技术和制度文本质量较高

日语

W3Techs 网站内容占比（2026-06-04）：5.0%

对 AI 训练的含义：资源不低，但书写系统和 Tokenizer 要求更高

法语

W3Techs 网站内容占比（2026-06-04）：4.6%

对 AI 训练的含义：高资源语言，欧洲、非洲、加拿大语境混合

葡萄牙语

W3Techs 网站内容占比（2026-06-04）：4.1%

对 AI 训练的含义：巴西语境很重要，和欧洲葡语也不同

俄语

W3Techs 网站内容占比（2026-06-04）：3.5%

对 AI 训练的含义：技术、文学、地缘政治内容都强，但语境高度区域化

中文

W3Techs 网站内容占比（2026-06-04）：1.2%

对 AI 训练的含义：人口大，但大量内容在 App、公众号、平台墙和不可抓取空间里

韩语

W3Techs 网站内容占比（2026-06-04）：0.9%

对 AI 训练的含义：本土平台和文化语境强，需要专门数据补足

拉丁语

W3Techs 网站内容占比（2026-06-04）：<0.1%

对 AI 训练的含义：古典文本多，活的日常反馈极少

这张表不能简单等同于训练语料比例。模型公司会购买数据、合成数据、过滤数据、加权采样，也会刻意补齐某些语言。

但它揭示了一个基本事实：

AI 吃到的世界，不是人口统计意义上的世界，而是可数字化、可抓取、可训练的世界。

中文世界有一个特殊问题：很多真正有价值的中文内容不在开放网页上。

公众号、微信群、知乎盐选、小红书、B 站评论、垂直社群、企业文档、地方政务材料、课堂笔记、行业报告，大量内容要么不可爬，要么版权复杂，要么噪声巨大，要么平台封闭。

所以中文不是“不重要”。

恰恰相反，中文世界很大。

问题是：这个世界有相当一部分没有以训练友好的方式进入模型。

这也是为什么“数据主权”不是一句口号。它背后是一个非常具体的技术问题：

谁能把一个语言共同体的真实经验，整理成可训练、可验证、可更新、可对齐的数据？

三、第二层偏心：模型训练语料不是一个公开透明的账本

很多人想知道：GPT、Claude、Qwen、DeepSeek、Llama，到底用了多少中文、多少英文、多少日语、多少韩语？

真正麻烦的是：大多数模型并不公开精确语言分布。

目前最有代表性的精确公开数字，反而来自比较早的 GPT-3。

OpenAI 在 GPT-3 论文配套数据中公开过按词数统计的语言分布：英文 92.64708%，法语 1.81853%，德语 1.46937%，西班牙语 0.77289%，意大利语 0.60793%，葡萄牙语 0.52483%，俄语 0.18843%，日语 0.11109%，中文 0.09905%。

换句话说，GPT-3 不是一个“多语言均衡模型”。

它首先是一个英文互联网压缩器，然后在这个基础上长出了跨语言迁移能力。

我们先把能看到的线索摆出来。

GPT-3

公开线索：官方公开语言表，英文 92.65%，中文约 0.10%，日语约 0.11%，俄语约 0.19%

我会怎么读：这是早期 GPT 英文重心的硬证据

还不确定的地方：拿这个比例直接推 GPT-5 / GPT-5.5，会太粗

GPT-5 / GPT-5.5

公开线索：GPT-5 系统卡说用了公开互联网信息、第三方合作数据、用户/标注员/研究者提供或生成的数据，并经过过滤和安全训练；GPT-5.5 系统卡更多谈安全评测和部署防护

我会怎么读：可以判断它早已不是 GPT-3 那种简单英文网页压缩器，而是混合数据、后训练和产品制度共同塑形的系统

还不确定的地方：中文、英文各占多少，官方没给，只能从能力、评测和产品定位侧面估

GPT-4o

公开线索：旧系统卡提到 Web、代码数学、多模态数据，也提到 45 种语言红队测试和低代表性语言评测

我会怎么读：说明 OpenAI 很早就在补多语言和多模态评测

还不确定的地方：训练语料的语言比例依然不是一本公开账

Claude 4.x 系列

公开线索：Anthropic 系统卡和透明度报告说有公开互联网信息、第三方非公开数据、标注数据、用户选择加入数据和内部生成数据；系统卡页截至 2026-06-04 已列到 Claude Opus 4.8

我会怎么读：可以读出它是专有混合数据，再经过 helpful, honest, harmless、Constitutional AI、RLHF/RLAIF 等对齐塑形

还不确定的地方：中文、英文、法语、日语各占多少，没有公开

Llama 3

公开线索：约 15T 多语言 token；最终数据混合约 50% 通用知识、25% 数学推理、17% 代码、8% 多语言；128K 词表中额外加入 28K 非英语 token

我会怎么读：这是英文、代码、通用知识很强，同时主动补非英语 token 的路线

还不确定的地方：8% 多语言里每种自然语言怎么分，没有细账

DeepSeek-V2

公开线索：8.1T token；技术报告明确说中文 token 约比英文多 12%；主要由中文和英文内容组成，其他语言需谨慎

我会怎么读：这是少数把中英文相对比例说得比较清楚的中国模型

还不确定的地方：拿 V2 的比例直接推 DeepSeek-V3 或后续模型，也会太粗

Qwen2.5

公开线索：18T token；151,643 词表；多语言语料、中文英文评测、多语言后训练都很明确

我会怎么读：中英和多语言不是补丁，而是核心设计之一

还不确定的地方：中文精确占比没有公开

GLM-4

公开线索：约十万亿 token，主要是中文和英文，另有 24 种语言小规模语料；150K 词表由中文、多语言和 cl100k_base 合并

我会怎么读：典型的中英双主干路线

还不确定的地方：中文、英文各自百分比没有公开

Baichuan 2

公开线索：2.6T token，多语言，重点覆盖中文和英文，125,696 词表

我会怎么读：明显是在中英文上做优化

还不确定的地方：语言比例没有公开

BLOOM

公开线索：ROOTS 语料 1.61TB，46 种自然语言 + 13 种编程语言

我会怎么读：它不一定是今天最强助手，但多语言治理和透明度很有标本价值

还不确定的地方：它更像透明多语言项目的标本，不等于前沿闭源模型的普遍做法

这张表不只是为了列资料。它真正想说明的是：

闭源前沿模型能力最强，但语言分布最不透明；开放模型透明一些，但也很少把每种语言比例完整公开。

所以，面对“GPT 的中文占比多少”“Claude 的中文占比多少”这类问题，我不会说完全不能估。

人当然会估。

我自己也会估。

但要把两件事分开：

官方没公开，这是事实。根据能力、评测、产品定位和公开系统卡去推测，这是分析。

前者是账本。

后者是判断。

判断可以大胆一点，但不能把它写成账本。

从现有公开材料看，我会这样读：

从系统卡和产品评测看，GPT-5 / GPT-5.5 已比 GPT-3 时代更系统地处理多语言、工具和安全评测，但语言比例仍然不知道。

Claude 4.x 系列也明确使用大规模多样数据和多语言安全评测，但比例同样不知道。

Qwen、DeepSeek、GLM、Baichuan 这类中国模型明显把中文和英文作为核心训练语言，而不是把中文当作英文模型的附属能力。

Llama 3 则更像一个以英文和代码为强中心、额外增强多语言能力的开放权重模型。

这就是模型的“语言重心”。

它不是母语。

但它会影响模型默认知道什么，优先联想到什么，在哪些语言里更顺，在哪些语境里更容易露怯。

四、第三层偏心：Tokenizer 是一道语言税

训练数据决定模型见过什么世界。

Tokenizer 决定模型用多大代价读这个世界。

这件事常常被低估。

同一句话，如果英文只需要 10 个 token，某些语言却需要 20、30、甚至 100 多个 token，那么这个语言的用户就天然吃亏：

更贵。

更慢。

上下文窗口里能塞进去的信息更少。

同样 128K context，英文用户能塞一本书，某些低资源语言用户可能只能塞半本甚至更少。

NeurIPS 2023 有篇论文《Language Model Tokenizers Introduce Unfairness Between Languages》，研究的就是这道隐藏的语言成本。它发现，同一内容翻译成不同语言后，token 长度可以相差非常大，极端情况下可到 15 倍。即使是刻意支持多语言的 tokenizer，也无法完全消除差异。

这就是所谓的 tokenization unfairness。

它不是模型“回答得好不好”之后才出现的问题。

它在模型看到文本之前就已经发生了。

对中文来说，早期英文中心 tokenizer 的问题非常明显。

原始 LLaMA 词表里中文 token 很少，很多汉字会被拆成 3 到 4 个 UTF-8 字节 token。Chinese-LLaMA 的技术报告直接指出：原始 LLaMA vocabulary 对中文覆盖不足，所以他们额外加入 20,000 个中文 token，把中文 tokenizer 合并后扩到约 49,953 个 token。初步实验显示，新的中文 LLaMA tokenizer 生成的 token 数大约是原始 LLaMA tokenizer 的一半。

这不是小修小补。

这意味着同样的上下文窗口可以装进大约两倍中文信息，生成速度也显著改善。

Llama 3 也吸取了这个教训。它的 128K 词表里，100K 来自 tiktoken，另外加入 28K token 来更好支持非英语语言。Meta 的技术报告明确说，这改善了非英语语言压缩率和下游性能，并且不影响英文 tokenization。

Qwen 和 GLM 的路线更直接：一开始就把中文、多语言和英文 token 设计进统一词表。

这里有一个关键判断：

Tokenizer 不是中性的刀。它在哪里切，什么语言就在哪里流血。

英文有空格，BPE 容易学出高频词块。

中文没有空格，一个词的边界本来就需要统计和语义判断。

日语混用汉字、假名、外来语片假名。

韩语有音节块和词尾变化。

俄语、西班牙语、法语有复杂屈折、性数格、重音符号。

阿拉伯语、印地语、泰语、藏语、缅甸语、许多少数民族语言还有更复杂的书写和分词问题。

如果 tokenizer 的训练数据里这些语言少，它就不会给它们留下足够好的“短编码”。

你可以把它理解成一种语言税：

语言税 = 同样意思需要多付出的 token        = 更多费用 + 更多延迟 + 更短上下文 + 更弱训练效率

从这个角度看，中文模型不是只在“民族情绪”上需要。

它在工程上也需要。

如果一个语言长期用别人的 tokenizer、别人的语料重心、别人的对齐制度来进入 AI，它就会长期多交这道税。

五、模型内部到底用什么语言思考？

到这里，问题又变复杂了。

如果模型最终都把 token 变成向量，那么它内部到底是在中文里思考，还是在英文里思考？

我的判断是：

都不是。

模型内部不是中文句子，也不是英文句子。

它内部是高维向量、注意力模式、残差流、MLP 激活和概率分布。

在《万物皆向量》那篇文章里，我们说过一句话：

人类用语言把世界切成碎片来理解，AI 用向量把碎片织成连续的空间来理解。

这句话放在多语言问题上同样成立。

“苹果”“apple”“pomme”“manzana”“яблоко”“りんご”“사과”这些词，在人类语言里属于不同系统。但在模型的向量空间里，它们可以被拉到相近区域，因为它们出现在相似语境里，和类似视觉、味觉、购买、食物、神话、科技品牌等概念共同出现。

但“相近”不等于“完全一样”。

还有一个更细的问题：同一个事实，换一种语言问，模型是不是真的在调用同一份知识？

2023 年有篇跨语言事实一致性研究（arXiv:2310.10378）就在看这个问题。它发现，不同语言用户向同一个模型问同一个事实问题时，模型不一定给出一致答案；模型变大可以提升很多语言的事实准确率，但不必然提升跨语言一致性；语言之间的词表重叠和书写系统相似度，会显著影响知识是否能跨语言共享。

这就解释了一个现象：

模型不是简单地在“世界知识库”里查一个事实，然后翻译成不同语言。

很多时候，它是在不同语言入口下，激活了不同的局部路径。

这些路径可能重合。

也可能分叉。

英文和西班牙语、法语之间，拉丁字母、词源、互联网交叉引用、翻译数据和共享知识更多，路径更容易相连。

俄语和乌克兰语同属西里尔书写和相近语系，某些事实路径也可能更接近。

中文、日语、韩语之间共享一部分汉字文化圈遗产，但现代语料、政治语境、平台生态和 tokenizer 设计又差异很大。

拉丁语则更特殊。它有大量高质量古典文本，却缺少现代生活中的原生反馈。模型会学会“拉丁语作为古典文本”的世界，却很难学到“拉丁语作为当代社区日常语言”的世界。

所以，“AI 是不是在英文里思考”这个问题，答案不能简单说是或否。

更准确的说法是：

AI 不在英文里思考，但许多模型的内部表示和知识路径被英文语料强烈塑形。

英文不是模型内部唯一的语言。

但它经常是最大的重力源。

六、不同语言用户，拿到的是不是同一个世界？

现在可以回答一个更现实的问题：

如果法国人、西班牙人、俄罗斯人、中国人、日本人、韩国人、拉丁语学习者都用母语问同一个 AI，他们拿到的信息一样吗？

不完全一样。

差异大致来自五个层面：

同一个问题   → 不同语言表达   → 不同 token 序列   → 不同向量路径   → 不同训练语料邻域   → 不同对齐和安全触发   → 不同答案

这不是说 AI 每次都会给出相反答案。

而是说，语言会改变模型进入知识空间的路径。

英文：默认主干

英文是当前 AI 世界的主干语言。

论文、代码、GitHub issue、Stack Overflow、产品文档、Hacker News、Reddit、技术博客、模型评测，大量关键训练材料和对齐材料都以英文存在。

所以英文用户经常得到最稳定、最完整、最少翻译腔的回答。

这不是因为英文更高级。

是因为可训练数字世界长期围绕英文组织。

中文：人口巨大，但可训练空间割裂

中文的优势是使用者多、文化密度高、现实议题强。

中文的劣势是开放网页占比不高，大量内容在平台内、App 内、封闭社群内、图片视频内，或者以难以清洗的形式存在。

中国模型通过提高中文语料、重训 tokenizer、做中文后训练和中文评测，把这个差距补回来。

DeepSeek-V2 的“中文 token 约比英文多 12%”，GLM-4 的“主要中文和英文”，Qwen 的 151K 大词表和中文多语言评测，都是这个方向的工程信号。

但中文还有一个额外问题：政治和平台生态会强烈影响可见文本。

这不是中文独有的问题。

所有语言都有自己的政治过滤、媒体结构和平台偏见。

只是中文在中美 AI 竞争、信息管制、平台封闭和地缘叙事上，表现得更集中、更显眼。

法语和西班牙语：高资源，但不是“小英文”

法语和西班牙语是高资源语言。

它们有大量网页、书籍、媒体、法律和教育文本，也和英文共享大量拉丁词根、学术概念和翻译数据。

所以它们通常比低资源语言更接近英文主干。

但它们不是英文的翻译。

法国语境里的世俗主义、教育、文化保护、欧盟监管，和美国英语语境不同。

西班牙语也不是一个单一世界。西班牙、墨西哥、阿根廷、哥伦比亚、智利、美国拉美社区，政治文化和日常生活差异很大。

模型如果只学到“西班牙语 = 西班牙或泛拉美刻板印象”，就会在具体文化问题上犯错。

俄语：语言、国家和地缘政治高度纠缠

俄语资源丰富，文学传统深，技术资料也不少。

但俄语语料里的政治、媒体和国家叙事高度集中。

当用户用俄语问历史、战争、国际关系、国家制度，模型激活的不只是俄语语法，还可能激活一整套俄语互联网中的叙事结构。

这不意味着俄语一定带来某种立场。

它意味着：语言入口会改变模型最容易调用的语料邻域。

日语和韩语：强文化共同体，需要本土语料

日语和韩语都有高度发达的本土互联网、媒体、娱乐、教育和职场语境。

它们对 AI 的挑战不只是“翻译准确”。

而是能不能理解：

敬语。

暧昧表达。

社会角色。

学校和公司制度。

偶像文化、游戏文化、漫画语境。

南北韩同用韩语，但文化现实完全不同。BLEND 文化基准里就把 South Korea 和 North Korea 分开处理，因为同一种语言可以承载不同社会。

这件事提醒我们：

语言不是文化的全部，但语言是进入文化的主要入口。

拉丁语：知识多，生活少

拉丁语是一个很好的反例。

它有高度经典化的文本传统：西塞罗、维吉尔、奥古斯丁、经院哲学、教会文献、科学命名。

模型可以学到很多“高质量拉丁语”。

但拉丁语缺少现代母语社区、现代口语生活、当代社交媒体反馈和日常纠错。

所以 AI 的拉丁语能力很容易像一座博物馆：

典雅。

庄重。

但不太像一个活人生活的街区。

这也解释了为什么“语料质量”和“语料生命力”不是一回事。

一个语言可以有极高质量的经典文本，却缺少现代经验。

一个语言可以有海量日常文本，却充满噪声、平台梗、广告和重复。

模型需要两者：经典给结构，日常给生命。

七、文化不是装饰，它会进入模型的默认答案

2024 年的 BLEND benchmark 做了一件很有意义的事：它不是问模型“法国首都是哪里”这种百科题，而是问日常文化问题。

例如一个国家的人生日吃什么、孩子在学校玩什么、体育场常吃什么、节日怎么过。

这些知识不一定写在维基百科里。

但它们是真实生活的一部分。

BLEND 覆盖 16 个国家或地区、13 种语言、约 52.6K 个问答对。结果很清楚：模型对互联网高代表性文化表现更好，对低代表性文化表现明显更差。论文里有个很刺眼的数字：在短答格式下，GPT-4 作为最佳模型，也可能出现最高 57.34% 的文化表现差距。

更有意思的是：

对西班牙语、中文这类中高资源语言，模型用当地语言回答时往往更好。

对阿姆哈拉语、巽他语、阿塞拜疆语这类低资源语言，模型用英文反而更好。

这就很有意思了：

母语不一定总能带来最好的 AI 答案。前提是模型真的学过你的母语和你的生活。

如果模型没有足够的本地语言能力，它可能用你的母语说出一段很像翻译过来的英文世界。

如果模型有本地语料和本地后训练，它才更可能给出本地生活感。

这也是为什么 Qwen 在中文文化问题上可能有优势，HyperCLOVA 在韩语语境中可能有优势。

不是因为它们拥有某种神秘的“民族灵魂”。

而是因为它们更可能吃过那个语言共同体真实留下的文本。

八、意识形态从哪里来？

到这里，这篇文章必须进入最敏感也最重要的一层：

AI 的政治导向从哪里来？

答案不是单一的。

至少有五个来源：

预训练语料

作用：决定模型见过哪些叙事、事实、争论和沉默

例子：哪些媒体、论坛、百科、书籍、法律文本被纳入

数据过滤

作用：决定什么被删掉，什么被保留，什么被降权

例子：色情、暴力、仇恨、政治敏感、低质量文本

后训练对齐

作用：决定模型应该用什么语气、拒绝什么、回避什么

例子：RLHF、DPO、Constitutional AI、安全数据

产品政策

作用：决定部署时的规则和边界

例子：系统提示词、审核器、地区政策、API 过滤

法律与市场

作用：决定公司必须服从谁的规则

例子：美国平台政策、欧盟监管、中国生成式 AI 管理要求

所以 AI 的意识形态不是藏在某一条系统提示词里。

它是一整套训练和部署制度的结果。

OpenAI 的帮助中心也提醒，ChatGPT 并不是没有偏见：它会受到训练数据影响，当前能力仍更偏西方视角，并且英文表现最好；一些安全缓解步骤也主要在英文中测试。OpenAI 2025 年的政治偏差评测文章同样先从美国英语语境做细粒度测试，再观察其他地区和语言的泛化。

Anthropic 的 Claude 4.x 系统卡也能看出类似逻辑：模型不是只靠预训练长出来的，它还会被 helpful, honest, harmless、Constitutional AI、人类反馈、AI 反馈和各种安全评测继续塑形。Claude Opus 4.5 的系统卡还把非英语单轮安全测试扩展到阿拉伯语、法语、韩语、中文普通话和俄语。这里的“宪法”本身就是一种价值选择。

中国模型也一样。中国生成式 AI 服务面对的是另一套监管和平台环境，政治敏感、国家安全、公共舆论、历史叙事都会进入模型开发和部署边界。

这不需要阴谋论。

承认这个事实就够了：

对齐从来不是把 AI 对齐到抽象的人类，而是把 AI 对齐到某个制度、公司、市场、法律和文化共同认可的可接受行为。

当同一个模型用中文和英文回答政治问题时，它可能调用不同语料邻域，也可能触发不同安全策略。

Scientific Reports 2024 的一项双语 GPT 政治偏差研究就发现，模型在中英文提问下对一些中美相关议题会呈现不同倾向。

2026 年还有一个台湾主权双语基准研究，测试同一模型在繁体中文和英文下对台湾相关问题的回答差异。这个研究样本不大，作者立场也很明确，不能当成最终结论。但它提醒我们一个麻烦：

政治敏感问题不能只测一种语言。

如果一个 AI 面向全球用户，它不能只在英文里表现得开放、平衡、准确，而在另一种语言里变成另一套叙事。

这不是“翻译质量”问题。

这是信息世界是否被语言分割的问题。

九、中美 AI 竞争，本质上也是语言世界的竞争

现在回到中文和英文。

中美 AI 竞争表面上是模型、算力、芯片、开源、闭源、Agent、机器人。

但它还有一条更隐蔽的线：

谁来压缩世界。

英文模型如果压缩的是英文互联网，它天然继承英文世界的知识结构、问题设置、价值争论和制度默认值。

中文模型如果压缩的是中文互联网，它天然继承中文世界的生活经验、政策语境、文化记忆、平台表达和沉默区域。

这不是谁“更客观”的简单问题。

任何模型都不是从上帝视角压缩世界。

它只能从某些数据、某些语言、某些机构、某些规则出发压缩世界。

这就解释了为什么中国必须做自己的模型。

不仅是因为中文回答更顺。

不仅是因为国产替代。

也不仅是因为数据安全。

更深一层是：

如果一个文明没有能力把自己的语言、经验和问题压缩进基础模型，它就会长期通过别人的概念框架理解自己。

反过来，英文世界也会担心中国模型输出另一套价值体系。

所以 AI 语言问题天然有政治性。

不是因为技术人员非要把政治塞进模型。

而是因为语言本来就是政治、文化、历史和经验的压缩格式。

你训练语言模型，就不可能只训练语法。

你一定在训练一种世界如何被叙述。

十、那 AI 到底有没有母语？

现在可以收束了。

AI 没有人类意义上的母语。

它没有童年。

没有母亲。

没有地方口音。

没有第一次听懂一句话时的身体记忆。

但 AI 有另一种东西：

AI 的“语言重力”   = 互联网语言分布   × 训练语料比例   × Tokenizer 成本   × 内部表示对齐   × 后训练和产品制度

这不是母语。

但它会表现得很像母语。

它会决定模型在哪种语言里更自然。

在哪种语言里更便宜。

在哪种语言里更有知识。

在哪种语言里更安全或更保守。

在哪种语言里更容易继承某种文化和政治默认值。

所以，问“AI 的母语是不是英文”，不如问：

这个模型的重力中心在哪里？

它吃过什么语言？

它的 tokenizer 给谁留了短路？

它的内部表示里哪些语言共享知识，哪些语言彼此隔离？

它的对齐数据是谁标的？

它的安全边界由哪套制度定义？

它服务的是哪个市场？

它害怕冒犯谁？

它默认把谁当成普通用户？

这些问题加起来，才是 AI 的语言身份。

结尾：语言是文明给世界做的压缩

人类发明语言，是为了把混沌世界切成可以理解、可以交流、可以继承的结构。

中文切出一套世界。

英文切出一套世界。

法语、西班牙语、俄语、日语、韩语、阿拉伯语、拉丁语，也各自切出一套世界。

AI 的出现，让我们第一次这么清楚地看到：

语言不是透明玻璃。

语言是一把刀。

它切开世界，也塑造世界。

大语言模型表面上在学习语言，实际上是在学习人类如何压缩世界。

所以，当你切换提示词语言时，你切换的不是外壳。

你是在换一条进入世界的路。

AI 没有母语。

但它有来路。

它的来路写在语料里，写在 tokenizer 里，写在向量空间里，写在对齐制度里，也写在每一种语言背后的文明经验里。

这才是“AI 有母语吗”这个问题真正有意思的地方。

它最后问的不是 AI。

它问的是我们：

一个语言共同体，是否还有能力把自己的世界，压缩进下一代智能的底层结构里。

本公众号延伸阅读

中文 vs 英文：大语言模型的语言鸿沟与技术突围
：本文的技术前传，讲训练语料、Tokenizer 和 Embedding 如何造成中英文差异。
计算机只懂 0 和 1——从莫尔斯电码到 GPT 的编码简史
：理解输入法、Unicode、UTF-8、BPE 和 token 的关系。
当数字学会了远近亲疏——Embedding 的一步跨越
：理解为什么编号不是意义，向量才开始接近意义。
万物皆向量——当 AI 选择用数学理解世界
：理解为什么 AI 的内部表示不是中文或英文，而是高维向量结构。
谁在决定 AI 的性格？——从文字接龙到讨好型机器
：理解对齐、RLHF、产品政策如何塑造 AI 的公共人格。

参考资料

W3Techs. Usage statistics of content languages for websites. 2026-06-04.
Brown et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165. OpenAI GPT-3 language statistics: languages_by_word_count.csv.
OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774.
OpenAI (2024). GPT-4o System Card.
OpenAI (2025). GPT-5 System Card and Evaluating political bias in GPT-5.
OpenAI (2026). GPT-5.5 System Card.
Anthropic (2026). Claude model system cards and Transparency Hub model reports.
Meta AI (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
DeepSeek-AI (2024). DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv:2405.04434.
Qwen Team (2024). Qwen2.5 Technical Report. arXiv:2412.15115.
GLM Team (2024). ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools. arXiv:2406.12793.
Yang et al. (2023). Baichuan 2: Open Large-scale Language Models. arXiv:2309.10305.
BigScience Workshop (2022). BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. arXiv:2211.05100.
Petrov et al. (2023). Language Model Tokenizers Introduce Unfairness Between Languages. NeurIPS 2023 / arXiv:2305.15425.
Cui et al. (2023). Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca. arXiv:2304.08177.
Fierro & Søgaard / Qi et al. (2023). Cross-lingual Consistency of Factual Knowledge in Multilingual Language Models. arXiv:2310.10378.
Myung et al. (2024). BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages. arXiv:2406.09948.
Wang et al. (2024). Political biases and inconsistencies in bilingual GPT models: A case study of ChatGPT. Scientific Reports.
Ko (2026). Bilingual Bias in Large Language Models: A Taiwan Sovereignty Benchmark Study. arXiv:2602.06371.
Anthropic (2025). On the biology of a large language model and Natural Language Autoencoders. Anthropic Research.

AI-lab学习笔记