AI不认识汉字也不认识单词,它眼里的世界长什么样?

本期摘要

AI把所有文字都切成Token碎片，用向量表示。它不知道"猫"长什么样，只知道"猫"这个Token和"动物""宠物"的向量距离近。这是AI理解语言的底层逻辑。

上篇回顾

大模型训练三步：预训练（学语言）、SFT（学对话格式）、RLHF（学说人话）。缺一不可，RLHF是ChatGPT成功的关键。

你正在读的这些字，每一个字AI都"见过"。但AI完全不认识这些字。

人类看到"猫"，脑子里会浮现一只毛茸茸的小动物。AI看到"猫"，只是一个编号和一个向量——一串几千维的数字。

这听起来很抽象，但理解这一点，是理解AI所有行为的基础。

一、人类和AI看到同一个字，看到的是完全不同的东西

▲ 人类vs AI对"猫"字的不同理解

让我们做一个对比实验。

人类看到"猫"字

你的大脑会调动大量信息：视觉（毛茸茸、尖耳朵）、听觉（喵喵叫）、触觉（柔软温暖）、情感（可爱、喜欢）、经验（养过猫、被猫抓过）、知识（哺乳动物、食肉目）。这些是你从小到大积累的真实世界经验。

AI看到"猫"字

AI拥有的只有：Token ID（一个编号），以及对应的Embedding向量——一个几千维的数组，比如[0.23,-0.45,0.67,...,0.12]。这串数字代表"猫"这个Token在向量空间中的位置（DeepSeek V3是7168维，GPT-3是12288维，GPT-4维度未公开）。没有图像、没有声音、没有情感、没有真实经验。

这就是AI和人类最根本的区别：人类的理解是基于真实世界的经验，AI的理解是基于文本中的统计关联。

AI不知道"猫"长什么样、摸起来是什么感觉、喵喵叫是什么声音。它只知道"猫"这个Token经常和"可爱""宠物""毛茸茸""喵喵叫"这些Token一起出现。

它不是"理解"了猫，而是"记住"了"猫"和其他词的共现模式。

二、Token：AI的最小处理单位

在变成向量之前，文字首先要被切成Token。Token是AI的最小处理单位——一个Token可能是一个完整的词，也可能是半个词，也可能是一个汉字。

▲ 不同语言的Token切分示例

不同语言被Tokenizer切分的方式不同：

英文

英文Tokenizer很高效。常见词（hello、the、world）都是一个Token。只有生僻词才会被切成多个Token（比如"antidisestablishmentarianism"可能被切成5-6个）。英文的Token效率很高。

中文

中文Tokenizer的效率取决于词表。常见双字词（你好、世界）可能被打包成一个Token。但单字和生僻词各是一个Token。整体来说，中文的Token数通常比英文多30-50%表达同样的内容。

代码

代码模型的Tokenizer针对编程语言优化。关键字（print、if、for）是单独的Token，变量名会被切成子词。这使得AI处理代码时Token效率和英文差不多。

Emoji

每个emoji通常是一个Token。这是因为emoji在Unicode中有独立的码位，Tokenizer可以直接识别。

理解Token有一个很实际的意义：API按Token收费，不是按字数收费。同样意思的内容，中文比英文贵，因为中文需要更多Token。

这也解释了为什么AI处理生僻人名、专业术语时成本高——这些低频内容会被切成多个Token，占用更多上下文空间。

三、向量空间：AI的"概念地图"

▲ 向量空间中的语义距离示意

Token ID只是编号，真正让AI"理解"语义的是Embedding向量——每个Token对应一个高维向量。

DeepSeek V3的向量是7168维，GPT-3是12288维（GPT-4之后OpenAI不再公开维度）。每一维代表某种抽象特征。这些特征不是人工定义的，是模型在预训练过程中自动学习到的。

向量空间的魔力在于：意义相近的词，向量在空间中的距离也近。

举几个示意性的例子（数值用于说明规律，非精确实测）：

同类事物距离近：

猫 ↔ 狗：0.78（都很高，同为宠物）

猫 ↔ 宠物：0.71（语义相关）

猫 ↔ 老鼠：0.55（有关联但不是同类）

不同类事物距离远：

猫 ↔ 汽车：0.12（几乎无关）

猫 ↔ 量子力学：0.05（完全无关）

猫 ↔ 香蕉：0.08（无关）

神奇的向量运算：

vec(国王) - vec(男人) + vec(女人) ≈ vec(女王)（结果向量最接近"女王"）

这个向量运算"国王-男人+女人≈女王"是Word2Vec论文（2013年）中的经典发现，揭示了向量空间能编码语义关系。现代大模型的Embedding维度更高、关系更复杂，但"相似概念在空间中相邻"这个核心规律一脉相承。

这不是人工设计的，是模型在预训练过程中自动涌现的。模型在学习预测下一个词的过程中，不知不觉学会了把相似概念放在向量空间中的相邻位置。

这个向量空间，就是AI的"世界观"。AI的所有"知识"、"理解"、"推理"，都建立在这个向量空间之上。

四、AI不懂"意义"，只懂"关联"

这是整篇文章最重要的一个概念，希望你认真读这一段：

AI不知道"猫"是什么，它只知道"猫"这个Token经常和"可爱""宠物""毛茸茸"一起出现。

这是统计关联，不是真正的理解。

类比一下：假设你是一个外国人，从来没见过猫。你读了一万本关于猫的书，记住了所有描述猫的文字——"毛茸茸""可爱""喵喵叫""抓老鼠"。你能写出关于猫的文章，但你不知道猫真正长什么样。

AI就是那个"外国人"。它"读"了几万亿Token的文本，但它从来没有"看过"一只真正的猫。

统计关联够用吗？

在大部分任务上，统计关联已经够用了。翻译、摘要、问答、代码生成——这些任务本质上就是文字模式匹配。统计关联足以完成。

什么时候不够用？

当任务需要真实世界经验时，统计关联就不够了。比如：判断一个物理实验的结果、理解一个笑话的双关、感知一段音乐的情感。这些需要超出文本之外的经验。

为什么AI会犯常识错误？

因为AI没有真实世界的经验。它知道"猫吃鱼"是因为训练文本中"猫"和"鱼"经常一起出现，不是因为它见过猫吃鱼。当遇到训练数据中没有的模式时，它就会犯错。

五、这对我们使用AI有什么启示

理解了AI的"世界观"，你就能更好地理解AI为什么会这样回答，以及如何更好地使用它。

理解Token是理解AI的第一步

所有后续概念——上下文窗口、成本计算、Prompt优化——都建立在Token之上。选对模型（Tokenizer）直接影响成本和效果

向量空间是AI的"世界观"

AI的所有"知识"都编码在向量空间里。理解向量，才能理解AI为什么会这样回答，以及如何引导它给出更好的回答

统计关联不等于真正理解

AI很强大，但它的"理解"和人类的理解本质不同。知道这一点，才不会对它有不切实际的期待，也不会低估它的能力

AI不知道它在说什么

它不知道"猫"是什么，只知道"猫"这个Token的统计关联。但这不意味着它没用——在文字处理任务上，统计关联已经足够强大

小结

AI不认识汉字也不认识单词，它只认识Token和向量。它不知道"猫"长什么样，只知道"猫"这个Token的向量位置。

向量空间中，意义相近的词距离近。这是AI理解语义的数学基础——不是人工设计的，是训练过程中自动涌现的。

AI不懂意义，只懂关联。但在文字处理任务上，统计关联已经够强大了。

下期预告

Tokenizer分词器

一段话到底是怎么被切成碎片的？BPE算法、子词切分、为什么"strawberry"会被切成奇怪的几块——下一期拆开Tokenizer的内部机制。

看完有启发的话，点个"在看"再走

本文包含AI辅助创作内容，作者已审核并对全文负责