给孩子的 AI 通识课(7):AI 学会了看、听、说—

给孩子的 AI 通识课(7):AI 学会了看、听、说——万物皆可 Token

ChatGPT 只能处理文字。但现在的 AI 能看图、听声音、甚至看视频。它是怎么做到的？秘密是：把所有东西都变成同一种"语言"。

一个"全能"的 AI

大宝最近发现了一件事：

"爸爸，我给 ChatGPT 发了一张照片，它居然能告诉我照片里是什么！"

"对啊，现在的 AI 不只能读文字了。"

"那它是怎么'看'照片的？它又没有眼睛。"

好问题。上一篇我们讲了 ChatGPT 是怎么学会"听话"的。但那时候的 ChatGPT 只能处理文字——你发图片给它，它看不懂。

现在的 AI（比如 GPT-4、Gemini）不一样了。你可以：

• 发一张数学题的照片，它帮你解题
• 发一段语音，它听懂并回复
• 让它根据你的描述画一张图
• 甚至给它看一段视频，它能告诉你视频里发生了什么

从"只会读文字"到"能看能听能说"——这个跨越是怎么实现的？

秘密：把所有东西变成"积木"

还记得第 4 篇讲的 Transformer 吗？它处理的是一串"Token"（小块）。

关键洞察来了：

不只是文字可以拆成 Token。图片、声音、视频——所有东西都可以。

• 文字 → 拆成词或字 → 每个词是一个 Token
• 图片 → 切成小方块（比如 16×16 像素）→ 每个方块是一个 Token
• 声音 → 切成短片段（比如 0.02 秒一段）→ 每个片段是一个 Token
• 视频 → 切成一帧一帧 → 每帧再切成小方块 → 每个方块是一个 Token

一旦所有东西都变成了 Token，就可以用同一个 Transformer 来处理。

就像乐高积木——不管你要搭房子、搭汽车还是搭飞机，用的都是同一种积木块。只是拼法不同。

已关注

关注

重播分享赞

视频详情

CLIP：教 AI "图文对照"

但光把图片切成 Token 还不够。AI 还需要知道"这些图片 Token 跟文字 Token 是什么关系"。

2021 年，OpenAI 做了一件很聪明的事：

他们从互联网上收集了 4 亿对"图片 + 文字描述"。比如：

• 一张猫的照片 + "一只橘色的猫趴在沙发上"
• 一张日落的照片 + "海边的夕阳"

然后训练一个模型（叫 CLIP）：让匹配的图文对"靠近"，不匹配的"远离"。

训练完之后，CLIP 学会了一个"通用语义空间"——在这个空间里，文字和图片说的是同一种"语言"。

这就是为什么你能用文字描述让 AI 画图，也能给 AI 看图让它用文字描述。 因为在 AI 的"脑子"里，文字和图片已经是同一种东西了。

多模态大模型：拼积木

有了这个基础，造一个"全能 AI"就变得很直接：

1. 看图：用一个"视觉编码器"把图片变成 Token
2. 听声音：用一个"音频编码器"把声音变成 Token
3. 拼在一起：把图片 Token、声音 Token、文字 Token 拼成一长串
4. 送进 Transformer：让它一起处理

就像你把不同颜色的乐高积木混在一起，然后用同一双手来拼——Transformer 不在乎 Token 是从文字来的还是从图片来的，它只管处理 Token 之间的关系。

GPT-4、Gemini、Claude——今天所有最强的 AI，都是这个思路。

从"理解"到"生成"

更厉害的是：AI 不只能"看懂"图片，它还能"画"图片。

原理也是一样的：

• 理解 = 把图片变成 Token，然后用 Transformer 理解
• 生成 = 用 Transformer 生成 Token，然后把 Token 变回图片

所以现在的 AI 能做到：

• 你说"画一只穿西装的猫" → 它生成图片
• 你给它一张照片说"把背景换成海滩" → 它修改图片
• 你说"把这段文字变成一个 30 秒的视频" → 它生成视频

万物皆 Token，万物皆可生成。

🧪 动手实验：跨模态游戏

准备： 能用 ChatGPT（带图片功能）或其他多模态 AI

玩法 1：看图说话

• 拍一张你房间的照片，发给 AI
• 让它描述照片里有什么
• 看看它能不能发现你故意放的"奇怪东西"（比如把一只鞋放在书架上）

玩法 2：说话画图

• 用文字描述一个场景："一只企鹅在沙漠里吃冰淇淋"
• 让 AI 画出来
• 然后把画好的图再发给 AI，问它"这张图里画的是什么？"
• 它能准确描述回来吗？（文字→图片→文字，看信息有没有丢失）

玩法 3：听声辨物

• 如果你的 AI 支持语音，试试用不同的语气说同一句话
• "我很开心"（用开心的语气 vs 用难过的语气）
• AI 能听出你的情绪吗？

👨‍👩‍👧 亲子挑战（8-12 岁 + 家长）

"AI 翻译官"游戏：

1. 孩子画一幅画（随便画什么）
2. 拍照发给 AI，让 AI 用文字描述
3. 把 AI 的描述念给家长听（不让家长看画）
4. 家长根据描述猜孩子画的是什么

讨论：AI 的描述准确吗？它漏掉了什么？它"看"画和人"看"画有什么不同？

🤔 深度思考题（12-16 岁）

1. AI 把图片、文字、声音都变成 Token 来处理。人类的大脑也是这样吗？我们的视觉、听觉、语言是在同一个"空间"里处理的，还是分开的？
2. AI 能"看图说话"，但它真的"看懂"了图片吗？还是只是学会了"图片 Token 和文字 Token 之间的统计关系"？"看懂"到底意味着什么？
3. 如果 AI 能同时处理所有感官信息（看、听、触、嗅、味），它会不会更接近"真正的智能"？还是说智能不只是感官的问题？

🧠 想知道这些题的答案？
每道题都有详细的参考思路和延伸讨论。
关注公众号「大鱼北游」，回复「答案7」免费获取本篇完整解析。

下一篇预告

第 8 篇：「AI 助手是怎么帮人干活的？——从"回答问题"到"完成任务"」

现在的 AI 不只能聊天了——它能帮你搜信息、写代码、订机票、甚至操作你的电脑。从"你问它答"到"你说一句它帮你做完"，中间差了什么？下一篇，我们来看 AI Agent 是怎么工作的。

觉得有启发？点个「在看」让更多家庭看到 👀
转发给身边有娃的朋友，一起搞懂 AI 🚀