给孩子的 AI 通识课(2):AI 是怎么学会认东西的?—

给孩子的 AI 通识课(2):AI 是怎么学会认东西的?——一个让 AI 翻车的拍照实验

2012 年，一个程序让整个 AI 界震惊了。它做了什么？它是怎么"看"图片的？今天我们用手机拍照来"骗"AI，看看它的眼睛到底是怎么工作的。

你觉得"认东西"很简单？

我问大宝："你怎么知道这是一只猫？"

他看了我一眼，像看傻子一样："因为它长得像猫啊。"

"那什么叫'长得像猫'？"

"有毛、有尾巴、有四条腿、会喵喵叫……"

"狗也有毛有尾巴有四条腿啊。"

大宝想了想："猫的脸比较小，耳朵是尖的……"

他说不下去了。因为他发现：你能一眼认出一只猫，但你说不清楚自己是怎么认出来的。

这就是"认东西"这件事最诡异的地方——对人类来说太简单了，简单到你根本不知道自己是怎么做到的。

但对计算机来说，这曾经是一个噩梦级的难题。

已关注

关注

重播分享赞

视频详情

以前的 AI 是怎么"看"图片的

在 2012 年之前，科学家教 AI 认图片的方法是这样的：

人工告诉它规则。

"先找边缘，再找角点，再把角点组合成形状，再判断形状像什么。"

就像你教一个外星人认猫："首先，找到两个三角形（耳朵），然后找到两个圆形（眼睛），然后找到一个椭圆（身体）……"

这种方法叫特征工程——人类当"翻译官"，把图片翻译成计算机能理解的数字。

问题是：规则写不完。

猫可以是正面的、侧面的、蜷缩的、跳跃的、黑的、白的、胖的、瘦的……你能写出多少条规则？

2012 年，一切都变了

2012 年 9 月，三个人改变了历史。

Alex Krizhevsky（研究生）、Ilya Sutskever（研究生）、Geoffrey Hinton（导师）——来自多伦多大学的师徒三人组，带着一个叫 AlexNet 的程序参加了 ImageNet 图像识别大赛。

结果：错误率从 26% 直接砍到 16%。 领先第二名超过 10 个百分点。

这不是"进步了一点点"。这是断崖式碾压。

就像百米赛跑，别人跑 10 秒，你跑 7 秒。不是同一个级别的比赛了。

从那天起，整个 AI 界都转向了一个方向：深度学习。

AlexNet 的秘密：用"放大镜"一层一层看

AlexNet 是怎么做到的？它用了一种叫卷积神经网络（CNN）的方法。

听起来很吓人，但原理其实很直觉：

想象你拿一个小小的放大镜，在一张照片上一点一点地滑动。

每滑到一个位置，放大镜会告诉你："这里有一条边"、"这里颜色变了"、"这里有个角"。

这就是卷积——用一个小窗口扫描整张图片，找出局部的特征。

但一层卷积只能找到最简单的东西（边缘、颜色）。AlexNet 的厉害之处在于：它叠了很多层。

• 第 1 层：找到边缘和颜色变化
• 第 2-3 层：把边缘组合成纹理和形状（圆形、条纹）
• 第 4-5 层：把形状组合成部件（眼睛、耳朵、轮子）
• 最后几层：把部件组合成完整的物体（猫！狗！汽车！）

从简单到复杂，层层组合。 就像搭积木——先有砖块，再有墙壁，再有房间，最后有房子。

最神奇的是：没有人告诉它"第一层该找边缘"。 它自己从 120 万张图片里学会了这个策略。

三个要素缺一不可

AlexNet 的成功不是某个天才的灵光一现。它需要三个东西同时到位：

1. 算法：深度卷积网络

其实 CNN 在 1989 年就被发明了（LeCun 用它识别手写数字）。但当时网络太浅，数据太少，效果一般。

2. 数据：ImageNet 的 120 万张图

一位叫李飞飞的华人科学家，从 2007 年开始用众包的方式标注了 120 万张图片、1000 个类别。没有这个数据集，AlexNet 无处施展。

3. 算力：两块游戏显卡

AlexNet 用了两块 Nvidia GTX 580 显卡（当时 500 美元一块），训练了 5-6 天。没有 GPU 的并行计算能力，深度网络根本训不动。

算法 + 数据 + 算力——这个"三要素汇聚"的模式，在后来每一次 AI 突破中都会重演。 记住它，后面的故事里你会反复看到。

🧪 动手实验：让 AI 翻车

准备： 一部手机，打开任意 AI 识图工具（微信"扫一扫"、或者直接问豆包 "这是什么"）

玩法： 拍下面这些照片，看 AI 能不能认对——

1. 正常拍一只猫/狗 → AI 应该秒认
2. 只拍耳朵或尾巴（遮住其他部分）→ 它还能认吗？
3. 把照片倒过来 → 它会不会认错？
4. 拍一个猫形状的面包/云朵 → 它会说"这是猫"吗？
5. 把两种动物的照片拼在一起（比如猫头+狗身）→ 它怎么说？

记录你的发现：

• AI 在什么情况下最容易翻车？
• 它翻车的方式跟人类犯错一样吗？

你会发现： AI 认图的方式跟人不一样。它特别依赖"局部特征"——如果关键部位被遮住或变形，它就懵了。而人类可以靠"整体感觉"来判断。

👨‍👩‍👧 亲子挑战（8-12 岁 + 家长）

"AI 找不同"游戏：

1. 家长在网上找 5 张"容易骗 AI"的图片（比如：画的猫、猫形面包、穿猫衣服的狗）
2. 让孩子先猜 AI 会怎么回答
3. 然后真的拿去问 AI，看猜对了几个

讨论：为什么有些图片能骗过 AI 但骗不过你？AI 的"看"和你的"看"有什么不同？

🤔 深度思考题（12-16 岁）

1. AlexNet 成功需要"算法+数据+算力"三要素。如果只有其中两个，会怎样？（比如：有算法有数据但没有 GPU？）
2. AI 从 120 万张图片里学会了"什么是猫"。一个小孩可能只看过几十只猫就学会了。为什么 AI 需要这么多数据？这说明 AI 的"学习"和人的"学习"有什么本质区别？
3. 有人说"AI 只是在做模式匹配，不是真的'理解'图片"。你同意吗？"理解"一张图片到底意味着什么？

下一篇预告

第 3 篇：「AI 是怎么学会说话的？——一个关于记忆力的残酷实验」

AI 学会了"看"，但它能"读"吗？读句子跟看图片有什么不同？下一篇，我们来测试 AI 的"记忆力"——你会发现，它的记性比金鱼好不了多少。

每周更新一篇。关注「给孩子的 AI 通识课」，我们一起搞懂 AI。