2012 年,一个程序让整个 AI 界震惊了。它做了什么?它是怎么"看"图片的?今天我们用手机拍照来"骗"AI,看看它的眼睛到底是怎么工作的。
你觉得"认东西"很简单?
我问大宝:"你怎么知道这是一只猫?"
他看了我一眼,像看傻子一样:"因为它长得像猫啊。"
"那什么叫'长得像猫'?"
"有毛、有尾巴、有四条腿、会喵喵叫……"
"狗也有毛有尾巴有四条腿啊。"
大宝想了想:"猫的脸比较小,耳朵是尖的……"
他说不下去了。因为他发现:你能一眼认出一只猫,但你说不清楚自己是怎么认出来的。
这就是"认东西"这件事最诡异的地方——对人类来说太简单了,简单到你根本不知道自己是怎么做到的。
但对计算机来说,这曾经是一个噩梦级的难题。
以前的 AI 是怎么"看"图片的
在 2012 年之前,科学家教 AI 认图片的方法是这样的:
人工告诉它规则。
"先找边缘,再找角点,再把角点组合成形状,再判断形状像什么。"
就像你教一个外星人认猫:"首先,找到两个三角形(耳朵),然后找到两个圆形(眼睛),然后找到一个椭圆(身体)……"
这种方法叫特征工程——人类当"翻译官",把图片翻译成计算机能理解的数字。
问题是:规则写不完。
猫可以是正面的、侧面的、蜷缩的、跳跃的、黑的、白的、胖的、瘦的……你能写出多少条规则?
2012 年,一切都变了

2012 年 9 月,三个人改变了历史。
Alex Krizhevsky(研究生)、Ilya Sutskever(研究生)、Geoffrey Hinton(导师)——来自多伦多大学的师徒三人组,带着一个叫 AlexNet 的程序参加了 ImageNet 图像识别大赛。
结果:错误率从 26% 直接砍到 16%。 领先第二名超过 10 个百分点。
这不是"进步了一点点"。这是断崖式碾压。
就像百米赛跑,别人跑 10 秒,你跑 7 秒。不是同一个级别的比赛了。
从那天起,整个 AI 界都转向了一个方向:深度学习。
AlexNet 的秘密:用"放大镜"一层一层看
AlexNet 是怎么做到的?它用了一种叫卷积神经网络(CNN)的方法。
听起来很吓人,但原理其实很直觉:
想象你拿一个小小的放大镜,在一张照片上一点一点地滑动。
每滑到一个位置,放大镜会告诉你:"这里有一条边"、"这里颜色变了"、"这里有个角"。
这就是卷积——用一个小窗口扫描整张图片,找出局部的特征。
但一层卷积只能找到最简单的东西(边缘、颜色)。AlexNet 的厉害之处在于:它叠了很多层。

- • 第 1 层:找到边缘和颜色变化
- • 第 2-3 层:把边缘组合成纹理和形状(圆形、条纹)
- • 第 4-5 层:把形状组合成部件(眼睛、耳朵、轮子)
- • 最后几层:把部件组合成完整的物体(猫!狗!汽车!)
从简单到复杂,层层组合。 就像搭积木——先有砖块,再有墙壁,再有房间,最后有房子。
最神奇的是:没有人告诉它"第一层该找边缘"。 它自己从 120 万张图片里学会了这个策略。
三个要素缺一不可
AlexNet 的成功不是某个天才的灵光一现。它需要三个东西同时到位:
1. 算法:深度卷积网络
其实 CNN 在 1989 年就被发明了(LeCun 用它识别手写数字)。但当时网络太浅,数据太少,效果一般。
2. 数据:ImageNet 的 120 万张图
一位叫李飞飞的华人科学家,从 2007 年开始用众包的方式标注了 120 万张图片、1000 个类别。没有这个数据集,AlexNet 无处施展。
3. 算力:两块游戏显卡
AlexNet 用了两块 Nvidia GTX 580 显卡(当时 500 美元一块),训练了 5-6 天。没有 GPU 的并行计算能力,深度网络根本训不动。
算法 + 数据 + 算力——这个"三要素汇聚"的模式,在后来每一次 AI 突破中都会重演。 记住它,后面的故事里你会反复看到。
🧪 动手实验:让 AI 翻车
准备: 一部手机,打开任意 AI 识图工具(微信"扫一扫"、或者直接问 豆包 "这是什么")
玩法: 拍下面这些照片,看 AI 能不能认对——
- 1. 正常拍一只猫/狗 → AI 应该秒认
- 2. 只拍耳朵或尾巴(遮住其他部分)→ 它还能认吗?
- 3. 把照片倒过来 → 它会不会认错?
- 4. 拍一个猫形状的面包/云朵 → 它会说"这是猫"吗?
- 5. 把两种动物的照片拼在一起(比如猫头+狗身)→ 它怎么说?
记录你的发现:
- • AI 在什么情况下最容易翻车?
- • 它翻车的方式跟人类犯错一样吗?
你会发现: AI 认图的方式跟人不一样。它特别依赖"局部特征"——如果关键部位被遮住或变形,它就懵了。而人类可以靠"整体感觉"来判断。
👨👩👧 亲子挑战(8-12 岁 + 家长)
"AI 找不同"游戏:
- 1. 家长在网上找 5 张"容易骗 AI"的图片(比如:画的猫、猫形面包、穿猫衣服的狗)
- 2. 让孩子先猜 AI 会怎么回答
- 3. 然后真的拿去问 AI,看猜对了几个
讨论:为什么有些图片能骗过 AI 但骗不过你?AI 的"看"和你的"看"有什么不同?
🤔 深度思考题(12-16 岁)
- 1. AlexNet 成功需要"算法+数据+算力"三要素。如果只有其中两个,会怎样?(比如:有算法有数据但没有 GPU?)
- 2. AI 从 120 万张图片里学会了"什么是猫"。一个小孩可能只看过几十只猫就学会了。为什么 AI 需要这么多数据?这说明 AI 的"学习"和人的"学习"有什么本质区别?
- 3. 有人说"AI 只是在做模式匹配,不是真的'理解'图片"。你同意吗?"理解"一张图片到底意味着什么?
下一篇预告
第 3 篇:「AI 是怎么学会说话的?——一个关于记忆力的残酷实验」
AI 学会了"看",但它能"读"吗?读句子跟看图片有什么不同?下一篇,我们来测试 AI 的"记忆力"——你会发现,它的记性比金鱼好不了多少。
每周更新一篇。关注「给孩子的 AI 通识课」,我们一起搞懂 AI。
夜雨聆风