《AI 3.0》解读之二 AI是如何＂看＂的?——卷积神经网络与视觉革命-夜雨聆风

《AI 3.0》解读之二 AI是如何＂看＂的?——卷积神经网络与视觉革命

《AI 3.0》深度解读AI的本质、历史与人类最深的焦虑

作者梅拉妮·米歇尔是计算机科学领域的知名学者，师从侯世达（Douglas Hofstadter）——那位因《哥德尔、艾舍尔、巴赫》（简称”GEB”）而享誉全球的跨界思想家。本书并非一本技术著作或简单的AI发展史，而是一位深谙AI内核的科学家写给普通读者的理性之作。

《AI 3.0》的使命：写给”会思考的普通人”

段永朝在序言中精准地点出了本书的价值：”讲述技术视角的思想基础，弥合’理科生’与’文科生’之间看待人工智能的思想鸿沟。”这正是米歇尔的写作初心：她无意于技术精英的自说自话，也无意于舆论场的情绪宣泄，而是试图用通俗的语言揭示AI背后的”硬核知识”，帮助读者真正理解我们正在面对的是怎样一场变革。

当我们说”看见”时，我们究竟在做什么？

你看到一只猫的瞬间，发生了什么？

大脑的视觉皮层在几十毫秒内完成了一系列复杂的处理：首先，视网膜捕捉到光线与轮廓，初级视觉皮层识别出边缘和方向；随后，更高层的神经元开始组合这些边缘，形成线条、曲线、纹理；最终，数百万个神经元的协同工作让你”认出”了——这是一只猫。

更神奇的是，你不仅仅看到了”猫”这个标签。你知道这只猫正在窗台上慵懒地打盹，它的毛色是橘白相间，阳光正好洒在它蜷缩的身体上。这个场景唤起了你对”温暖午后”的记忆，甚至让你想起小时候养过的那只同样喜欢晒太阳的猫咪。

换言之，人类的视觉是主动的、情境化的、充满意义的。我们看到的不只是像素，而是关联、因果、情感与理解。

而当你把一张猫咪照片输入一台计算机视觉系统时，事情完全不同。系统看到的，是224×224×3的像素矩阵——每一个像素由红、绿、蓝三个通道的数值组成，总共超过15万个数字。系统的工作，是通过某种算法，在这些数字中寻找某种”模式”，最终输出一个概率分布：”这张图片有87%的概率是猫”。

米歇尔在《AI 3.0》中尖锐地指出：我们”理解”图像，而AI”匹配特征”。 这两种”看”的方式之间，横亘着一道看似无形却深不见底的鸿沟。

卷积神经网络：从生物视觉到数学模型

要理解AI是如何”看”的，我们首先需要了解当前计算机视觉的核心技术——卷积神经网络（Convolutional Neural Networks，简称ConvNets）。

ConvNets的诞生，本身就是向生物视觉系统致敬的产物。1980年代，日本学者福岛邦彦提出了”神经认知机”（Neocognitron），首次尝试用分层结构模拟生物视觉的信息处理机制。几乎同一时期，法国计算机科学家杨立昆（Yann LeCun）在纽约大学师从辛顿，并在1989年提出了真正意义上的卷积神经网络。

米歇尔在书中引用了序言作者段永朝对卷积原理的通俗解释：所谓视觉识别，本质上是训练出某种算法，让机器能够识别和命名它所”看到”的世界。这个过程被分为两个步骤——

第一步：识别特征。 给机器注入大量已知素材（如包含猫、狗等事物的图片），让它从这些图片中逐一抽取”特征”。在机器的视角下，这些特征不过是像素层面的统计模式。

第二步：学习与判断。 根据大量输入-输出对应关系，机器不断调节自身参数，最终能够对新的图片做出判断。

这里的数学基础，是傅立叶变换——一种将复杂信号分解为简单成分的方法。卷积操作本质上是一种”特征提取”：通过设计好的卷积核（filter），系统能够识别出图像中的边缘、线条、纹理等基本元素，然后再将这些元素组合成更复杂的形状，最终识别出完整的物体。

ConvNets的分层结构，恰恰模拟了人类视觉皮层的处理流程——

底层：识别边缘与线条。 第一层卷积核负责检测图像中的基本特征，如水平边缘、垂直边缘、45度斜线等。这些特征相当于人类视觉系统中最原始的感知单元。

中层：识别形状与纹理。 第二层和第三层将底层特征进行组合，识别出更复杂的模式——圆形、正方形、条纹、斑点等。这一层的神经元开始对”什么是圆””什么是条纹”有了初步的概念。

高层：识别物体与场景。 更高层的网络能够将中层特征进一步组合，最终形成对完整物体的认知——”这是一只猫””那是一辆汽车”。到了这一层次，网络的输出已经能够与人类的概念标签对应起来。

这种从底层到高层的特征提取过程，被研究者称为”端到端学习”——从原始像素直接到语义标签，不需要人类显式地告诉系统应该提取什么特征。

ImageNet竞赛：一场改变游戏规则的革命

ConvNets的理论框架早在1980-90年代就已经建立，但为什么计算机视觉在之后的二十年里没有取得突破性进展？

答案是：数据与算力的双重瓶颈。

神经网络的训练需要海量标注数据，而90年代的图像数据集规模有限。与此同时，传统的手工特征工程（如SIFT、HOG等）仍然是主流方法，ConvNets在大规模任务上的潜力没有被充分验证。

2012年，一切改变了。

那一年，斯坦福大学的李飞飞团队创建的ImageNet数据集已经成为计算机视觉领域最大的公开图像库——包含1000个类别、约120万张训练图片和5万张验证图片。与此同时，GPU并行计算技术开始成熟，为大规模神经网络训练提供了可能。

在这一背景下，多伦多大学的Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton（”深度学习之父”之一）提交了AlexNet参加ImageNet大规模视觉识别挑战赛（ILSVRC）。

结果震惊了整个学术界：AlexNet以84.7%的top-5准确率夺冠，将错误率从传统方法的26%降至15.3%——比第二名低了整整10.9个百分点。

这不仅仅是一场技术竞赛的胜负，它标志着深度学习时代的正式开启。

AlexNet的成功依赖于多项技术创新——

ReLU激活函数： 替代传统的Sigmoid函数，解决了深层网络训练中的”梯度消失”问题。ReLU在正区间的导数恒为1，使得反向传播算法能够有效传递梯度，实验证明这让网络收敛速度提升了6倍。

Dropout正则化：在训练时随机”关闭”50%的神经元，迫使网络形成冗余路径和分布式表征，有效防止过拟合。

数据增强： 通过随机裁剪、水平翻转、颜色抖动等方法扩充训练数据，让模型学会适应各种变换，提高泛化能力。

双GPU并行训练： 2012年的GPU显存还很有限（NVIDIA GTX 580仅3GB），AlexNet创新性地将网络拆分成两部分分别在两块GPU上计算，将训练时间从CPU的数月缩短到GPU的5-6天。

AlexNet的影响力远超竞赛本身。它证明了”深层CNN在大规模数据上的有效性”，推动了学术界重新重视神经网络研究。更重要的是，它开启了计算机视觉领域的深度学习浪潮——VGG、GoogleNet、ResNet等后续经典网络，几乎都是在AlexNet基础上的改进与扩展。

三大真相：AI的”眼睛”与我们想象的完全不同

ConvNets在ImageNet上的突破令人振奋，但米歇尔在书中冷静地指出了三个残酷的真相——它们提醒我们，机器视觉的”眼睛”，与人类的眼睛有着本质的不同。

真相一：AI没有”看见”，只有统计匹配。

当AlexNet识别出一张猫咪照片时，它真的”看到”了一只猫吗？答案是否定的。ConvNets的工作原理，是对高维空间中的像素向量进行复杂的数学运算，最终输出一个概率分布。它所”知道”的，是某种像素模式与”猫”这个标签之间存在统计相关性——但这种相关性是脆弱的、片面的、缺乏语境的。

米歇尔指出，ConvNets提取的特征虽然在数学上是有效的，但它们与人类视觉系统理解的”边缘””形状””物体”并不对应。网络的每一层都是一系列数值变换，当我们试图解释这些数值代表什么时，往往发现它们与人类的直觉相去甚远。

真相二：微小的扰动就能让AI”睁眼瞎”。

2013年，辛顿团队发现了一个令人不安的现象：在图片中加入人类几乎无法察觉的微小扰动，就能让ConvNets产生完全错误的判断。

例如，在一张清晰的路牌照片上叠加一层”噪声”，人类看到的结果与原图几乎一模一样，但ConvNets会把它误判为完全不同的物体——比如把”停止”标志识别为”限速60″标志。

这种被研究者称为”对抗样本”（adversarial examples）的现象，揭示了ConvNets的深层脆弱性。它们并非在”理解”图像，而是在高维空间中进行”曲线拟合”——这种拟合虽然精确，却极度依赖训练数据的统计分布。当输入偏离这个分布太远时，即使肉眼看起来毫无区别，模型的判断也会彻底崩溃。

更令人担忧的是，对抗样本的威胁已经不仅限于数字世界。2025年，北京航空航天大学的研究团队开发出DynamicPAE框架，能够在12毫秒内实时生成”物理对抗样本”——贴在路牌上的特定纹理图案，可以让自动驾驶的感知系统当场失效，目标检测精度下降近60%。这意味着，在真实道路上实施这类攻击的技术门槛正在持续降低。

真相三：AI的场景理解能力，与人类相去甚远。

ImageNet竞赛考察的是图像分类——给定一张图片，输出最可能的标签。但现实世界的视觉任务远不止于此。

人类的视觉是主动的、任务驱动的、情境化的。当你在厨房做菜时，你能够同时追踪多个物体（锅里的菜、桌上的调料、旁边的计时器），理解它们之间的空间关系和因果逻辑，预测它们在时间维度上的变化。这些能力，当前的ConvNets几乎都不具备。

米歇尔用一系列实验说明了这一点：ConvNets在处理被轻微旋转、遮挡或背景复杂的图片时，准确率会急剧下降；它们对物体之间的关系（如”船在水中”与”船在水面上”）缺乏基本的理解；它们甚至会被完全不影响语义内容的纹理变化所迷惑。

换言之，ConvNets擅长的是”感知”层面的任务——识别什么是什么；但在”认知”层面——理解”看到了什么意味着什么”——它们仍然有很长的路要走。

从”看见”到”看懂”：视觉智能的未来

回顾ConvNets的发展历程，我们可以看到一条清晰的技术演进轨迹：从福岛邦彦的神经认知机，到LeCun的早期ConvNets，再到AlexNet的突破，以及此后VGG、ResNet、Vision Transformer等一系列模型的迭代。

每一次技术进步都在扩大机器视觉的边界：更深的网络、更大的数据集、更强的算力、更精巧的架构设计。如今，深度学习模型已经在人脸识别、医学影像、自动驾驶、安防监控等领域实现了规模化应用。

然而，米歇尔的分析提醒我们保持清醒：这些成就大多发生在”感知”层面，而在”理解”层面，当前的AI系统与人类智能之间仍然存在深刻的鸿沟。对抗样本的存在证明了这一点——机器视觉的”眼睛”，与人类的眼睛，看的根本不是同一个世界。

理解这些，不是为了否定技术的价值，而是为了更准确地界定AI的能力边界。正如米歇尔所言，我们需要”清楚地认识这个领域已经取得了什么成就，以及机器距离真正理解视觉世界还有多长的路要走”。

写在最后

第二讲的核心贡献，在于揭示了机器视觉的运作原理与技术突破，同时点明了其本质局限。

ConvNets通过层层抽象的特征提取，实现了对图像的分类识别——这是AI历史上最重要的技术里程碑之一。然而，从”看见”到”看懂”，从”匹配特征”到”理解意义”，中间隔着的，是意识、常识、因果推理、情境理解等人类智能的核心能力。

当我们惊叹于AI的视觉能力时，不妨记住米歇尔的提醒：我们”理解”，AI”匹配特征”。 认清这一差异，是我们理解AI、也理解自身智能的关键一步。

本讲完。下一讲将探讨AI是如何”学习”的——深度学习的能力边界与内在局限。

____________________________________

🌟 欢迎关注「人工智能与博物馆」！免费领取【AI + 文博专属精选电子书礼包】✅ 领取步骤：

1. 点赞

2. 关注公众号

3. 公众号对话框回复：AI大礼包

立即弹出下载链接

————————————–

💡「智博悦读・关注即送」

现在只需关注本公众号 + 点赞，即可免费领取《AI 3.0》精华本电子书。

✅ 领取步骤：

1. 点赞
2. 关注公众号
3. 公众号对话框回复：AI3.0，立即弹出下载链接