《AI 3.0》解读之二 AI是如何"看"的?——卷积神经网络与视觉革命
《AI 3.0》的使命:写给”会思考的普通人”
段永朝在序言中精准地点出了本书的价值:”讲述技术视角的思想基础,弥合’理科生’与’文科生’之间看待人工智能的思想鸿沟。”这正是米歇尔的写作初心:她无意于技术精英的自说自话,也无意于舆论场的情绪宣泄,而是试图用通俗的语言揭示AI背后的”硬核知识”,帮助读者真正理解我们正在面对的是怎样一场变革。
当我们说”看见”时,我们究竟在做什么?
你看到一只猫的瞬间,发生了什么?
大脑的视觉皮层在几十毫秒内完成了一系列复杂的处理:首先,视网膜捕捉到光线与轮廓,初级视觉皮层识别出边缘和方向;随后,更高层的神经元开始组合这些边缘,形成线条、曲线、纹理;最终,数百万个神经元的协同工作让你”认出”了——这是一只猫。
更神奇的是,你不仅仅看到了”猫”这个标签。你知道这只猫正在窗台上慵懒地打盹,它的毛色是橘白相间,阳光正好洒在它蜷缩的身体上。这个场景唤起了你对”温暖午后”的记忆,甚至让你想起小时候养过的那只同样喜欢晒太阳的猫咪。
换言之,人类的视觉是主动的、情境化的、充满意义的。我们看到的不只是像素,而是关联、因果、情感与理解。
而当你把一张猫咪照片输入一台计算机视觉系统时,事情完全不同。系统看到的,是224×224×3的像素矩阵——每一个像素由红、绿、蓝三个通道的数值组成,总共超过15万个数字。系统的工作,是通过某种算法,在这些数字中寻找某种”模式”,最终输出一个概率分布:”这张图片有87%的概率是猫”。
米歇尔在《AI 3.0》中尖锐地指出:我们”理解”图像,而AI”匹配特征”。 这两种”看”的方式之间,横亘着一道看似无形却深不见底的鸿沟。
卷积神经网络:从生物视觉到数学模型
要理解AI是如何”看”的,我们首先需要了解当前计算机视觉的核心技术——卷积神经网络(Convolutional Neural Networks,简称ConvNets)。
ConvNets的诞生,本身就是向生物视觉系统致敬的产物。1980年代,日本学者福岛邦彦提出了”神经认知机”(Neocognitron),首次尝试用分层结构模拟生物视觉的信息处理机制。几乎同一时期,法国计算机科学家杨立昆(Yann LeCun)在纽约大学师从辛顿,并在1989年提出了真正意义上的卷积神经网络。
米歇尔在书中引用了序言作者段永朝对卷积原理的通俗解释:所谓视觉识别,本质上是训练出某种算法,让机器能够识别和命名它所”看到”的世界。这个过程被分为两个步骤——
第一步:识别特征。 给机器注入大量已知素材(如包含猫、狗等事物的图片),让它从这些图片中逐一抽取”特征”。在机器的视角下,这些特征不过是像素层面的统计模式。
第二步:学习与判断。 根据大量输入-输出对应关系,机器不断调节自身参数,最终能够对新的图片做出判断。
这里的数学基础,是傅立叶变换——一种将复杂信号分解为简单成分的方法。卷积操作本质上是一种”特征提取”:通过设计好的卷积核(filter),系统能够识别出图像中的边缘、线条、纹理等基本元素,然后再将这些元素组合成更复杂的形状,最终识别出完整的物体。
ConvNets的分层结构,恰恰模拟了人类视觉皮层的处理流程——
底层:识别边缘与线条。 第一层卷积核负责检测图像中的基本特征,如水平边缘、垂直边缘、45度斜线等。这些特征相当于人类视觉系统中最原始的感知单元。
中层:识别形状与纹理。 第二层和第三层将底层特征进行组合,识别出更复杂的模式——圆形、正方形、条纹、斑点等。这一层的神经元开始对”什么是圆””什么是条纹”有了初步的概念。
高层:识别物体与场景。 更高层的网络能够将中层特征进一步组合,最终形成对完整物体的认知——”这是一只猫””那是一辆汽车”。到了这一层次,网络的输出已经能够与人类的概念标签对应起来。
这种从底层到高层的特征提取过程,被研究者称为”端到端学习”——从原始像素直接到语义标签,不需要人类显式地告诉系统应该提取什么特征。
ImageNet竞赛:一场改变游戏规则的革命
ConvNets的理论框架早在1980-90年代就已经建立,但为什么计算机视觉在之后的二十年里没有取得突破性进展?
答案是:数据与算力的双重瓶颈。
神经网络的训练需要海量标注数据,而90年代的图像数据集规模有限。与此同时,传统的手工特征工程(如SIFT、HOG等)仍然是主流方法,ConvNets在大规模任务上的潜力没有被充分验证。
2012年,一切改变了。
那一年,斯坦福大学的李飞飞团队创建的ImageNet数据集已经成为计算机视觉领域最大的公开图像库——包含1000个类别、约120万张训练图片和5万张验证图片。与此同时,GPU并行计算技术开始成熟,为大规模神经网络训练提供了可能。
在这一背景下,多伦多大学的Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton(”深度学习之父”之一)提交了AlexNet参加ImageNet大规模视觉识别挑战赛(ILSVRC)。
结果震惊了整个学术界:AlexNet以84.7%的top-5准确率夺冠,将错误率从传统方法的26%降至15.3%——比第二名低了整整10.9个百分点。
这不仅仅是一场技术竞赛的胜负,它标志着深度学习时代的正式开启。
AlexNet的成功依赖于多项技术创新——
ReLU激活函数: 替代传统的Sigmoid函数,解决了深层网络训练中的”梯度消失”问题。ReLU在正区间的导数恒为1,使得反向传播算法能够有效传递梯度,实验证明这让网络收敛速度提升了6倍。
Dropout正则化: 在训练时随机”关闭”50%的神经元,迫使网络形成冗余路径和分布式表征,有效防止过拟合。
数据增强: 通过随机裁剪、水平翻转、颜色抖动等方法扩充训练数据,让模型学会适应各种变换,提高泛化能力。
双GPU并行训练: 2012年的GPU显存还很有限(NVIDIA GTX 580仅3GB),AlexNet创新性地将网络拆分成两部分分别在两块GPU上计算,将训练时间从CPU的数月缩短到GPU的5-6天。
AlexNet的影响力远超竞赛本身。它证明了”深层CNN在大规模数据上的有效性”,推动了学术界重新重视神经网络研究。更重要的是,它开启了计算机视觉领域的深度学习浪潮——VGG、GoogleNet、ResNet等后续经典网络,几乎都是在AlexNet基础上的改进与扩展。
三大真相:AI的”眼睛”与我们想象的完全不同
ConvNets在ImageNet上的突破令人振奋,但米歇尔在书中冷静地指出了三个残酷的真相——它们提醒我们,机器视觉的”眼睛”,与人类的眼睛有着本质的不同。
真相一:AI没有”看见”,只有统计匹配。
当AlexNet识别出一张猫咪照片时,它真的”看到”了一只猫吗?答案是否定的。ConvNets的工作原理,是对高维空间中的像素向量进行复杂的数学运算,最终输出一个概率分布。它所”知道”的,是某种像素模式与”猫”这个标签之间存在统计相关性——但这种相关性是脆弱的、片面的、缺乏语境的。
米歇尔指出,ConvNets提取的特征虽然在数学上是有效的,但它们与人类视觉系统理解的”边缘””形状””物体”并不对应。网络的每一层都是一系列数值变换,当我们试图解释这些数值代表什么时,往往发现它们与人类的直觉相去甚远。
真相二:微小的扰动就能让AI”睁眼瞎”。
2013年,辛顿团队发现了一个令人不安的现象:在图片中加入人类几乎无法察觉的微小扰动,就能让ConvNets产生完全错误的判断。
例如,在一张清晰的路牌照片上叠加一层”噪声”,人类看到的结果与原图几乎一模一样,但ConvNets会把它误判为完全不同的物体——比如把”停止”标志识别为”限速60″标志。
这种被研究者称为”对抗样本”(adversarial examples)的现象,揭示了ConvNets的深层脆弱性。它们并非在”理解”图像,而是在高维空间中进行”曲线拟合”——这种拟合虽然精确,却极度依赖训练数据的统计分布。当输入偏离这个分布太远时,即使肉眼看起来毫无区别,模型的判断也会彻底崩溃。
更令人担忧的是,对抗样本的威胁已经不仅限于数字世界。2025年,北京航空航天大学的研究团队开发出DynamicPAE框架,能够在12毫秒内实时生成”物理对抗样本”——贴在路牌上的特定纹理图案,可以让自动驾驶的感知系统当场失效,目标检测精度下降近60%。这意味着,在真实道路上实施这类攻击的技术门槛正在持续降低。
真相三:AI的场景理解能力,与人类相去甚远。
ImageNet竞赛考察的是图像分类——给定一张图片,输出最可能的标签。但现实世界的视觉任务远不止于此。
人类的视觉是主动的、任务驱动的、情境化的。当你在厨房做菜时,你能够同时追踪多个物体(锅里的菜、桌上的调料、旁边的计时器),理解它们之间的空间关系和因果逻辑,预测它们在时间维度上的变化。这些能力,当前的ConvNets几乎都不具备。
米歇尔用一系列实验说明了这一点:ConvNets在处理被轻微旋转、遮挡或背景复杂的图片时,准确率会急剧下降;它们对物体之间的关系(如”船在水中”与”船在水面上”)缺乏基本的理解;它们甚至会被完全不影响语义内容的纹理变化所迷惑。
换言之,ConvNets擅长的是”感知”层面的任务——识别什么是什么;但在”认知”层面——理解”看到了什么意味着什么”——它们仍然有很长的路要走。
从”看见”到”看懂”:视觉智能的未来
回顾ConvNets的发展历程,我们可以看到一条清晰的技术演进轨迹:从福岛邦彦的神经认知机,到LeCun的早期ConvNets,再到AlexNet的突破,以及此后VGG、ResNet、Vision Transformer等一系列模型的迭代。
每一次技术进步都在扩大机器视觉的边界:更深的网络、更大的数据集、更强的算力、更精巧的架构设计。如今,深度学习模型已经在人脸识别、医学影像、自动驾驶、安防监控等领域实现了规模化应用。
然而,米歇尔的分析提醒我们保持清醒:这些成就大多发生在”感知”层面,而在”理解”层面,当前的AI系统与人类智能之间仍然存在深刻的鸿沟。对抗样本的存在证明了这一点——机器视觉的”眼睛”,与人类的眼睛,看的根本不是同一个世界。
理解这些,不是为了否定技术的价值,而是为了更准确地界定AI的能力边界。正如米歇尔所言,我们需要”清楚地认识这个领域已经取得了什么成就,以及机器距离真正理解视觉世界还有多长的路要走”。
写在最后
第二讲的核心贡献,在于揭示了机器视觉的运作原理与技术突破,同时点明了其本质局限。
ConvNets通过层层抽象的特征提取,实现了对图像的分类识别——这是AI历史上最重要的技术里程碑之一。然而,从”看见”到”看懂”,从”匹配特征”到”理解意义”,中间隔着的,是意识、常识、因果推理、情境理解等人类智能的核心能力。
当我们惊叹于AI的视觉能力时,不妨记住米歇尔的提醒:我们”理解”,AI”匹配特征”。 认清这一差异,是我们理解AI、也理解自身智能的关键一步。
本讲完。下一讲将探讨AI是如何”学习”的——深度学习的能力边界与内在局限。
____________________________________
🌟 欢迎关注「人工智能与博物馆」!免费领取【AI + 文博专属精选电子书礼包】✅ 领取步骤:
1. 点赞
2. 关注公众号
3. 公众号对话框回复:AI大礼包
-
立即弹出下载链接
✅ 领取步骤:
-
1. 点赞 -
2. 关注公众号 -
3. 公众号对话框回复:AI3.0,立即弹出下载链接
夜雨聆风