乐于分享
好东西不私藏

AI 能力黑板报之 CV : 让机器看见

AI 能力黑板报之 CV : 让机器看见

AI 能力黑板报
第 04 期 · 赵治孝
CV
Computer Vision
计算机视觉
让机器看见不只是认字,是看世界
1什么是 CV

CV,全称 Computer Vision,”计算机视觉”。一句话:让机器看懂图像和视频里有什么、在哪、在做什么。

上一期 OCR 讲过——CV 是机器”看世界的眼睛”,OCR 是这双眼睛的特例(专看字)。整张系列的视觉链条是这样的:OCR 看字 → CV 看物 / 人 / 场景 / 动作 → 再往后是视觉语言模型(VLM)把”看见”和”理解”合一。

技术上拆成三步
图像摄像头 / 文件 / 视频流的像素矩阵
特征提取CNN / Transformer 把像素抽象成”语义特征”
任务输出分类 / 检测框 / 像素掩码 / 关键点 / 描述文字

注:CV 不是一个任务,是一组任务。每个任务的输出格式都不一样——下一节就讲它们怎么分。

2CV 不是一个能力 · 是一个任务谱系

教科书的标准切法是”从粗到细“——按”对图像理解到什么粒度”排序。这五档每个都对应一类工业产品:

图像分类 · Classification
输出一个标签:整张图属于哪一类
代表场景

相册自动按”猫 / 狗 / 风景”分类

目标检测 · Detection
输出多个”框”:图里每个目标的位置 + 类别
代表场景

自动驾驶找行人 / 车辆 / 红绿灯

图像分割 · Segmentation
输出像素级掩码:每个像素属于哪一类(语义 / 实例 / 全景)
代表场景

医疗影像圈肿瘤、视频抠图换背景

姿态估计 · Pose Estimation
输出关键点(keypoints)坐标,连成骨架
代表场景

健身 APP 看你动作、影视动作捕捉

视频理解 · Video Understanding
输出时序语义:动作识别、事件检测、内容描述
代表场景

短视频内容分类、安防异常事件检测

还有几个被收编的”特例”。人脸识别 = 检测 + 识别;OCR = 检测 + 文字识别;图像生成 / 文生图 = CV 的反向(输出像素而非读入像素)—— 这些会在后续期单独讲。
3怎么判断一个 CV 模型好不好

CV 不像 ASR / TTS / OCR 那样有”几个通用核心数”——每个任务有自己的标准指标。但圈内人横向看一个模型,主要还是从这三类切:

A · 准确度越高越好
Top-1 / Top-5 准确率 分类核心
Top-1:模型最有信心的那一类是不是对的;Top-5:前 5 个候选里有没有对的
2012 年 AlexNet 在 ImageNet 1000 类上 Top-5 错误率 15.3%,2015 年 ResNet 砍到 3.57%——已远低于 ImageNet 估算的人类基线(5.1%)。
mAP 检测核心
mean Average Precision · 综合”框得准不准 + 类别对不对”,在多个 IoU 阈值下取平均
COCO 检测榜的标配指标。模型间横向比就看这个数——分类用 Top-1,检测用 mAP。
mIoU 分割核心
mean Intersection over Union · 像素级”预测与真值的重叠面积 ÷ 并集面积”再求平均
Cityscapes / Pascal VOC / ADE20K 等分割榜的标准。每个像素分对了才能往上拉。
B · 速度越快越好
FPS · 每秒帧数
Frames Per Second · 模型一秒能处理多少张图
实时门槛
≥ 30
YOLO 系列
100+
视频流要做实时分析,门槛是 30 FPS(人眼看视频不卡)。Redmon 2016 年发表的初代 YOLO 论文里就报到 45 FPS——这是”实时检测”诞生的瞬间。
C · 鲁棒性真正的胜负手
遮挡 · 光照 · 视角 · 长尾
Robustness · 在测试集分布外的图片还能不能扛
和 ASR / OCR 一样:标准数据集 mAP 90+ 看着漂亮,到真实路面(暴雨夜、逆光、半遮挡)准确率会断崖。榜单分数 ≠ 真实体感,CV 这条规律比 OCR 还突出,因为视觉信号天然比文字脆弱。
4CV 是怎么走到今天的

六十年,三次范式革命,第四次正在发生:

1960s — 2010s
手工特征时代 · SIFT + HOG + SVM
人工设计”什么是边、什么是角、什么是局部模式”——SIFT(1999)和 HOG(2005)是这一代代表。配上 SVM 分类器,能做人脸检测、行人识别等具体任务,但每换一个新场景就要重新设计特征。
2012 — 2014
深度学习革命 · AlexNet
2012 年 9 月,多伦多大学 Krizhevsky / Sutskever / Hinton 团队发表 AlexNet,在 ImageNet 1000 类挑战赛上把 Top-5 错误率从 26% 降到 15.3%,比第二名领先 10.8 个百分点——这是 CNN 第一次让深度学习压倒所有传统方法。这一年被认为是现代深度学习的起点。
2014 — 2017
CNN 全面接管 · 各任务专用网络
三年内主要 CV 任务全部被深度学习收编:◆ 分类:VGG(2014)、GoogLeNet(2014)、PReLU-Net(何恺明 MSRA 2015.2,4.94% 首次低于 ImageNet 估算的人类基线 5.1%)、ResNet(何恺明 MSRA 2015.12,3.57%);◆ 检测:R-CNN(Girshick 2014)→ Fast R-CNN(2015)→ Faster R-CNN(2016)→ YOLO(Redmon 2016,45 FPS 实时);◆ 分割:FCN(2015)、U-Net(2015 医疗影像)、Mask R-CNN(2017 实例分割)。
2020 — 2022
Transformer 进入 CV · ViT
ViT = Vision Transformer · 把 NLP 用了几年的 Transformer 架构搬到图像上
2020 年 10 月,Google 的 Dosovitskiy 等发表 ViT(论文标题 “An Image is Worth 16×16 Words”,arXiv 2010.11929)—— 把图像切成 16×16 小块当作 token,让纯 Transformer 直接做图像分类,并且效果超过 CNN。CNN 主导 8 年的 CV 范式开始让位。
2021
视觉 + 文本对齐 · CLIP
2021 年 2 月,OpenAI 的 Radford 等发表 CLIP(arXiv 2103.00020),用 4 亿对 “图片 + 文字” 训练,让模型把图像和语言对齐到同一个语义空间。从此可以”用文字检索图片”、”零样本分类”——也是后来文生图、视觉问答的基础。
2023 — 至今
视觉基础模型时代
两条线同时跑:
视觉基础模型(不带语言):SAM(Meta,2023.4,11M 图 + 1.1B 掩码,”分割万物”)→ SAM 2(2024.8,加入视频)→ SAM 3(2025.11,”用文字 / 视觉 prompt 找万物”)→ SAM 3.1(2026.3,多目标实时追踪);DINOv2(Meta,2023.4,自监督训练 1.42 亿张图,输出通用视觉特征)。视觉语言大模型 VLM(看图说话):GPT-4V(OpenAI 2023.9)、Claude 3 / 3.5 Vision(Anthropic)、Qwen-VL(阿里)、InternVL(上海 AI 实验室)—— 这一代直接承担分类、检测、描述、问答多任务。
和 ASR / TTS / OCR 同样的故事:单任务专用网络(分类一个、检测一个、分割一个)正在被通用基础模型蚕食,CV 也走到了”一个大模型干多任务”的拐点。
⚠ CV 现阶段五个共性痛点
榜单上的数字这十几年涨得很漂亮,但下面这五类问题,对整个行业仍是需要重点攻克的:
× 长尾分布 数据集里见过 1000 次的”猫”识得很准,见过 1 次的”穿山甲”识不出。开放世界永远有训练集没覆盖的类× 遮挡 / 极端光照 / 视角剧变 实验室明亮正面照 vs 真实场景的暴雨夜、半遮挡、俯拍仰拍——准确率断崖× 长视频时序建模 看几秒短视频已经成熟,看几小时直播 / 监控的时序关系仍是开放问题,算力和长上下文都吃紧× 标注成本 分类标签便宜,分割掩码、关键点、视频动作标注极贵——CV 数据集成本远高于 NLP× 边缘部署 vs 大模型推理 通用 VLM 效果好但跑不动手机 / 摄像头;专用小模型轻量但任务窄。两端怎么接,仍是工程难题
▶ 下期 · 第 05 期虚拟人 · 让机器有形象