AI 能力黑板报之 CV : 让机器看见-夜雨聆风

AI 能力黑板报之 CV : 让机器看见

AI 能力黑板报

第 04 期 · 赵治孝

Computer Vision

计算机视觉

让机器看见不只是认字，是看世界

1什么是 CV

CV，全称 Computer Vision，”计算机视觉”。一句话：让机器看懂图像和视频里有什么、在哪、在做什么。

上一期 OCR 讲过——CV 是机器”看世界的眼睛”，OCR 是这双眼睛的特例（专看字）。整张系列的视觉链条是这样的：OCR 看字 → CV 看物 / 人 / 场景 / 动作 → 再往后是视觉语言模型（VLM）把”看见”和”理解”合一。

技术上拆成三步

图像摄像头 / 文件 / 视频流的像素矩阵

↓

特征提取CNN / Transformer 把像素抽象成”语义特征”

↓

任务输出分类 / 检测框 / 像素掩码 / 关键点 / 描述文字

注：CV 不是一个任务，是一组任务。每个任务的输出格式都不一样——下一节就讲它们怎么分。

2CV 不是一个能力 · 是一个任务谱系

教科书的标准切法是”从粗到细“——按”对图像理解到什么粒度”排序。这五档每个都对应一类工业产品：

图像分类 · Classification

输出一个标签：整张图属于哪一类

代表场景

相册自动按”猫 / 狗 / 风景”分类

目标检测 · Detection

输出多个”框”：图里每个目标的位置 + 类别

代表场景

自动驾驶找行人 / 车辆 / 红绿灯

图像分割 · Segmentation

输出像素级掩码：每个像素属于哪一类（语义 / 实例 / 全景）

代表场景

医疗影像圈肿瘤、视频抠图换背景

姿态估计 · Pose Estimation

输出关键点（keypoints）坐标，连成骨架

代表场景

健身 APP 看你动作、影视动作捕捉

视频理解 · Video Understanding

输出时序语义：动作识别、事件检测、内容描述

代表场景

短视频内容分类、安防异常事件检测

还有几个被收编的”特例”。人脸识别 = 检测 + 识别；OCR = 检测 + 文字识别；图像生成 / 文生图 = CV 的反向（输出像素而非读入像素）—— 这些会在后续期单独讲。

3怎么判断一个 CV 模型好不好

CV 不像 ASR / TTS / OCR 那样有”几个通用核心数”——每个任务有自己的标准指标。但圈内人横向看一个模型，主要还是从这三类切：

A · 准确度越高越好

Top-1 / Top-5 准确率　分类核心

Top-1：模型最有信心的那一类是不是对的；Top-5：前 5 个候选里有没有对的

2012 年 AlexNet 在 ImageNet 1000 类上 Top-5 错误率 15.3%，2015 年 ResNet 砍到 3.57%——已远低于 ImageNet 估算的人类基线（5.1%）。

mAP　检测核心

mean Average Precision · 综合”框得准不准 + 类别对不对”，在多个 IoU 阈值下取平均

COCO 检测榜的标配指标。模型间横向比就看这个数——分类用 Top-1，检测用 mAP。

mIoU　分割核心

mean Intersection over Union · 像素级”预测与真值的重叠面积 ÷ 并集面积”再求平均

Cityscapes / Pascal VOC / ADE20K 等分割榜的标准。每个像素分对了才能往上拉。

B · 速度越快越好

FPS · 每秒帧数

Frames Per Second · 模型一秒能处理多少张图

实时门槛

≥ 30

YOLO 系列

100+

视频流要做实时分析，门槛是 30 FPS（人眼看视频不卡）。Redmon 2016 年发表的初代 YOLO 论文里就报到 45 FPS——这是”实时检测”诞生的瞬间。

C · 鲁棒性真正的胜负手

遮挡 · 光照 · 视角 · 长尾

Robustness · 在测试集分布外的图片还能不能扛

和 ASR / OCR 一样：标准数据集 mAP 90+ 看着漂亮，到真实路面（暴雨夜、逆光、半遮挡）准确率会断崖。榜单分数 ≠ 真实体感，CV 这条规律比 OCR 还突出，因为视觉信号天然比文字脆弱。

4CV 是怎么走到今天的

六十年，三次范式革命，第四次正在发生：

1960s — 2010s

手工特征时代 · SIFT + HOG + SVM

人工设计”什么是边、什么是角、什么是局部模式”——SIFT（1999）和 HOG（2005）是这一代代表。配上 SVM 分类器，能做人脸检测、行人识别等具体任务，但每换一个新场景就要重新设计特征。

2012 — 2014

深度学习革命 · AlexNet

2012 年 9 月，多伦多大学 Krizhevsky / Sutskever / Hinton 团队发表 AlexNet，在 ImageNet 1000 类挑战赛上把 Top-5 错误率从 26% 降到 15.3%，比第二名领先 10.8 个百分点——这是 CNN 第一次让深度学习压倒所有传统方法。这一年被认为是现代深度学习的起点。

2014 — 2017

CNN 全面接管 · 各任务专用网络

三年内主要 CV 任务全部被深度学习收编：◆ 分类：VGG（2014）、GoogLeNet（2014）、PReLU-Net（何恺明 MSRA 2015.2，4.94% 首次低于 ImageNet 估算的人类基线 5.1%）、ResNet（何恺明 MSRA 2015.12，3.57%）；◆ 检测：R-CNN（Girshick 2014）→ Fast R-CNN（2015）→ Faster R-CNN（2016）→ YOLO（Redmon 2016，45 FPS 实时）；◆ 分割：FCN（2015）、U-Net（2015 医疗影像）、Mask R-CNN（2017 实例分割）。

2020 — 2022

Transformer 进入 CV · ViT

ViT = Vision Transformer · 把 NLP 用了几年的 Transformer 架构搬到图像上

2020 年 10 月，Google 的 Dosovitskiy 等发表 ViT（论文标题 “An Image is Worth 16×16 Words”，arXiv 2010.11929）—— 把图像切成 16×16 小块当作 token，让纯 Transformer 直接做图像分类，并且效果超过 CNN。CNN 主导 8 年的 CV 范式开始让位。

2021

视觉 + 文本对齐 · CLIP

2021 年 2 月，OpenAI 的 Radford 等发表 CLIP（arXiv 2103.00020），用 4 亿对 “图片 + 文字” 训练，让模型把图像和语言对齐到同一个语义空间。从此可以”用文字检索图片”、”零样本分类”——也是后来文生图、视觉问答的基础。

2023 — 至今

视觉基础模型时代

两条线同时跑：

视觉基础模型（不带语言）：SAM（Meta，2023.4，11M 图 + 1.1B 掩码，”分割万物”）→ SAM 2（2024.8，加入视频）→ SAM 3（2025.11，”用文字 / 视觉 prompt 找万物”）→ SAM 3.1（2026.3，多目标实时追踪）；DINOv2（Meta，2023.4，自监督训练 1.42 亿张图，输出通用视觉特征）。视觉语言大模型 VLM（看图说话）：GPT-4V（OpenAI 2023.9）、Claude 3 / 3.5 Vision（Anthropic）、Qwen-VL（阿里）、InternVL（上海 AI 实验室）—— 这一代直接承担分类、检测、描述、问答多任务。

和 ASR / TTS / OCR 同样的故事：单任务专用网络（分类一个、检测一个、分割一个）正在被通用基础模型蚕食，CV 也走到了”一个大模型干多任务”的拐点。

⚠ CV 现阶段五个共性痛点

榜单上的数字这十几年涨得很漂亮，但下面这五类问题，对整个行业仍是需要重点攻克的：

× 长尾分布　数据集里见过 1000 次的”猫”识得很准，见过 1 次的”穿山甲”识不出。开放世界永远有训练集没覆盖的类× 遮挡 / 极端光照 / 视角剧变　实验室明亮正面照 vs 真实场景的暴雨夜、半遮挡、俯拍仰拍——准确率断崖× 长视频时序建模　看几秒短视频已经成熟，看几小时直播 / 监控的时序关系仍是开放问题，算力和长上下文都吃紧× 标注成本　分类标签便宜，分割掩码、关键点、视频动作标注极贵——CV 数据集成本远高于 NLP× 边缘部署 vs 大模型推理　通用 VLM 效果好但跑不动手机 / 摄像头；专用小模型轻量但任务窄。两端怎么接，仍是工程难题

▶ 下期 · 第 05 期虚拟人 · 让机器有形象