AI 能力黑板报之 CV : 让机器看见
CV,全称 Computer Vision,”计算机视觉”。一句话:让机器看懂图像和视频里有什么、在哪、在做什么。
上一期 OCR 讲过——CV 是机器”看世界的眼睛”,OCR 是这双眼睛的特例(专看字)。整张系列的视觉链条是这样的:OCR 看字 → CV 看物 / 人 / 场景 / 动作 → 再往后是视觉语言模型(VLM)把”看见”和”理解”合一。
注:CV 不是一个任务,是一组任务。每个任务的输出格式都不一样——下一节就讲它们怎么分。
教科书的标准切法是”从粗到细“——按”对图像理解到什么粒度”排序。这五档每个都对应一类工业产品:
相册自动按”猫 / 狗 / 风景”分类
自动驾驶找行人 / 车辆 / 红绿灯
医疗影像圈肿瘤、视频抠图换背景
健身 APP 看你动作、影视动作捕捉
短视频内容分类、安防异常事件检测
CV 不像 ASR / TTS / OCR 那样有”几个通用核心数”——每个任务有自己的标准指标。但圈内人横向看一个模型,主要还是从这三类切:
六十年,三次范式革命,第四次正在发生:
夜雨聆风