AI ISP图像引擎!真心建议所有Camera研究者都去学一遍!颠覆百年设计范式!

领域前沿

视觉算法圈有个共识：模型在实验室跑得再好，一上路就露怯。夜间眩光、运动模糊、低光照噪声——往往不是算法不行，而是从传感器进光那刻起，退化已经发生。

这几年，视觉技术栈正在被重新拼接。神经ISP和任务驱动优化开始打通成像与感知的壁垒，RAW域数据不再只为出漂亮图像，而是直送下游检测与分割。扩散模型和Mamba架构将去噪、超分、去模糊统一为逆问题求解，成为恢复视觉信息的底层设施。可微光学设计则把镜头本身变成可学习参数，与重建网络端到端联合优化。SAM、CLIP、Depth Anything等基础模型，让开放场景的视觉理解不再依赖海量标注。真正卡脖子的是：这些方法散在论文里，怎么从“读到”到“跑通”，再到“部署到自己的硬件上”？

这次五天专题，就是用可复现的代码和工程级数据，把“光子→决策”这条链路从头走一遍。

第一天从CMOS传感器和RAW数据起步，手写简化ISP管线，构建泊松-高斯噪声模型，训练轻量神经ISP，对比传统管线与学习式ISP在PSNR、SSIM和下游检测精度上的差距。第二天将图像复原统一为退化模型下的逆问题，从U-Net、Restormer到扩散模型和Mamba架构，逐一攻克去噪、超分、去模糊和低照度增强。第三天深入计算成像：PSF/OTF/MTF建模、编码孔径与无透镜成像、金属透镜，实现可微光学参数与重建网络的端到端联合优化，并探索AI Agent辅助光学设计。第四天聚焦深度估计与三维感知，覆盖单目、双目、RGB-D、NeRF与3D Gaussian Splatting，在KITTI、nuScenes等数据集上完成自动驾驶感知实战，同时打通机器人视觉SLAM与抓取感知流程。第五天升级到视觉基础模型与部署：SAM/SAM 2交互式分割、CLIP开放词表检测、视觉-语言模型辅助驾驶场景理解、BEV感知与多传感器融合，最后将模型导出ONNX、量化到TensorRT，完成端侧推理验证。五天带走一套“成像→复原→感知→部署”的系统工程能力。

适合谁来？

一线的自动驾驶感知、机器人视觉或ISP算法工程师每天跟眩光、雨雾、低光照和运动模糊打交道，想从RAW域和神经ISP层面提升感知鲁棒性。课程从传感器噪声建模一路推到任务驱动ISP优化，再到扩散复原和BEV感知，帮你打通“成像质量”与“任务精度”的因果链。

高校视觉、计算成像或机器人方向的PI和研究生卡在“光学模型如何与网络联合优化”“基础模型如何适配小数据集”“论文实验设计怎么写”。从可微PSF建模到光学-AI联合优化，从SAM/CLIP微调到多模态融合，每一步都是论文方法学模板。

做深度学习出身，想切入“视觉+光学+系统”交叉方向熟悉Transformer和扩散模型，但不懂Bayer阵列、MTF和ISP管线。第一天手写ISP，第三天建模PSF和可微光学，你会看到去噪网络的感受野如何匹配噪声空间相关性，可微前向模型怎样让光学参数跟随任务损失收敛。

企业研发负责人评估神经ISP、可微光学或视觉基础模型的落地价值。五天就是一份高密度可行性验证：传统ISP与神经ISP的实测对比，扩散复原的部署代价，BEV感知架构选型，帮你看清哪些模块可以立刻引入，团队需要补哪块能力。

专题学习目标

1、掌握现代图像信号链：理解 CMOS/CCD 传感器、RAW 数据、Bayer 阵列、噪声模型、白平衡、色彩校正、tone mapping、HDR 和神经 ISP 的基本原理，能够分析图像信号链对自动驾驶感知和机器人视觉任务的影响。

2、掌握视觉逆问题建模：能够将去噪、去模糊、超分辨、低照度增强、压缩伪影消除和光学复原统一表达为退化算子约束下的优化问题，并理解其在夜间驾驶、运动模糊感知、低光机器人导航和复杂环境视觉增强中的作用。

3、掌握主流深度视觉网络：理解 CNN、U-Net、ResNet、Vision Transformer、Swin Transformer、Mamba、扩散模型和深度展开网络的适用场景，能够根据图像复原、语义感知、三维重建、自动驾驶和机器人任务选择合适的网络结构。

4、掌握计算成像基础：能够从 PSF、OTF、MTF、相位调制、衍射传播、编码孔径、无透镜成像角度理解图像形成机制。

5、掌握自动驾驶视觉感知基础：理解车载相机、环视系统、鱼眼相机、LiDAR等多传感器信息的基本作用，掌握车道线检测、目标检测、语义分割、深度估计、轨迹预测和驾驶场景理解的基本技术框架。

6、掌握机器人视觉与三维空间感知基础：理解 RGB-D 感知、双目视觉感知等关键任务，能够分析视觉感知在具身智能系统中的作用。

7、掌握视觉基础模型适配：理解 SAM/SAM 2、CLIP、视觉语言模型、Depth Anything 类深度基础模型在实际任务中的使用方式、局限性和领域适配策略，能够将基础模型迁移到自动驾驶场景分割、机器人目标定位、开放词表检测、视觉问答和视觉语言导航任务中。

8、掌握多模态视觉智能建模能力：理解图像、视频、深度、文本指令和传感器状态之间的多模态融合机制，能够构建面向自动驾驶和机器人系统的感知、理解、预测与决策协同框架。

9、掌握科研复现能力：能够完成数据准备、模型训练、指标统计、消融实验、可视化分析、失败案例诊断和论文撰写，并能够围绕典型数据集开展实验设计。

10、形成系统级视觉工程能力：能够从图像采集、ISP 处理、图像复原、语义感知、三维重建、多传感器融合到模型部署建立完整技术链路，具备面向智能驾驶、机器人视觉、计算成像和工业智能检测等场景开展开发科研创新的能力。

讲师介绍

深度学习计算机视觉与计算成像主讲老师：毕业于国家“985 工程”“211 工程”重点高校。目前在国外顶尖高校课题组，擅长深度学习、大模型与计算成像、计算机视觉、几何光学、波动光学、电磁建模交叉研究领域。近年来发表SCI论文20余篇包括：TCI, TMM, TCSVT, TETCI, ICLR等，授权三项发明专利。研究方向包括：图像处理与计算机视觉、深度学习方法、大语言模型、深度光学设计、几何光学、波动光学、物理驱动的光学成像、跨模态成像研究等。担任TCSVT、TCI、SIVP等多个国际期刊审稿人。

专题一：深度学习计算机视觉与计算成像专题

第一天：现代 ISP、RAW 成像与神经图像信号处理

从图像形成的最前端开始，重点讲解传感器如何将光信号转换为数字图像，以及传统 ISP 与神经 ISP 如何影响后续视觉任务。与原提纲中偏概念化的 ISP 介绍不同，本版强调 RAW 数据结构、噪声统计、可微 ISP 和任务驱动 ISP 优化。

1. 成像传感器与 RAW 数据形成机制

1.1 光电转换与传感器成像原理

讲解 CMOS/CCD 传感器中的光电转换过程，包括光子入射、电子积累、读出电路、ADC 量化、增益控制和动态范围限制。

1.2 RAW 数据结构与 Bayer 采样

介绍 Bayer CFA、RGGB/GRBG 排列、bit depth、black level、white level、坏点、镜头阴影和传感器元数据。

1.3 图像噪声统计建模

讲解散粒噪声、读出噪声、暗电流噪声、固定模式噪声和量化噪声，建立 RAW 域噪声模型。

1.4 RAW 图像退化表达

建立从真实辐照度到数字观测图像的数学模型

2. 经典 ISP 管线

2.1 黑电平校正与坏点修复

讲解 black level correction、bad pixel correction 和 sensor calibration 的基本方法。

2.2 去马赛克与颜色重建

介绍 demosaicing 的传统插值方法、边缘感知方法和学习式去马赛克方法。

2.3 自动曝光与自动白平衡

讲解 AE、AWB、色温估计、灰世界假设、学习式白平衡和多光源场景下的颜色校正。

2.4 色彩校正与色调映射

介绍 CCM、Gamma correction、tone mapping、HDR tone compression 和 display mapping。

2.5 去噪、锐化与局部增强

讲解 RAW 域去噪、YUV 域去噪、锐化、局部对比度增强和噪声放大控制。

3. 神经 ISP 与可微 ISP

3.1 Neural ISP 的基本思想

将传统 ISP 中的多个手工模块替换为端到端神经网络，实现 RAW 到 RGB 的学习式映射。

3.2 可微 ISP 管线设计

将去马赛克、白平衡、颜色校正、色调映射和增强模块构造成可微模块，使 ISP 参数可通过梯度反传进行优化。

3.3 任务驱动 ISP 优化

将 ISP 输出不再仅仅优化图像视觉质量，而是进一步服务检测、分割、深度估计、识别和视频理解等下游任务。

3.4 多帧 Neural ISP 与 Burst 成像

讲解多帧 RAW 对齐、短曝光堆叠、低照度增强、运动补偿和多帧高动态范围成像。

3.5 端侧 Neural ISP 部署

介绍轻量化网络、模型剪枝、量化、ONNX/TensorRT 推理和移动端实时处理。

4. 实践任务

4.1 RAW 图像读取与 Bayer 可视化

使用 rawpy/OpenCV 读取 RAW 图像，显示 Bayer pattern 和线性 RAW 数据。

4.2 手写简化 ISP 管线

完成黑电平校正、白平衡、去马赛克、颜色校正和 Gamma 映射。

4.3 噪声模型仿真与校准

构建泊松-高斯噪声模型，模拟不同 ISO 和曝光条件下的 RAW 噪声。

4.4 Neural ISP 小模型训练

训练一个轻量级 U-Net 或 Restormer-like 网络，实现 RAW 到 sRGB 图像映射。

4.5 传统 ISP 与 Neural ISP 对比

从 PSNR、SSIM、LPIPS、色彩误差和下游检测性能等角度进行评价。

第二天：现代数字图像处理、逆问题建模与深度图像复原

将传统数字图像处理内容从“滤波器和算子列表”升级为“视觉逆问题的统一建模”。图像去噪、去模糊、超分辨、低照度增强、压缩伪影去除和光学复原本质上都可以视为在退化观测条件下估计潜在真实图像。

1. 图像退化与逆问题统一表达

1.1 图像复原的统一退化模型

建立通用观测模型

1.2 常见退化类型

包括噪声、模糊、下采样、JPEG 压缩、低照度、散射、雾霾、传感器失真和光学像差。

1.3 MAP 估计与正则化建模

将图像复原表述为数据一致性项与先验项联合优化

1.4 判别式复原与生成式复原

比较直接回归、条件生成、扩散采样、流匹配和物理约束生成式复原之间的差异。

2. 传统图像处理技术的现代化组织

2.1 空间域滤波方法

讲解均值滤波、中值滤波、双边滤波、导向滤波和非局部均值。

2.2 频域与多尺度分析

介绍 Fourier transform、DCT、小波变换、拉普拉斯金字塔和频带分解。

2.3 边缘、纹理与结构特征

讲解 Sobel、Canny、Laplacian、HOG、SIFT、LBP 和局部结构描述符。

2.4 传统方法与深度先验结合

介绍 Plug-and-Play Prior、RED、深度展开网络和基于优化迭代的复原框架。

3. 深度图像复原模型体系

3.1 CNN/U-Net 复原模型

讲解 DnCNN、U-Net、EDSR、RCAN 等模型在去噪、超分和去模糊中的应用。

3.2 Transformer 复原模型

介绍 SwinIR、Restormer、Uformer 等结构中的窗口注意力、通道注意力和多尺度恢复机制。

3.3 Mamba/状态空间复原模型

讲解视觉状态空间模型在长程依赖、高分辨率图像建模和线性复杂度方面的优势。

3.4 扩散模型复原

介绍 DDPM、DDIM、条件扩散、StableSR、DiffBIR、ResShift 等生成式复原方法。

3.5 流匹配与一致性模型

讲解 flow matching、consistency model 和少步采样复原在高速生成式重建中的价值。

3.6 深度展开与物理约束网络

将传统优化步骤展开为神经网络层，结合数据一致性、先验约束和任务损失进行端到端训练。

4. 评价指标体系

4.1 像素保真度指标

包括 PSNR、SSIM、MS-SSIM 和 MAE。

4.2 感知质量指标

包括 LPIPS、DISTS、FID、KID 和人眼主观评分。

4.3 无参考质量指标

包括 NIQE、BRISQUE、MUSIQ 和 CLIPIQA。

4.4 任务驱动指标

包括检测 mAP、分割 mIoU、深度 AbsRel、识别 accuracy 和跟踪成功率。

4.5 工程部署指标

包括参数量、FLOPs、推理延迟、显存占用、吞吐率和端侧功耗。

5. 实践任务

5.1 构建多类型退化数据

生成噪声、模糊、低分辨率、JPEG 压缩和低照度图像。

5.2 实现传统复原算法

实现 Wiener 滤波、盲去卷积、非局部均值和小波去噪。

5.3 训练深度复原网络

训练 U-Net、Restormer 或 Mamba-like 模型完成去噪/超分/去模糊任务。

5.4 对比判别式与生成式复原

比较直接回归模型和扩散复原模型在保真度、感知质量和推理速度上的差异。

第三天：计算成像、深度光学设计与物理约束视觉建模

将深度光学设计扩展为计算成像与光学-AI协同设计课程模块，覆盖 PSF/OTF/MTF、波动光学传播、编码孔径、无透镜成像、金属透镜、光片显微镜和可微光学仿真。

1. 光学成像基础模型

1.1 几何光学与薄透镜模型

讲解焦距、孔径、景深、视场、放大率、成像距离和基础透镜公式。

1.2 波动光学与衍射传播

介绍 Fresnel diffraction、Fraunhofer diffraction、Angular Spectrum Method 和相位调制。

1.3 PSF、OTF 与 MTF

解释点扩散函数、光学传递函数和调制传递函数对图像质量的影响。

1.4 空间变化与深度相关成像模型

讲解 field-dependent PSF、depth-dependent PSF 和 spectral-dependent PSF。

1.5 光学成像退化表达

建立空间变化卷积模型

2. 计算成像系统类别

2.1 编码孔径成像

通过编码掩膜调制光场，使传感器观测中携带深度、频谱或角度信息。

2.2 无透镜成像

讲解 mask-based lensless imaging、diffuser imaging 和 learned reconstruction。

2.3 金属透镜与超表面成像

介绍亚波长结构相位调制、色散控制、多波长聚焦和 metalens camera restoration。

2.4 光场成像与多视角重建

讲解微透镜阵列、视差估计、重聚焦和深度恢复。

2.5 光片显微镜与三维显微成像

介绍光片形成、扫描机制、多视角采集、体数据重建和显微图像增强。

3. 深度光学设计与端到端联合优化

3.1 光学参数化表示

将曲率、厚度、孔径、折射率、相位分布、纳米柱半径、高度和周期作为可优化变量。

3.2 可微物理前向模型

构建可微 ray tracing、Fresnel propagation、ASM、PSF 卷积和 sensor noise model。

3.3 神经重建与感知网络

引入 CNN、Transformer、Mamba、Diffusion 等模型完成重建、增强、分割、检测或深度估计。

3.4 端到端联合优化目标

建立光学参数与神经网络参数的联合优化

3.5 制造误差与容差感知优化

考虑加工偏差、装调误差、材料色散、温漂、传感器噪声和标定误差对系统性能的影响。

4. AI Agent 辅助光学设计

4.1 需求解析 Agent

将自然语言需求解析为成像目标、分辨率、视场、波长、数值孔径、成本和制造约束。

4.2 光学建模 Agent

自动选择几何光学、波动光学、FDTD、FEM 或 RCWA 建模方式。

4.3 仿真调度 Agent

调用 Ansys Optics、Zemax、COMSOL、Tidy3D、Python 优化器和数据库系统完成批量仿真。

4.4 优化决策 Agent

基于 Bayesian optimization、reinforcement learning、evolutionary search 或 gradient-based optimization 搜索设计空间。

4.5 结果分析与报告 Agent

自动生成 PSF、MTF、spot diagram、重建图像、误差图、性能表格和设计报告。

5. 实践任务

5.1 建立简单 PSF 成像模型

模拟不同焦距、孔径和离焦程度下的 PSF。

5.2 PSF-aware 图像复原

利用已知或估计 PSF 训练图像去模糊/复原网络。

5.3 设计编码孔径或相位掩膜

建立编码光学元件并分析其对重建性能的影响。

5.4 光学参数与网络联合优化

实现一个简化的端到端光学-AI联合优化实验。

第四天：低层视觉、深度估计与三维感知任务实践

第四天聚焦低层视觉和几何感知。低层视觉任务不应只被理解为图像增强，而应被视为恢复视觉信息、提升下游任务可靠性和支撑三维场景理解的基础模块。

1. 深度图像去噪

1.1 图像噪声类型与真实噪声建模

讲解高斯噪声、泊松噪声、传感器噪声、低照度噪声和真实 RAW 噪声分布。

1.2 经典深度去噪方法

介绍 DnCNN、FFDNet、Noise2Noise、Noise2Void 和自监督去噪思想。

1.3Transformer/Mamba 去噪模型

讲解长程依赖建模、多尺度上下文聚合和高分辨率图像去噪。

1.4 面向下游任务的去噪

分析去噪对检测、分割、深度估计、视觉里程计和机器人导航的影响。

2. 超分辨率与去模糊

2.1 超分辨率退化模型

讲解 bicubic degradation、real-world degradation、blind SR 和真实成像退化。

2.2 判别式超分模型

介绍 SRCNN、EDSR、RCAN、SwinIR 和轻量化 SR 网络。

2.3 生成式超分模型

介绍 ESRGAN、Real-ESRGAN、StableSR、DiffBIR 和扩散超分辨率模型。2.4 去模糊任务建模

讲解运动模糊、散焦模糊、光学模糊和空间变化模糊。

2.5 自动驾驶与机器人场景中的模糊问题

分析高速运动、车载振动、机器人机械臂运动、低快门速度和滚动快门带来的图像模糊。

3. 低照度增强与 HDR

3.1 低照度图像增强

讲解 Retinex 理论、Zero-DCE、EnlightenGAN、KinD 和 RAW 域低照度增强。

3.2 HDR 成像与多曝光融合

介绍多曝光对齐、曝光融合、tone mapping 和 ghost artifact suppression。3.3 夜间自动驾驶视觉增强

分析夜间道路、隧道、强逆光、车灯眩光和雨雾天气下的感知退化。

3.4 机器人低光环境感知

讲解仓储机器人、巡检机器人、室内服务机器人和地下空间机器人中的低照度视觉问题。

4. 深度估计与三维感知

4.1 单目深度估计

介绍监督式、自监督式和基础模型驱动的单目深度估计方法。

4.2 双目深度估计与视差计算

讲解 cost volume、stereo matching、PSMNet、RAFT-Stereo 和视差到深度转换。

4.3 RGB-D 与 RGB-T 深度估计

介绍多模态深度估计、热红外辅助感知和恶劣环境下的鲁棒深度恢复。

4.4 NeRF 与 3D Gaussian Splatting

介绍神经辐射场、显式高斯表示、三维场景重建和新视角合成。

4.5 自动驾驶三维感知

讲解车载相机、LiDAR、毫米波雷达、多传感器融合、BEV 表示、3D 目标检测和占据网络。

4.6 机器人视觉与空间感知

讲解 SLAM、视觉里程计、手眼标定、物体位姿估计、抓取感知、语义地图和导航感知。

4.7 视觉基础模型在三维感知中的应用

分析 Depth Anything、Segment Anything、DINO、CLIP 和视觉-语言模型在开放场景三维感知中的作用。

5. 自动驾驶视觉感知专题

5.1 自动驾驶视觉感知系统架构

包括前视相机、环视相机、鱼眼相机、车载 ISP、多相机同步和感知计算平台。5.2 车道线、可行驶区域与交通参与者感知

讲解车道线检测、道路分割、车辆/行人/骑行者检测和交通标志识别。5.3 BEV 感知与多相机融合

介绍 image-view 到 BEV-view 的几何投影、Transformer-based BEV fusion 和 occupancy prediction。5.4 恶劣天气与复杂光照鲁棒性

分析雨、雾、雪、夜间、眩光、阴影、运动模糊对自动驾驶视觉系统的影响。

6. 机器人视觉专题

6.1 机器人视觉系统组成

包括 RGB 相机、深度相机、事件相机、热红外相机、机械臂相机和移动平台视觉系统。

6.2 视觉 SLAM 与定位建图

讲解特征点法、直接法、语义 SLAM、动态场景 SLAM 和视觉-惯性融合。

6.3 物体检测、姿态估计与抓取感知

介绍 6D pose estimation、grasp detection、视觉伺服和机械臂闭环控制。

6.4 具身智能与视觉语言导航

讲解视觉-语言指令理解、场景语义地图、目标导航和机器人任务规划。

7. 实践任务

7.1 图像去噪、超分与去模糊实验

训练或调用一个低层视觉模型，完成质量增强和指标评估。

7.2 低照度增强与 HDR 测试

在夜间或低光数据上测试增强模型，并分析对检测/分割结果的影响。

7.3 单目深度估计实验

运行 Depth Anything 或自监督深度估计模型，输出 RGB、深度图和误差可视化。

7.4 自动驾驶感知小实验

使用 KITTI、nuScenes、BDD100K 或 Cityscapes 数据完成车道线、目标检测或语义分割测试。7.5 机器人视觉小实验

完成 RGB-D 点云生成、相机标定、物体位姿估计或简单视觉 SLAM 流程。

第五天：高层语义理解、视觉基础模型与部署实践

从传统分类、检测和分割任务扩展到视觉基础模型、视觉-语言模型和工程部署。课程重点是让学习者理解高层语义任务如何与低层图像质量、成像退化和基础模型适配相互影响。

1. 图像分类与表征学习

1.1 CNN 到 Vision Transformer 的演进

讲解 AlexNet、VGG、ResNet、ConvNeXt、ViT 和 Swin Transformer。

1.2 自监督表征学习

介绍 MoCo、SimCLR、BYOL、MAE、DINO 和 iBOT 等方法。

1.3 开放类别与少样本识别

讲解 CLIP 表征、zero-shot classification、few-shot adaptation 和 prompt tuning。

1.4 表征可视化与可解释性

介绍 Grad-CAM、attention map、feature embedding visualization 和错误样本分析。

2. 目标检测

2.1 Two-stage 目标检测

介绍 R-CNN、Fast R-CNN、Faster R-CNN 和 Mask R-CNN。

2.2 One-stage 目标检测

介绍 YOLO 系列、SSD、RetinaNet 和 anchor-free detection。

2.3 Transformer 目标检测

介绍 DETR、Deformable DETR、DINO 和 query-based detection。

2.4 自动驾驶目标检测

讲解车辆、行人、骑行者、交通标志、交通灯和障碍物检测。

2.5 机器人场景目标检测

讲解室内物体检测、工业零件检测、抓取目标检测和动态障碍物识别。

3. 语义分割、实例分割与提示式分割

3.1 语义分割基础模型

介绍 FCN、U-Net、SegNet、DeepLab 和 HRNet。

3.2 实例分割与全景分割

介绍 Mask R-CNN、YOLACT、Mask2Former 和 panoptic segmentation。

3.3 SAM/SAM 2 与提示式分割

讲解 point prompt、box prompt、mask prompt、video object segmentation 和 interactive segmentation。

3.4 自动驾驶场景分割

包括道路、车道线、人行道、车辆、行人、交通标志、天空和可行驶区域分割。

3.5 机器人场景语义分割

包括桌面物体、可抓取区域、障碍物、地面区域、语义地图和任务相关区域分割。

4. 视觉-语言模型与多模态理解

4.1 CLIP 类图文对齐模型

讲解图像编码器、文本编码器、对比学习和开放词表识别。

4.2 视觉问答与图像描述

介绍 BLIP、LLaVA、MiniGPT-4 和多模态大模型推理。

4.3 视觉-语言模型辅助自动驾驶

讲解驾驶场景解释、交通事件理解、驾驶意图推理、事故风险描述和自然语言辅助决策。

4.4 视觉-语言模型辅助机器人

讲解语言指令理解、目标定位、场景问答、任务规划和具身智能执行。

4.5 多模态基础模型适配方法

介绍 adapter、LoRA、prompt tuning、instruction tuning 和 retrieval-augmented perception。

5. 自动驾驶智能系统专题

5.1 感知-预测-规划一体化架构

讲解自动驾驶系统中的感知、跟踪、轨迹预测、行为决策和运动规划。

5.2 多传感器融合与 BEV 表示

介绍 camera、LiDAR、radar、IMU、GPS 的融合方式，以及 BEVFormer、BEVFusion 和 occupancy network。

5.3 轨迹预测与行为理解

讲解车辆轨迹预测、行人意图识别、交互建模和风险评估。

5.4 端到端自动驾驶模型

介绍从图像到控制、从 BEV 到规划、世界模型和 VLM-assisted driving。

5.5 自动驾驶安全与鲁棒性评估

分析 OOD 场景、长尾事件、恶劣天气、传感器失效和安全约束。

6. 机器人视觉与具身智能专题

6.1 机器人感知-决策-执行闭环

讲解机器人如何从视觉输入中完成环境理解、目标定位、动作规划和反馈控制。

6.2 视觉导航与语义地图

介绍 visual navigation、semantic mapping、object goal navigation 和 embodied scene understanding。

6.3 操作机器人与抓取感知

讲解 grasp pose detection、6D pose estimation、视觉伺服和接触反馈融合。

6.4 多模态大模型驱动的机器人智能

介绍 VLM、LLM、机器人控制策略、任务分解和语言-视觉-动作对齐。

6.5 机器人部署中的实时性与安全性

分析边缘推理、低延迟控制、环境变化、失败恢复和安全约束。

7. 模型部署与工程优化

7.1 PyTorch 模型导出

讲解 TorchScript、ONNX export 和模型图优化。

7.2 TensorRT 与端侧推理

介绍 TensorRT engine、FP16/INT8 量化、batch 优化和实时推理。

7.3 模型剪枝、蒸馏与轻量化

讲解 pruning、knowledge distillation、NAS 和 mobile-friendly architecture。

7.4 视频流实时处理

介绍多线程读取、GPU pipeline、batch inference、frame skipping 和 latency profiling。

7.5 自动驾驶与机器人部署平台

包括 NVIDIA Jetson、Orin、ROS/ROS2、车载计算平台和机器人边缘计算模块。

8. 实践任务

8.1 图像分类与特征可视化

训练或调用分类模型，并进行 Grad-CAM 可视化分析。

8.2 目标检测与语义分割实验

在 COCO、Cityscapes、BDD100K 或自定义数据上完成检测和分割。

8.3 SAM/SAM 2 交互式分割实验

使用点、框或文本提示完成图像/视频对象分割。

8.4 自动驾驶感知系统小项目

构建一个包含检测、分割、深度估计和 BEV 可视化的简化自动驾驶视觉流程。

8.5 机器人视觉系统小项目

完成 RGB-D 感知、目标检测、语义分割、点云生成和物体位姿估计流程。

8.6 模型部署实验

将训练好的模型导出为 ONNX，并完成 TensorRT 或边缘设备推理测试。

往期学员反馈

课程会议完毕后老师长期解疑，课程群不解散，往期会议学员对于会议质量和授课方式一致评价极高！

课程模式与增值服务

课程模式

1、线上授课时间和地点自由，建立专业课程群进行实时答疑解惑。

2、理论＋实操授课方式，由浅入深式讲解，结合大量实战案例与项目演练，聚焦人工智能技术在计算机视觉、光学成像领域的最新研究进展。

3、课前发送全部学习资料（上课所有使用的软件、包括丰富的PPT，大量的代码数据集资源）课程提供全程答疑解惑。

4、定期更新的前沿案例，由浅入深式讲解，课后提供无限次回放视频，免费赠送二次学习，永不解散的课程群答疑服务，可以与相同领域内的老师同学互动交流问题，让求知的路上不再孤单！

增值服务

1、凡参加人员将获得本次课程学习资料及所有案例模型文件；

2、课程结束可获得本次所学专题全部回放视频；

3、课程会定期更新前沿内容，参加本次课程的学员可免费参加一次本单位后期举办的相同专题课程（任意一期）！

专题时间

深度学习计算机视觉与计算成像专题

2026.07.18---2026.07.19（上午09:00-11:30下午13:30-17:00）

2026.07.21---2026.07.22（晚上19:00-22:00）

2026.07.25---2026.07.26（上午09:00-11:30下午13:30-17:00）

腾讯会议线上授课（共五天课程提供全程视频回放和课程群答疑）

专题费用

课程费用：

深度学习计算机视觉与计算成像专题

每人每班：¥4980元（包含培训费、资料费、提供课后全程回放资料）

早鸟价：提前报名缴费学员可得300元优惠（仅限前15名）

套餐价：

两门同报：同时报名两门课程￥9080元

三门同报：同时报名三门课程￥12880元

年报优惠：可免费学习一年特惠：18880元（可免费学习一整年本单位举办的任意专题）

报名费用可开具正规报销发票（会议费、培训费、资料费等）及提供相关缴费证明、邀请函，可提前开具报销发票、文件用于报销

报名咨询方式

（请扫描下方二维码）

报名流程：扫码报名→管理员对接→发送正式培训（会议）邀请函→缴费及开具发票。

联系人｜陈老师

咨询电话｜15652523032（微信同号）

邮箱 | 15652523032@163.com

官方网站 | http://www.dxianai.com