“软件前沿·学术沙龙”第15期活动预告 | 提升基于扩散模型的图像生成多样性

嘉宾介绍

报告嘉宾：唐萌

个人简介：

现任加州大学默塞德分校计算机科学与工程系助理教授，同时担任生成空间智能实验室负责人。主要研究方向为计算机视觉、生成式人工智能与空间智能，重点聚焦可控图像与视频生成、生成模型、数据高效的视觉感知与视觉生成方向。多篇研究成果发表于 CVPR、ICCV、ECCV、ICLR、IJCV、PAMI 等计算机领域顶会与顶刊；曾担任 ICLR、NeurIPS、ICML 等人工智能与机器学习顶级会议领域主席。入职加州大学默塞德分校前，任职于元现实实验室研究院，担任研究科学家，主要从事 AR/VR 场景下的机器感知与机器学习方向研究。2019 年于滑铁卢大学取得计算机科学博士学位，2014 年获西安大略大学计算机科学硕士学位，2012 年于华中科技大学取得自动化专业工学学士学位。

讲座内容

讲座题目：

提升基于扩散模型的图像生成多样性

内容摘要：

扩散模型在图像生成领域取得了瞩目的成果，但该类模型仍存在生成多样性不足的问题，尤其是在训练样本稀少的长尾类别任务，或是生成多个同类相似目标物体时，该问题会更加突出。本次讲座将围绕两项近期研究工作，从统一的视角来解决上述难题：在生成过程中，约束扩散模型哪些特征信息需要共享、哪些特征需要独立保留。

首先，本次讲座将介绍自交叉扩散引导（Self-Cross Diffusion Guidance），这是一种无需重新训练、面向多相似目标文本生成图像的算法。研究发现，当某个目标的交叉注意力图与另一目标聚合自注意力区域发生重叠时，极易出现不同目标特征混淆的问题。该方法通过对这类自交叉注意力重叠区域施加惩罚约束，在保留预训练扩散模型原有灵活能力的前提下，有效缓解相似目标之间身份特征、属性特征相互泄露的现象。本文提出的自交叉扩散损失目标，既可以作为模型推理阶段的引导损失，也能够作为基于强化学习微调训练过程中的奖励函数。

其次，讲座将介绍面向长尾分布扩散模型的对比式条件 - 无条件对齐算法（Contrastive Conditional–Unconditional Alignment）。在类别不均衡的图像生成任务中，由于训练数据稀缺，长尾类别往往会出现模型模式崩溃、生成画面视觉保真度低等缺陷。该方法在扩散早期时间步对齐条件降噪与无条件降噪过程，实现模型知识共享；同时在隐空间的无条件分支中引入对比排斥约束，以此提升长尾类别的生成多样性。

上述两项研究提炼出可靠扩散图像生成的通用设计思路：不必将扩散模型视作黑盒生成器，通过对模型内部表征、注意力图之间的关联关系施加正则约束，即可有效提升生成多样性。该研究视角为可控制、高多样性、数据高效的生成式建模开辟了全新研究方向。

活动详情

时间：2026年6月30日（周二）15:00
地点：华中科技大学软件学院恩明楼1016
参加方式：扫码填写信息报名

欢迎各位老师同学积极参与，

一起聆听智慧，碰撞思想火花！

我们不见不散！

文字 | 软件学院

编辑 | 新闻中心设计部赵嘉诚

审核 | 田春雨