
2026年4月3日下午,“软件前沿・学术沙龙” 第十四期在软件学院1001会议室圆满举行。本期沙龙以多模态智能为核心主题,特邀清华大学韩军功教授、哈尔滨工业大学(深圳)智能科学与工程学院院长俞俊教授、中国科学院自动化研究所徐常胜老师三位顶尖学者担任主讲嘉宾,带来三场前沿学术分享,吸引了学院众多师生参与,现场学术氛围热烈浓厚。

面向低空具身智能体的多模态感知与自主决策
活动伊始,俞俊教授带来了 “面向低空具身智能体的多模态感知与自主决策” 的主题分享。俞教授提到,近年来多模态模型的快速发展,显著推动了具身智能体在感知理解、动作规划与自主决策等方面的能力提升,而低空自主智能无人机作为典型应用形态,在低空经济快速发展的背景下受到了广泛关注。不过,无人机在复杂环境中的感知精度、自主导航与控制决策能力,仍面临诸多挑战。

俞俊教授系统梳理了低空具身智能的最新研究进展,围绕多模态感知、自主决策等关键技术展开深入分析,并探讨了未来的发展趋势与关键技术路径,同时分享了团队相关成果在人民日报、阿里等场景的落地实践,为低空经济与人工智能的交叉融合提供了前沿视角。

开放世界的多模态大模型研究与应用
中国互联网企业100强榜单主要参考互联网企业年度发展数据,评价指标既覆盖收入、利润、人力资本等财务指标,也覆盖流量、活跃用户数等业务指标。随后,徐常胜老师以 “开放世界的多模态大模型研究与应用” 为主题进行分享。徐老师指出,与视觉和语言大模型相比,多模态大模型能够从不同模态数据中学习共性知识,具备更强的通用性,更贴近人类认知能力,是人工智能进一步发展的关键方向。尽管当前多模态大模型在跨模态检索、跨模态生成等任务中取得了优异性能,但在开放世界的实际应用中仍面临诸多未解决的挑战。

围绕核心问题,徐研究员重点探讨了两大研究方向:一是如何在保留不同模态数据本身特性的前提下建模多模态数据关联;二是如何在保证模型泛化性的前提下实现多模态大模型在下游任务中的跨域迁移和小样本迁移。同时,他详细介绍了团队提出的基于解耦视觉系统的多模态大模型 Libra,以及针对多模态大模型泛化性保持的跨域和小样本迁移方法,为开放世界多模态大模型的研究与落地提供了创新思路。

多模态智能:从任务专用模型到通用智能框架
最后,韩军功教授以 “多模态智能:从任务专用模型到通用智能框架” 为主题带来分享。韩教授指出,我们的世界正因多样化的数据源而日益互联,如何理解来自视觉、语言、深度等多种模态的复杂场景,已成为人工智能的核心课题。

报告中,韩教授深入探讨了多模态智能的核心逻辑 —— 即机器如何融合并推理不同感知输入,从而实现对环境的感知、理解与交互。他深入浅出,从三个科学问题出发,从如何高效交互模态、如何高效融合模态、如何有效训练多模态模型三个角度,详细探讨了模型架构、融合策略、应用以及多模态基础模型方面的最新进展,展示了相关研究如何不断突破机器感知与认知的边界,为多模态智能向通用人工智能发展的研究指明了方向。

在互动交流环节,现场师生踊跃提问,围绕多模态数据融合的技术难点、大模型在开放世界的泛化性、低空智能体的落地挑战、通用智能框架的构建路径等话题,与三位嘉宾展开了深入探讨。三位嘉宾结合自身科研经验,耐心解答师生疑问,并鼓励同学们深耕多模态智能领域,抓住人工智能发展的前沿机遇。

本次 “软件前沿・学术沙龙” 第十四期,聚焦多模态智能这一人工智能核心前沿方向,三场分享分别从大模型研究、低空场景应用、通用智能框架三个维度,全面展现了多模态智能领域的最新进展与未来方向。不仅为学院师生带来了前沿的学术视野与创新思路,也推动了学院在多模态智能、具身智能等领域的学术交流与科研合作,为后续跨学科研究与人才培养奠定了坚实基础。
图片 | 赵嘉诚
文字 | 赵嘉诚
编辑 | 新闻中心设计部程语嫣
审核 | 田春雨
夜雨聆风