近日,浙江工业大学网络空间研究院联合格里菲斯大学、墨尔本皇家理工大学在AI for Science领域研究成果被CCF-A类机器学习国际顶级学术会议ICML 2026录用!

会议介绍

ICML(International Conference on Machine Learning)是人工智能与机器学习领域全球顶级学术会议之一,也是中国计算机学会推荐的CCF-A类国际学术会议。ICML长期聚焦机器学习基础理论、算法模型及其在科学智能、自然语言处理、计算机视觉、推荐系统、药物发现等领域的前沿应用,每年吸引来自全球高校、科研机构和产业界的顶尖研究者参会。据会议官方录用通知,ICML 2026共收到23,918篇进入评审阶段的投稿,最终录用6,352篇论文,整体录用率为26.6%。会议将于2026年7月6日至11日在韩国首尔举行。

论文信息

1.题目
ReCoG: Relational and Compact Context Graph Learning for Few-shot Molecular Property Prediction
2.作者
汪泽钰, Xin Zheng,陆耀,俞山青,宣琦,Shirui Pan
3.单位
浙江工业大学;格里菲斯大学;墨尔本皇家理工大学
4.研究方向
分子属性预测;小样本学习;信息瓶颈;上下文图学习;药物发现

论文概述

分子属性预测是药物发现和材料设计中的基础任务,旨在根据分子结构预测其物理化学属性或生物活性。然而,在真实应用场景中,高质量分子属性标注往往依赖昂贵且耗时的实验或高精度模拟,导致许多新属性、新靶点和新分子任务面临严重的数据稀缺问题。小样本分子属性预测(Few-shot Molecular Property Prediction, FSMPP)因此成为AI4Science领域的重要研究方向,其目标是在极少量标注样本条件下实现对新分子结构和新属性预测任务的快速适应。现有方法形成了通过上下文图建模引入辅助信息以提升了小样本场景下的分子属性预测性能的有效研究范式,但仍存在两个关键挑战:一是对上下文图中分子-属性、属性-属性等结构关系挖掘不足,导致跨属性知识迁移不充分;二是辅助属性信息中往往包含大量与目标任务无关甚至冗余的信号,直接引入可能造成负迁移并影响模型泛化性能。针对上述问题,本文提出一种面向小样本分子属性预测的关系化与紧凑化上下文图学习框架RECOG。该方法通过跨属性关系学习模块充分挖掘不同分子属性之间的潜在关系,并通过上下文图信息瓶颈模块自适应过滤与目标任务无关的辅助信号,从而实现对有效上下文知识的精准利用。大量实验结果表明,RECOG在多个小样本分子属性预测基准数据集上均取得了优于现有方法的性能表现。


论文思路

1.核心困境审视:
尽管现有小样本分子属性预测研究已形成了将预训练分子表征模型与基于上下文感知学习机制结合的研究范式,但其性能仍无法满足现实应用需求。基于此,本文从方法建模思路和实验分析两个层面对现有方法进行了审视,并发现了以下两大核心挑战:
现有基于上下文感知的研究范式虽然引入了分子-属性间多对多要素关系等各种辅助上下文信息,但大多只建模基础的分子-属性关系,对属性之间的结构化关联挖掘不足;
在利用上下文辅助信息的同时,难以避免地会引入噪声和冗余,例如不同分子属性之间的关系存在强弱关联性,不加筛选地使用会起副作用,造成不稳定、泛化差的结果。


2.核心贡献:
问题洞察:本文指出现有基于上下文感知的FSMPP方法存在“结构上下文挖掘不足”和“辅助上下文冗余学习”两类关键问题,并从理论角度分析了关系化与紧凑化上下文知识联合建模的重要性;
方法创新:提出RECOG框架,将跨性质关系学习与上下文图信息瓶颈机制相结合,实现对上下文图中有效关系知识的挖掘与冗余信息的自适应抑制;
实验验证:在Tox21、SIDER、MUV、ToxCast、PCBA等多个小样本分子属性预测基准数据集上,RECOG在10-shot和1-shot设置下均表现出优越性能。

方法框架

围绕“如何充分挖掘上下文结构信息”和“如何抑制冗余辅助信息”两个核心问题,本文首先对FSMPP优化目标进行重新审视。现有上下文感知方法通常将上下文图与目标任务标签
之间的互信息最大化作为主要学习目标:

然而,该目标主要依赖有限的目标任务监督,未能充分挖掘上下文图中潜在的跨性质关系,同时也缺乏对冗余辅助信息的有效约束。为此,本文进一步引入跨性质关系信号,并将上下文图划分为目标任务子图
与辅助环境子图
,通过信息瓶颈机制学习压缩后的辅助上下文
,最终形成统一优化目标:

其中,第一项用于挖掘不同分子性质之间的关系语义,第二项用于保持模型对目标任务的预测能力,第三项则用于压缩任务无关或冗余的辅助上下文信息。该目标将“关系知识挖掘”与“冗余信息抑制”统一到同一优化框架中,为RECOG的模型设计提供了理论基础。基于上述分析,本文提出RECOG框架,主要包含两个关键模块:
跨性质关系学习模块:通过构建分子与不同性质之间的三元关系,将隐式上下文信息转化为可优化的关系监督信号,从而增强模型对跨性质知识的利用能力。该模块对应统一目标中的关系建模项:

上下文图信息瓶颈模块:面向目标任务自适应筛选辅助性质信息,保留有益上下文信号,压缩和过滤任务无关或冗余信息,提高模型泛化稳定性。该模块对应统一目标中的紧凑化约束项:

其中,β用于控制信息压缩强度。通过该约束,模型能够在利用辅助任务信息的同时,避免无关辅助性质对目标任务预测造成干扰,实现更加紧凑和有效的上下文图学习。

实验验证

本文将RECOG与16种代表性小样本分子属性预测方法进行了系统对比,实验覆盖训练式方法、元学习方法、预训练分子编码器方法以及上下文感知方法等不同范式。结果表明,RECOG在五个基准数据集、两类小样本设置下均取得了稳定领先的性能,尤其在标注极度稀缺的1-shot场景和高稀疏性的MUV数据集上表现突出,验证了其在信息稀缺条件下挖掘有效上下文知识的能力。

消融实验进一步表明,跨性质关系学习模块和上下文图信息瓶颈模块分别在增强知识迁移能力和提升模型稳定性方面发挥了互补作用;效率分析结果也表明,RECOG在取得更高预测性能的同时,仍保持了较好的训练效率。


此外,本文进一步开展算法分析实验,从机制层面验证RECOG的有效性。通过信息瓶颈系数敏感性分析、辅助任务保留概率可视化以及不同辅助任务数量实验,结果表明RECOG能够在保留有效上下文信息与压缩冗余辅助信号之间取得平衡,并根据任务相关性自适应筛选辅助信息。相比现有方法,RECOG并非简单引入更多辅助任务,而是能够抑制弱相关任务带来的噪声,从而实现更稳定、更优的小样本分子属性预测性能。


·END·
夜雨聆风