



近日,北京大学深圳研究生院新材料学院潘锋教授团队依托图论结构化学与人工智能交叉研究优势,在金属有机框架(MOF)晶体结构预测领域取得重要突破。团队创新性提出基于扩散模型的生成式人工智能框架 Xrd2Mof,实现了从粉末 X 射线衍射图谱到 MOF 晶体结构的高效精准解析,破解了高通量实验与自驱动实验室场景下结构解析效率不足的行业痛点。相关研究成果发表于国际顶级期刊《美国化学会志》(JACS)。
金属有机框架材料凭借结构可调性强、应用场景广泛的特性,长期是材料科学领域的研究热点,X 射线衍射技术也早已成为晶体结构表征的成熟常规手段。但随着材料研发向高通量、自动化方向快速演进,传统粉末 X 射线衍射(PXRD)数据解析高度依赖人工经验、效率难以匹配实验节奏的问题逐渐凸显,如何快速从衍射图谱反推得到完整的晶体结构,成为制约 MOF 材料研发自动化升级的核心瓶颈。潘锋团队长期深耕图论结构化学、AI4S 与材料基因组学方向,针对这一行业共性难题开展系统性攻关,最终构建出 Xrd2Mof 生成式解析框架。
Xrd2Mof 以扩散模型为核心技术底座,以 PXRD 图谱、金属节点及有机配体信息作为输入,直接输出对应的 MOF 晶体结构。整套框架由特征提取、粗粒化结构生成、构建块装配三个核心阶段组成,其底层逻辑与文本生成图像的智能体模式相近:先通过大规模数据训练建立输入特征与输出结构之间的映射关系,再基于给定输入生成符合物理规律的目标结构。为保障模型的泛化能力与准确性,研究团队采用来自 CSD 数据库的 79658 个真实 MOF 结构完成模型训练,最终在测试集的结构匹配任务中取得了 93% 以上的准确率,且对多种不同拓扑类型的 MOF 结构均表现出良好的适配能力。
该研究的核心创新点,在于首次将粗粒度化方法引入基于 XRD 图谱的 MOF 结构生成任务中。粗粒度化处理会对 MOF 晶体中的金属团簇与有机配体进行结构切割,以质心替代原本复杂的原子排布,在最大限度保留骨架几何核心特征、也就是关键 “材料基因” 信息的前提下,大幅降低结构的特征维度。借助这一处理方式,模型能够有效应对包含数百乃至上千个原子的复杂 MOF 结构,显著拓宽了人工智能方法在 MOF 结构解析领域的适用边界。
在实际科研与产业应用中,Xrd2Mof 可无缝集成到 MOF 高通量合成流程中,直接解决了 PXRD 图谱解析速度与高通量实验节奏不匹配的行业痛点,为 AI 自驱动实验室的 MOF 材料研发体系提供了关键的技术支撑。研究团队同时客观指出,当前模型仍存在一定局限,例如结构解析需要以已知金属节点与连接体信息为前提,尚未完全覆盖溶剂分子与杂质信号的干扰;但即便面对含有杂质的 PXRD 图谱,模型仍能保持 90.6% 的结构匹配成功率。后续研究将通过主动学习机制融入更多真实实验数据,进一步拓展模型能力边界,未来有望延伸至红外、拉曼等其他材料表征技术的解析场景,为多模态表征集成的自动化材料研发模式奠定基础。
该论文共同第一作者为北京大学深圳研究生院新材料学院硕士研究生冯彬、博士研究生王炳胥,李舜宁与潘锋为共同通讯作者,研究工作得到广东省重点实验室与广东省自然科学基金的资助支持。
推荐阅读

夜雨聆风