基于此,2024年,麻省理工学院(Massachusetts Institute of Technology, MIT)的Markus J Buehler教授研究团队开发了一种基于多模态智能图推理(Multimodal Intelligent Graph Reasoning, MIGR)的自动化框架,用于解决科学发现中的知识提取与语义关联难题。研究发现,该方法可构建融合一千多篇科研论文共现统计、知识图谱(Knowledge Graph, KG)和大语言模型(Large Language Model, LLM)生成关系的异质图,通过图神经网络在共享语义空间中联合学习跨学科科学概念的统一嵌入表示。这些预对齐的、可迁移的特征显著增强了模型在处理复杂材料设计任务时的泛化性能,成功提升了生物材料创新设计与结构功能关联预测的准确性。该研究成果发表于《Machine Learning: Science and Technology》期刊。
设计理念
该研究的核心在于将非结构化的文本转化为可计算的结构化知识,并以此为基础构建自主推理引擎。即,首先通过自然语言处理(Natural Language Processing, NLP)技术对海量文献进行生成式知识提取,将科学知识转化为由实体、关系和属性构成的三元组,从而构建出一个动态生长的全局知识网络。为了确保推理的严谨性,设计中引入了检索增强生成(Retrieval-Augmented Generation, RAG)机制,使得系统在生成设计方案时能实时追溯原始文献。此外,该框架通过将图理论(Graph Theory)中的路径搜索算法与大语言模型的逻辑生成相结合,设计出一种能够模拟人类科学家联想思维的“路径寻找”机制。这种设计实现了从单一文本生成向多维空间推理的范式转变,并通过整合视觉语言模型(Vision-Language Model, VLM),进一步实现了文本、图谱与图像信息的深度融合。
图5. 质检报告。社区规模与聚类系数的关系 (Community Size vs. Clustering Coefficient).(a) 以散点图形式展示了知识图谱中各社区的规模(节点数)与其平均聚类系数之间的关系,其中x轴(社区规模)和y轴(平均聚类系数)均采用对数坐标。每个散点代表一个社区,其颜色表示该社区内节点的平均度,从蓝色(平均度低)渐变到红色(平均度高)。该图揭示了社区内部结构的异质性。结果表明,高平均聚类系数通常与高平均度共存,这类社区代表了知识密集、内部连接紧密的成熟研究领域,形成了稳固的知识体系。而低聚类系数的社区则代表了内部连接相对稀疏、知识结构尚在发展中的新兴或交叉领域,它们是潜在的新研究机会所在。图6. 代表性社区选择。不同社区内部顶节点的度分布 (Degree Distribution of Top Nodes in Communities). (a) 至 (f) 分别展示了六个不同社区内度最高的前五个节点的度值分布。例如,社区1中“胶原纤维”的度最高,是核心枢纽节点;社区2中“强度”、“刚度”和“韧性”等节点凸显了其聚焦材料力学属性的特点;社区3和5分别由“生物材料”和“力学性能”节点主导;社区4的度分布则更为均衡;社区6中“胶原”节点再次占据主导地位。量化验证了知识图谱在社区尺度上同样具有异构性与无标度特性。这表明在每个知识社区内部,都存在少数扮演“枢纽”角色的核心概念(如“胶原纤维”、“力学性能”),它们对社区的结构和知识整合至关重要,为理解特定学科领域的核心架构和进行有针对性的知识提取提供了依据。图7. 多路径采样驱动的知识图谱及其拓扑融合分析 (Knowledge Graphs from Multi-path Sampling). (a-c): 展示了基于多路径采样的独立路径图。其中 (a) 探索“花(flower)”与“受珍珠母启发的创新水泥(nacre-inspired cement)”之间的连接;(b) 探索“丝蛋白(proteins found in silks)”与“飞机复合材料(composites for airplanes)”之间的关联;(c) 则是基于增强图(含X-LoRA对抗采样数据)探索“可持续性(sustainability)”与“风味(flavor)”的联系。在这些子图中,每条路径被单独渲染,因此相同的标签可能会多次出现,呈现出放射状或平行的链式结构。(可以想成地铁20条独立的线)(d-f):展示了将上述路径进行“节点合并”后的融合图。(d) 对应(a)的融合,显示“机械性能(mechanical properties)”拥有最高节点度;(e)对应(b)的融合,显示“复合材料(composite materials)”为核心节点;(f)对应(c)的融合。在这组图中,来自不同路径的相同节点被合并,深绿色代表高节点度,浅绿色代表低节点度。(类似于地铁换乘)