乐于分享
好东西不私藏

论文导读|基于知识图谱的地质知识-文档一体化问答系统

论文导读|基于知识图谱的地质知识-文档一体化问答系统

基于知识图谱的地质知识-文档一体化问答系统

王成彬1,*别林瀚1李子晨1,2王明果1,3,4陈建国1汪新庆1常力恒3,4王博1,3,4王越1任江涛1王卫2熊萍5

1.中国地质大学(武汉) 资源学院, 自然资源部资源定量评价与信息工程重点实验室, 湖北 武汉 430074

2.武汉智博创享科技股份有限公司, 湖北 武汉 430056

3.云南省地矿测绘院有限公司云南地质大数据中心, 云南 昆明 650051

4.云南省自然资源智能监测与时空大数据治理重点实验室, 云南 昆明 650051

5.科技大数据湖北省重点实验室, 湖北 武汉 430071

DOI: 10.13745/j.esf.sf.2026.2.82

地学前缘, 2026, 33(4): 223-237

关键词

知识表示知识图谱问答系统锡矿知识定位地质矿产

摘要

为解决传统地质资料规模庞大、结构复杂、难以快速检索的问题,本研究以语义解析和知识表示两大核心技术为基础构建了基于地质矿产知识图谱的地质矿产领域的问答系统,实现了地质知识以及来源文档的一体化查询。首先,采用BERT-BiLSTM-CRF 模型实现地质实体识别,使用 TextCNN 完成关系分类,然后基于 TransD 模型进行知识表示学习与答案检索;在知识检索和问答的基础上,利用关键词和文档的匹配关系实现知识文档的一体化查询推荐。实验结果表明,BERT-BiLSTM-CRF在实体识别中F1达到0.898TextCNN在关系分类中准确率达0.932TransD在知识表示学习中取得最佳链接预测表现。最终构建的Web端地质问答系统可支持知识图谱查询和自然语言问答,为地质人员提供便捷的知识检索服务,为未来扩展至更多矿种知识图谱问答系统奠定了方法基础。

研究背景

矿产勘查工作高度依赖前人地质知识与资料的复用,当下地质数据体量庞大、结构复杂,传统检索方式难以实现高效精准查询,智能问答系统成为地质信息化领域的研究热点。随着自然语言处理、知识图谱与大语言模型技术发展,地质领域问答系统先后经历了基于文本挖掘与领域本体、基于知识图谱结构化问答、结合大语言模型与检索增强生成三个发展阶段,但现有系统仍存在明显短板:通用大模型易产生知识幻觉、部署门槛高,多数问答系统仅侧重直接输出答案,忽略了地质工作至关重要的知识溯源需求,未能打通知识节点与原始非结构化文档的关联,知识查证难度大,在此背景下,研究团队以云南锡矿为研究对象,开展基于知识图谱的地质知识– 文档一体化问答系统相关研究,以期解决现有技术存在的诸多问题。

研究方法

本研究以云南锡矿知识图谱为基础搭建整套技术框架,先对知识图谱开展节点清洗、实体融合等预处理工作,同时结合地质文献与勘查报告构建锡矿领域问答数据集与170 类问题模板;在语义解析环节,采用 BERT-BiLSTM-CRF 模型完成地质实体识别,利用推理速度更具优势的 TextCNN 模型实现问句关系分类,并借助 Jaccard 相似度算法结合知识图谱关系约束完成实体链接与消歧;答案检索阶段选用 TransD 模型开展知识表示学习与链接预测,同时设计类型约束负采样策略提升负样本质量,再从实体类型、损失分数阈值、排名惩罚三个维度设计多维筛选算法优化答案输出;最后整合上述算法模块,搭建包含交互层、业务层、数据层的三层架构 Web 端系统,同步实现自然语言问答、知识图谱可视化浏览以及关键词匹配驱动的原始文档推荐功能。

研究结论

本研究构建了一套基于知识图谱的地质问答系统,以云南锡矿知识图谱为基础,从语义解析、知识表示和系统实现3个方面开展了系统性研究。实验表明,BERT-BiLSTM-CRF模型可有效提升领域实体识别精度,TextCNN可满足关系分类任务的速度与精度需求,而TransD在知识表示学习中的链接预测效果最佳,适用于本研究中结构相对简单的领域知识图谱。基于上述模型,本研究实现了支持自然语言问答和知识图谱浏览的Web端地质问答系统,为地质人员提供了结构化、可解释、可追溯的知识检索能力。

未来工作将从以下方向开展:进一步扩展矿种范围,构建更大规模的综合矿产知识图谱;引入小参数大语言模型用于查询结果的总结与自然语言增强;增加文献库、报告库等多源知识的统一管理,以提升系统的知识覆盖度与回答质量。

引用本文:

王成彬, 别林瀚, 李子晨, 王明果, 陈建国, 汪新庆, 常力恒, 王博, 王越, 任江涛, 王卫, 熊萍. 基于知识图谱的地质知识-文档一体化问答系统[J]. 地学前缘, 2026, 33(4): 223-237.

WANG Chengbin, BIE Linhan, LI Zichen, WANG Mingguo, CHEN Jianguo, WANG Xinqing, CHANG Liheng, WANG Bo, WANG Yue, REN Jiangtao, WANG Wei, XIONG Ping. Knowledge graph-based one-stop question-answering system for geological knowledge and source documents[J]. Earth Science Frontiers, 2026, 33(4): 223-237.

代表性图件

图1   技术方法路线

图2   BERT-BiLSTM-CRF 实体识别模型

图3   BERT的Embedding示意图

图4   BiLSTM模型结构示意图

图5   TextCNN网络架构

图6   关系分类测试集混淆矩阵

图7   不同实体关系嵌入维度下的命中率

图8   不同边界值γ设置下的命中率

图9   知识表示计算出的实体得分(绿色为正样本三元组分数,红色为负样本三元组分数)

图10   本文问答系统的提问及回答界面(a)和ChatGPT问答系统的提问及回答界面(b)

图11   地质问答知识图谱查询浏览界面

图12   文档检索流程

图13   相关文献链接列表

END

《地学前缘》于1994年创刊,是由教育部主管,中国地质大学(北京)和北京大学共同主办的地球科学中文双月刊。《地学前缘》自2024年起主编为邓军院士。编委会由国内外37名院士和42名国家杰出青年基金获得者在内的127名著名学者组成。
《地学前缘》坚持专家办刊路线,以出刊主题专辑、专栏为特色,辅以国内外自由来稿、双语来稿选登,全方位反映地球科学领域的引领性、创新性、基础性研究成果,多年以来出版物已成为地球系统科学的研究范例,并以最有效方式进行高端论文和全刊内容的国际化推送。
《地学前缘》是“中国科技期刊卓越行动计划项目”期刊、“首都科技期刊卓越行动计划项目”期刊、中国最具国际影响力学术期刊、中文核心期刊、EI收录期刊、Scopus收录期刊、世界期刊影响力指数Q1期刊。
电话|010-82322973 010-82321904(传真)  
E-mailfrontier@cugb.edu.cn
网 址|http://www.earthsciencefrontiers.net.cn
http://www.cugb.edu.cn
地学前缘
长按识别二维码关注“地学前缘中文”公众号
点击下方“阅读原文”查看原文