基于大语言模型的北洋政府文书资源命名实体识别研究-夜雨聆风

基于大语言模型的北洋政府文书资源命名实体识别研究

邓君，张子姝，潘禹兵，叶东宇，常严予

吉林大学商学与管理学院，吉林长春 130012

摘要

目的/意义

针对北洋政府文书资源因语言复杂性、多样性及标注数据缺乏导致的命名实体识别难题，本文提出一种适应低资源场景基于大语言模型的命名实体识别框架，为近代历史文献的结构化挖掘与知识重组提供方法支撑。

方法/过程

该框架融合检索增强生成与高效参数微调，利用Faiss向量检索构建上下文样例动态选取机制，通过LoRA策略对大语言模型进行领域知识注入。最后，在自建语料库上，系统评估深度学习基准模型与不同采样策略下的大语言模型性能。

结果/结论

结果表明，结合相似度样例选择与LoRA微调的Qwen3-4B模型效果最优，总体F1值达0.857，实现对北洋政府文书的精准实体识别，验证了大模型在低资源历史文书处理中的实用性与可扩展性。

关键词

北洋政府文书资源; 大语言模型; 命名实体识别; 低资源场景; 检索增强生成; LoRA微调

CSSCI来源期刊

全国中文核心期刊

中国人文社会科学AMI核心期刊

复印报刊资料重要转载来源期刊

中国科技核心期刊

RCCSE中国核心学术期刊

中国国际影响力优秀学术期刊

国家哲学社会科学学术期刊数据库

(NSSD)收录期刊

国际数据库Scopus收录期刊

长按扫描二维码｜ 关注我们

现代情报官网：www.xdqb.net

E-mail：xdqb257@vip.163.com

电话：0431-85647990

欢迎投稿！

基于大语言模型的北洋政府文书资源命名实体识别研究