基于大语言模型的北洋政府文书资源命名实体识别研究

摘要
目的/意义
针对北洋政府文书资源因语言复杂性、多样性及标注数据缺乏导致的命名实体识别难题,本文提出一种适应低资源场景基于大语言模型的命名实体识别框架,为近代历史文献的结构化挖掘与知识重组提供方法支撑。
方法/过程
该框架融合检索增强生成与高效参数微调,利用Faiss向量检索构建上下文样例动态选取机制,通过LoRA策略对大语言模型进行领域知识注入。最后,在自建语料库上,系统评估深度学习基准模型与不同采样策略下的大语言模型性能。
结果/结论
结果表明,结合相似度样例选择与LoRA微调的Qwen3-4B模型效果最优,总体F1值达0.857,实现对北洋政府文书的精准实体识别,验证了大模型在低资源历史文书处理中的实用性与可扩展性。
关键词
北洋政府文书资源; 大语言模型; 命名实体识别; 低资源场景; 检索增强生成; LoRA微调


CSSCI来源期刊
全国中文核心期刊
中国人文社会科学AMI核心期刊
复印报刊资料重要转载来源期刊
中国科技核心期刊
RCCSE中国核心学术期刊
中国国际影响力优秀学术期刊
国家哲学社会科学学术期刊数据库
(NSSD)收录期刊
国际数据库Scopus收录期刊

长按扫描二维码 | 关注我们
现代情报官网:www.xdqb.net
E-mail:xdqb257@vip.163.com
电话:0431-85647990
欢迎投稿!
夜雨聆风