
电子病历(Electronic Medical Records, EMR)是患者医疗过程中最完整的信息载体,是医院信息化、数智化的核心;高质量的病历是患者诊疗过程规范化的体现,是患者安全的保障,是出现医疗纠纷时的重要裁定凭证,也是医院教学、科研的素材来源,未来更有成为医疗保险支付依据的趋势。国家卫生健康委和国家中医药管理局联合发布的《全面提升医疗质量行动计划(2023—2025年)》中要求,加强病历质量管理,并以提升病历内涵质量和完整性、及时性为核心任务,凸显了病历质控在当前医疗体系中的重要性。
1
研究现状
(1)电子病历质控技术发展趋势
电子病历质量控制(以下简称质控)技术的演进围绕“效率提升”与“质量深化”展开。传统人工抽查电子病历的质控手段效率偏低,难以实现病历的全面质控,容易出现遗漏。而基于自然语言处理(Neuro-Linguistic Programming, NLP)的半自动化质控系统,多通过关键词匹配实现部分逻辑校验,仅能实现形式层面的质控任务,因电子病历数据具有非结构化、专业性强及语义复杂等特征,导致该类系统在语义理解、上下文一致性判断中表现乏力,尤其在主诉内容与主要诊断一致性校验、治疗方案的合理性评估等病历内涵质控环节中表现欠佳,难以满足持续增长的质控需求。近年来,大语言模型(Large Language Models, LLMs)凭借强大的自然语言理解与生成能力,为电子病历质控提供了新的技术途径。
(2)RAG技术在医疗领域应用
增强生成(Retrieval-Augmented Generation,RAG)技术和大语言模型相结合,能够有效提高大模型在医学专业领域的知识准确性与回答可靠性,已成为医院LLM应用主流方法,在病历结构化提取、临床决策支持等场景初步落地。RAG技术核心优势在于知识库可灵活更新,仅需调整局部文档块,无需重训模型即可完成质控规则更新,能够较好应对病历质控规则的不断迭代。当前研究多聚焦整体框架搭建,对关键预处理步骤——文档分块技术的针对性研究不足,缺乏结合电子病历质控知识文本特性的分块策略对比分析,尚未明确分块方法与质控性能的量化关联。
(3)文档分块技术研究
文档分块(Chunking)技术是RAG技术体系中的关键预处理步骤,当前主流的RAG分块方法包括固定大小分块、结构分块、递归分块和语义分块等,不同分块方法的技术原理与实际应用效果存在显著差异。选用适配的分块方法可提升信息检索精准度,有效降低模型幻觉的风险;而不合理的分块策略可能会造成信息碎片化,影响输出结果的准确性。现有相关研究多聚焦于通用文本场景的分块策略探索,针对电子病历的专业文本特性开展的分块技术专项适配分析仍较为欠缺。
2
研究内容与方法
本研究旨在系统评估不同RAG分块方法在电子病历质控任务中的性能差异,确定相对最优分块策略。研究通过“数据集构建-对照标准确立-实验平台搭建-知识库构建-质控流程执行-多维度指标评估”的完整技术路径,构建“对照组-实验组”双向验证体系。对照组以医学专家质控结果为金标准,通过多维度指标完成性能评估;实验组基于4种分块方法搭建RAG质控平台,在本地构建标准化病历质控知识库,开展批量病历质控实验并记录分析结果。
3
结果
(1)病历等级判定一致性结果
对照组质控结果显示,1500份病历中除了8份被划分为乙级病历,其余1492份均为甲级病历,未检出丙级病历;实验组中,大模型结合4种分块方法均能精准识别出8份乙级缺陷病历,与对照组的病历等级判定结果完全一致,均满足等级判定一致性要求。
(2)缺陷扣分项识别的细粒度性能及综合得分
以专家金标准117项扣分项为参照,4种分块方法对1500份病历共29700项扣分指标的识别结果存在显著差异。语义分块的识别效果最优,其正确识别的缺陷扣分项(TP = 106)最多、漏判(FN = 11)和误判(FP = 15)数量最少;递归分块与结构分块次之;固定大小分块的识别效果最差。对上述识别结果开展细粒度质控效果统计分析与综合性能指标计算,使用固定大小方法时,大模型平均单份病历质控耗时最短(42 s),但质控结果精确率、召回率、F1值较低;结构分块方法与递归分块方法的精确率均高于固定大小分块,但质控消耗的时间也相应增多;语义分块的质控耗时最长(62 s),然而其精确率、召回率和F1值最高,分别为87.6%、90.6%和89.1%。经F1值与质控耗时的加权计算,语义分块综合得分最高,为0.802。
(3)分块方法质控指标与分块特性的关联结果
4种分块方法在质控核心指标及分块特性上呈现明显区别。质控耗时上,固定大小分块最短,语义分块最长;质控准确性上,语义分块表现最佳,固定大小分块最差,递归分块与结构分块处于中等水平。
分块特性方面,固定大小分块的分块大小与数量均为固定,语义完整性较低;结构分块的分块大小差异较大,数量较少,在结构标准的文档中语义完整性较高;递归分块的分块大小在阈值区间内波动,数量较多,在以文字为主的长文档中语义完整性较好;语义分块的分块大小差异最大,且分块语义完整性为4种方法中最高。
4
小结
本研究以某三甲医院1500份住院病历文件,搭建基于DeepSeek-R1-32B推理模型、Qwen3-Embedding-4B嵌入模型、Qwen3-Rerank-4B重排模型的RAG质控平台,并以国家电子病历书写规范、临床诊疗指南等为核心搭建知识库,通过与医学专家质控结果的系统性对照分析,深入探究了4种主流RAG分块方法对病历质控效果的影响机制。实验结果表明,语义分块策略下大语言模型质控的结果精确率、召回率、F1值均优于其他3种分块方法,其精确率达87.6%、召回率达90.6%、F1值达89.1%。尽管语义分块的平均单份病历质控耗时为62 s,在4种方法中最长,但经F1值与质控耗时的加权计算进一步验证,语义分块以0.802的综合得分高于其他分块方法,其在质控精准性与效率之间实现了良好平衡,具备较强的临床适配性。可应用于病历书写实时提醒、提交事后筛查、归档批量初筛等环节,为提升电子病历质控的智能化水平与实际应用效能提供了切实可行的技术路径,助力推动电子病历质控工作向更精准、高效、全面的方向发展。
内容来源
作者单位
中国人民解放军南部战区总医院信息中心
通信作者
赵霞
END
往期推荐




期待您的
点赞
分享
推荐
夜雨聆风