在医保基金监管日益强化的背景下,如何从海量审核数据中快速识别潜在的人为干预风险,成为医保管理部门与纪检监察部门共同关注的焦点。传统人工抽查效率低、覆盖面窄,而依赖大语言模型的智能分析又存在「幻觉」误判隐患。医保经办人可疑操作检测器应运而生,它不依赖黑盒模型,而是以统计过程控制(SPC)为核心,通过严谨的 p-chart 控制图与多维趋势分析,精准定位「通过率异常偏高」的经办人行为,输出可追溯、可核查、可归责的 Ledger 式审计清单。
项目完全开源,代码透明,逻辑可验证,适用于各级医保经办机构、医院医保办及纪检监察部门开展常态化数据风控工作。
项目概述:纯统计驱动的轻量级审计引擎
本项目是一个专注医保业务场景的命令行优先、Web 可选的开源工具,核心目标明确:- 不预测、不生成、不解释,只做客观统计判断;- 不引入外部模型或训练数据,杜绝 LLM 幻觉风险;- 输出结果严格遵循统计显著性原则,支持 Sigma 阈值灵活配置;- 所有分析均基于真实审核日志字段,与现有医保智能审核系统无缝衔接。
它不是通用数据分析平台,而是专为「可疑单据—经办人—通过行为」这一关键链路设计的垂直审计工具。所有功能围绕一个核心问题展开:某位经办人对已被系统标记为「可疑」的单据,其「点击通过」的操作频率是否显著偏离群体均值?
项目采用模块化结构,源码清晰分层,便于二次开发与本地化适配。默认提供完整示例数据(data/mock_handler_data.csv),开箱即用,无需额外配置。
技术亮点:用经典统计方法解决现实监管难题
基于 p-chart 的统计过程控制(SPC)
项目采用工业界广泛验证的 p-chart(不合格品率控制图) 作为核心算法。将每位经办人的「可疑单据通过率」视为一个二项分布样本,计算全局均值与标准差,动态生成上控制限(UCL)与下控制限(LCL)。当某经办人通过率超出 UCL(即高于均值 + σ×标准差),即被判定为统计学意义上的离群点。该方法天然适配医保审核中「通过/驳回」的二元决策特性,避免了复杂模型带来的不可解释性。
多维度聚合与趋势感知能力
除基础人员维度外,系统支持按 科室 与 月份 进行交叉聚合,既可发现个体异常,也能识别科室层面的系统性偏差。更关键的是,项目区分两类异常模式:- 全局静态异常(analyze 命令):识别长期高于同行的经办人;- 时间动态异常(monthly 命令):识别「近期突然升高」的趋势突变,这对轮岗、新政策执行等场景尤为重要。
Ledger 式可审计报告体系
输出非简单表格,而是结构化的「审计账本」(Ledger):- ledger.csv / ledger.json 提供每位经办人的 Z-score、p 值、离群程度等级及建议动作;- summary.json 汇总全局统计基线与离群分布;- monthly_ledger.* 支持月度环比追踪;- 所有字段命名直白,如「所属科室」「单据总数」「建议核查动作」,一线工作人员可直接理解,无需技术转译。
开箱即用的可视化支持
内置三类图表,全部自动生成并存入输出目录:- p_chart.png:标注 CL/UCL/LCL 与离群点的控制图,一图看懂统计边界;- histogram.png:通过率分布直方图,叠加全局均值线;- boxplot.png:箱线图展示离散程度与异常值位置。图表采用 matplotlib/seaborn 实现,风格简洁专业,可直接用于内部汇报材料。
应用场景:覆盖医保监管四大典型工作流
医保办定期审查
可用于每月初对上月可疑单据审核结果开展例行审计。只需导出 CSV 数据,运行一条命令即可生成风险清单。重点关注「离群程度」为「中度」或「重度」的经办人,结合其「可疑单据类型分布」(如超量用药、禁忌症用药占比),定向开展人工复核。
python run.py analyze \ --data-file data/2026-03_suspicious_cases.csv \ --output-dir output/2026-03-audit/ \ --sigma 3 \ --visualize经办人轮岗核查
适合在人员岗位调整后,对比其在原岗位与新岗位的审核行为变化。通过 monthly 子命令分别分析前后时段数据,识别是否存在「通过率突增」现象,辅助判断是业务适应期波动,还是主观审核标准松动。
python run.py monthly \ --data-file data/pre_transfer_3m.csv \ --output-dir output/pre_transfer/ \ --sigma 2纪检监察专项抽查
当收到线索或开展随机抽查时,可先通过全量分析锁定高风险目标,再使用 export 命令导出特定经办人的全部审核记录详情,包括单据类型、时间分布、科室归属等上下文信息,为制定问询提纲与证据固定提供结构化支撑。
python run.py export \ --data-file data/all_cases.csv \ --output-dir output/investigation/ \ --handler H003跨科室横向对比分析
当发现某科室多名经办人同时出现异常时,可通过 summary.json 中的科室聚合数据,判断是个人行为还是科室管理问题。例如呼吸科整体通过率远高于全局均值,提示需对该科室开展制度宣贯或审核标准校准。
使用指南:CLI 与 Web 两种方式,零门槛上手
快速安装
项目仅需 Python 3.10+ 环境,依赖精简:
git clone https://github.com/nexorin9/med-handler-audit.gitcd med-handler-auditpip install -r requirements.txt核心 CLI 命令
- 全量分析
: python run.py analyze, 识别静态离群者; - 月度趋势
: python run.py monthly, 发现动态突变点; - 结果导出
: python run.py export, 提取指定人员明细; - 帮助查看
: python run.py --help或python run.py analyze --help。
所有命令均支持 --sigma 自定义敏感度,默认 3.0(对应约 99.7% 置信区间),可根据实际监管要求调整为 2.0(日常监控)或 1.0(高敏筛查)。
Web 界面体验
启动服务后访问 http://127.0.0.1:5000,即可通过图形界面完成上传、参数设置与结果查看。Web 同时提供标准化 API 接口,支持与其他系统集成:
curl -X POST -F "file=@data/mock_handler_data.csv" -F "sigma=3" http://127.0.0.1:5000/api/analyze数据准备要点
输入 CSV 必须包含六项字段:case_id、audit_timestamp、handler_id、review_result、case_type、department、month。字段名与格式需严格匹配,时间戳推荐使用 YYYY-MM-DD HH:MM:SS 格式,review_result 值应为「通过」或「驳回」中文字符串。
总结:让医保监管回归数据本源与统计理性
医保基金安全事关群众切身利益,监管手段必须兼具权威性、可验证性与可操作性。本项目摒弃过度依赖黑盒模型的技术路径,回归统计学基本原理,用 p-chart 这一经过工业界长期验证的方法论,构建起一道坚实的数据防线。它不替代人工判断,而是将人力从大海捞针式的原始数据翻查中解放出来,聚焦于真正值得深挖的高风险线索。
工具本身轻量、透明、可控,既可作为独立审计终端部署于医保办内网,也可嵌入现有医保信息系统作为增强模块。所有分析逻辑公开可见,每一份 Ledger 报告都附带完整的统计依据(Z-score、p 值、控制限),确保每一次核查都有据可依、有迹可循。
项目当前免费开源,若您对项目有疑问、使用上的困惑或想深入交流,欢迎私信我们,或加入社群讨论。
项目地址:https://github.com/nexorin9/med-handler-audit
夜雨聆风