[医疗软件开源] 医保经办人可疑操作检测器:一款面向医疗健康领域的开源统计审计工具

在医保基金监管日益强化的背景下，如何从海量审核数据中快速识别潜在的人为干预风险，成为医保管理部门与纪检监察部门共同关注的焦点。传统人工抽查效率低、覆盖面窄，而依赖大语言模型的智能分析又存在「幻觉」误判隐患。医保经办人可疑操作检测器应运而生，它不依赖黑盒模型，而是以统计过程控制（SPC）为核心，通过严谨的 p-chart 控制图与多维趋势分析，精准定位「通过率异常偏高」的经办人行为，输出可追溯、可核查、可归责的 Ledger 式审计清单。

项目完全开源，代码透明，逻辑可验证，适用于各级医保经办机构、医院医保办及纪检监察部门开展常态化数据风控工作。

项目概述：纯统计驱动的轻量级审计引擎

本项目是一个专注医保业务场景的命令行优先、Web 可选的开源工具，核心目标明确：- 不预测、不生成、不解释，只做客观统计判断；- 不引入外部模型或训练数据，杜绝 LLM 幻觉风险；- 输出结果严格遵循统计显著性原则，支持 Sigma 阈值灵活配置；- 所有分析均基于真实审核日志字段，与现有医保智能审核系统无缝衔接。

它不是通用数据分析平台，而是专为「可疑单据—经办人—通过行为」这一关键链路设计的垂直审计工具。所有功能围绕一个核心问题展开：某位经办人对已被系统标记为「可疑」的单据，其「点击通过」的操作频率是否显著偏离群体均值？

项目采用模块化结构，源码清晰分层，便于二次开发与本地化适配。默认提供完整示例数据（data/mock_handler_data.csv），开箱即用，无需额外配置。

技术亮点：用经典统计方法解决现实监管难题

基于 p-chart 的统计过程控制（SPC）

项目采用工业界广泛验证的 p-chart（不合格品率控制图） 作为核心算法。将每位经办人的「可疑单据通过率」视为一个二项分布样本，计算全局均值与标准差，动态生成上控制限（UCL）与下控制限（LCL）。当某经办人通过率超出 UCL（即高于均值 + σ×标准差），即被判定为统计学意义上的离群点。该方法天然适配医保审核中「通过/驳回」的二元决策特性，避免了复杂模型带来的不可解释性。

多维度聚合与趋势感知能力

除基础人员维度外，系统支持按科室与月份进行交叉聚合，既可发现个体异常，也能识别科室层面的系统性偏差。更关键的是，项目区分两类异常模式：- 全局静态异常（analyze 命令）：识别长期高于同行的经办人；- 时间动态异常（monthly 命令）：识别「近期突然升高」的趋势突变，这对轮岗、新政策执行等场景尤为重要。

Ledger 式可审计报告体系

输出非简单表格，而是结构化的「审计账本」（Ledger）：- ledger.csv / ledger.json 提供每位经办人的 Z-score、p 值、离群程度等级及建议动作；- summary.json 汇总全局统计基线与离群分布；- monthly_ledger.* 支持月度环比追踪；- 所有字段命名直白，如「所属科室」「单据总数」「建议核查动作」，一线工作人员可直接理解，无需技术转译。

开箱即用的可视化支持

内置三类图表，全部自动生成并存入输出目录：- p_chart.png：标注 CL/UCL/LCL 与离群点的控制图，一图看懂统计边界；- histogram.png：通过率分布直方图，叠加全局均值线；- boxplot.png：箱线图展示离散程度与异常值位置。图表采用 matplotlib/seaborn 实现，风格简洁专业，可直接用于内部汇报材料。

应用场景：覆盖医保监管四大典型工作流

医保办定期审查

可用于每月初对上月可疑单据审核结果开展例行审计。只需导出 CSV 数据，运行一条命令即可生成风险清单。重点关注「离群程度」为「中度」或「重度」的经办人，结合其「可疑单据类型分布」（如超量用药、禁忌症用药占比），定向开展人工复核。

python run.py analyze \  --data-file data/2026-03_suspicious_cases.csv \  --output-dir output/2026-03-audit/ \  --sigma 3 \  --visualize

经办人轮岗核查

适合在人员岗位调整后，对比其在原岗位与新岗位的审核行为变化。通过 monthly 子命令分别分析前后时段数据，识别是否存在「通过率突增」现象，辅助判断是业务适应期波动，还是主观审核标准松动。

python run.py monthly \  --data-file data/pre_transfer_3m.csv \  --output-dir output/pre_transfer/ \  --sigma 2

纪检监察专项抽查

当收到线索或开展随机抽查时，可先通过全量分析锁定高风险目标，再使用 export 命令导出特定经办人的全部审核记录详情，包括单据类型、时间分布、科室归属等上下文信息，为制定问询提纲与证据固定提供结构化支撑。

python run.py export \  --data-file data/all_cases.csv \  --output-dir output/investigation/ \  --handler H003

跨科室横向对比分析

当发现某科室多名经办人同时出现异常时，可通过 summary.json 中的科室聚合数据，判断是个人行为还是科室管理问题。例如呼吸科整体通过率远高于全局均值，提示需对该科室开展制度宣贯或审核标准校准。

使用指南：CLI 与 Web 两种方式，零门槛上手

快速安装

项目仅需 Python 3.10+ 环境，依赖精简：

git clone https://github.com/nexorin9/med-handler-audit.gitcd med-handler-auditpip install -r requirements.txt

核心 CLI 命令

全量分析
：python run.py analyze ，识别静态离群者；
月度趋势
：python run.py monthly ，发现动态突变点；
结果导出
：python run.py export ，提取指定人员明细；
帮助查看
：python run.py --help 或 python run.py analyze --help。

所有命令均支持 --sigma 自定义敏感度，默认 3.0（对应约 99.7% 置信区间），可根据实际监管要求调整为 2.0（日常监控）或 1.0（高敏筛查）。

Web 界面体验

启动服务后访问 http://127.0.0.1:5000，即可通过图形界面完成上传、参数设置与结果查看。Web 同时提供标准化 API 接口，支持与其他系统集成：

curl -X POST -F "file=@data/mock_handler_data.csv" -F "sigma=3" http://127.0.0.1:5000/api/analyze

数据准备要点

输入 CSV 必须包含六项字段：case_id、audit_timestamp、handler_id、review_result、case_type、department、month。字段名与格式需严格匹配，时间戳推荐使用 YYYY-MM-DD HH:MM:SS 格式，review_result 值应为「通过」或「驳回」中文字符串。

总结：让医保监管回归数据本源与统计理性

医保基金安全事关群众切身利益，监管手段必须兼具权威性、可验证性与可操作性。本项目摒弃过度依赖黑盒模型的技术路径，回归统计学基本原理，用 p-chart 这一经过工业界长期验证的方法论，构建起一道坚实的数据防线。它不替代人工判断，而是将人力从大海捞针式的原始数据翻查中解放出来，聚焦于真正值得深挖的高风险线索。

工具本身轻量、透明、可控，既可作为独立审计终端部署于医保办内网，也可嵌入现有医保信息系统作为增强模块。所有分析逻辑公开可见，每一份 Ledger 报告都附带完整的统计依据（Z-score、p 值、控制限），确保每一次核查都有据可依、有迹可循。

项目当前免费开源，若您对项目有疑问、使用上的困惑或想深入交流，欢迎私信我们，或加入社群讨论。

项目地址：https://github.com/nexorin9/med-handler-audit