在医院日常运营中,患者投诉是服务质量的重要反馈渠道。但现实情况是,患者往往不会直接说出真正的不满。一句「等了两个小时才看上病」,表面指向候诊时间长,深层可能反映尊严感缺失;一句「医生说得太快根本听不懂」,表层是沟通问题,背后常隐藏信息不对称与知情权未被充分保障。传统关键词匹配或情感极性分析难以捕捉这类隐含诉求。而一款名为「投诉深层意图提取器」的开源工具,正试图用大语言模型(LLM)填补这一分析空白,它不满足于识别“说了什么”,更聚焦于“真正想表达什么”。
项目概述:从文本到洞察的语义跃迁
「投诉深层意图提取器」是一个面向医疗服务质量改进的命令行工具,专为处理结构化或非结构化的患者投诉文本设计。其核心目标是通过大语言模型对原始投诉内容进行深度语义解析,识别出六类具有管理价值的深层意图类别,并生成可读性强、具备行动指引意义的 HTML 分析报告。
该项目并非通用情感分析工具,而是深度适配医疗场景的垂直应用。所有分析逻辑均围绕临床服务链条中的典型痛点构建,包括医患沟通、流程设计、资源调度、信息传达等维度。整个项目完全开源,采用 MIT 许可证,代码组织清晰,模块职责明确,支持本地快速部署与离线体验。
技术亮点:轻量、可靠、可解释
本项目在技术实现上兼顾实用性与工程严谨性,体现出几个关键设计选择:
6 类预设深层意图体系所有分析均基于人工梳理并验证的六类高价值意图:过度医疗感、尊严感缺失、信息不对称、等待焦虑、流程缺陷、期望落差。这些类别不是黑盒输出,而是可配置、可扩展的分类体系,定义位于
config/目录下,便于医疗机构根据自身管理重点微调。可视化 HTML 报告自动生成每次运行后,工具会输出一份完整的静态 HTML 报告,包含意图分布饼图、高风险投诉排序列表、按科室划分的投诉热力图、以及随时间变化的趋势折线图。所有图表均使用纯前端渲染,无需额外服务依赖,开箱即用。
断点续传与批量处理能力面对成百上千条投诉数据时,分析过程可能耗时较长。项目支持
--resume参数,在意外中断(如手动 Ctrl+C)后,能自动跳过已处理样本,继续后续分析,大幅提升大规模数据处理的鲁棒性。DRY_RUN 模式免密体验即使没有 OpenAI API Key,用户也能通过
--dry-run参数完整走通全流程:从输入解析、模拟意图打标,到 HTML 报告生成。该模式默认启用gpt-4o-mini模型配置与temperature=0.3,确保模拟结果具备合理一致性,降低试用门槛。模块化架构与清晰分层项目采用标准 Python 工程结构,
src/下各模块职责分明:analyzer.py封装核心分析逻辑,llm_client.py统一管理模型调用,report_generator.py负责模板填充与渲染。这种解耦设计不仅利于维护,也为后续接入其他国产大模型(如 Qwen、GLM、DeepSeek)预留了接口空间。
应用场景:服务于质控闭环的实用工具
本工具并非停留在技术演示层面,而是紧密贴合国内医院质量管理体系的实际工作流。它可用于以下典型场景:
医院投诉管理中心日常归集全院投诉后,批量导入 CSV 文件,一键生成月度/季度分析简报,快速定位高频问题类型与责任科室。
质控科与医务科结合《医疗质量管理办法》中关于“以患者为中心”的要求,将深层意图分析结果纳入 PDCA 循环,支撑根因分析与整改计划制定。
护理部与院感科针对护理服务、感染防控等专项领域,可筛选特定科室或时段数据,识别如「信息不对称」在健康宣教环节的集中表现,优化标准化话术库。
医院管理层决策支持基于长期趋势图与科室横向对比,识别系统性短板,例如某门诊长期存在高比例「流程缺陷」,提示需重新评估挂号—分诊—候诊动线设计。
需要强调的是,本工具输出的是分析线索而非最终结论。所有深层意图判断均附带置信度评分,高风险项会明确标注原文与推理依据,便于人工复核与上下文校验,避免 LLM “一本正经胡说八道”。
使用指南:三步完成本地部署与分析
项目对运行环境要求极低,仅需 Python 3.9+ 与基础依赖即可启动。以下是完整操作路径:
pip install -r requirements.txtcp .env.example .env编辑 .env 文件,填入您的 OPENAI_API_KEY。若暂无密钥,可跳过此步,直接进入 DRY_RUN 模式体验。
python main.py --input data/sample_complaints.csv --output ./output --dry-run该命令将读取示例 CSV 数据,生成包含全部图表与分析模块的 HTML 报告,存于 ./output/report.html。确认流程无误后,移除 --dry-run 参数并配置 API Key,即可开始真实分析。
python main.py --input data/complaints_2024_q1.csv --output ./q1_report --resume若首次运行中途退出,再次执行时添加 --resume 参数,程序将自动读取上次保存的进度文件,从断点处继续处理。
输入数据支持两种格式:CSV(推荐,含 id、text、timestamp、department 四列)与 TXT(每行一条纯文本投诉)。输出目录中除 HTML 报告外,还包含结构化 JSON 结果文件,便于二次加工或对接医院现有 BI 系统。
总结:让每一条投诉都成为改进支点
在医疗服务持续提质增效的背景下,如何从海量非结构化反馈中提炼真问题、发现真需求,已成为医院精细化管理的关键课题。投诉深层意图提取器不做泛泛而谈的情绪打分,而是锚定六类可干预、可归因、可追踪的深层诉求,把“患者没说透的话”转化为“管理者看得懂的图”。它不替代人工研判,但显著提升了问题发现的效率与颗粒度;它不承诺自动解决问题,却为后续整改提供了扎实的数据支点。
项目当前免费开源,若您对项目有疑问、使用上的困惑或想深入交流,欢迎私信我们,或加入社群讨论。
项目地址:
https://github.com/nexorin9/complaint-latent-intent-extractor
夜雨聆风