
肝硬化是美国第十二大死亡原因,每年造成超过100万人死亡,比许多其他慢性疾病具有更高的死亡风险。⚠️ 原文在同一句话中将"美国第十二大死因"与"每年超过100万死亡"并列表述,读者引用时建议核查最新CDC数据,批判性看待这一表述方式; 早期干预可延缓肝硬化失代偿,但患者往往对疾病管理和并发症预防知识严重不足; 患者健康素养低的问题在肝硬化群体中尤为突出,对教育材料的可读性要求更严格。
Flesch阅读易读性评分(Flesch Reading Ease):得分越高越易读,≥80对应六年级水平,≥60对应八年级水平。使用Microsoft Word内置可读性统计工具计算。 Flesch-Kincaid年级水平(Flesch-Kincaid Grade Level):目标值≤6(六年级),同样使用Microsoft Word计算。 SMOG年级水平(Simple Measure of Gobbledygook):目标值≤6,使用在线计算器计算(https://charactercalculator.com/smog-readability)。
14名患者/照护者:通过便利抽样,在内镜候诊室招募,无任何报酬,不收集个人标识信息;仅收集性别、年龄段、最高学历、英语水平等宏观人口学数据。 8名移植肝病学专家:负责可理解性、可操作性及医学准确性评估。
原始工具含17道可理解性题目和7道可操作性题目; 因本研究已删除视觉辅助内容,评估者统一删除第12-19题(视觉辅助相关),仅保留其余题目; 每题回答"同意"(1分)、"不同意"(0分)或"不适用"(不计入得分); ≥70%为达标(可理解/可操作),该阈值与既往文献一致。
1分:<25%准确 2分:26%-50%准确 3分:51%-75%准确 4分:76%-99%准确 5分:100%准确
两类评估者(肝病专家 vs 患者/照护者)的数据分别分析,不直接对比(因背景知识和评估角度不同); 连续数据以**中位数和四分位距(IQR)**描述; 用Friedman检验比较5种材料在可理解性和可操作性得分分布上的差异; 患者/照护者数据存在缺失(匿名收集,无法事后补录);为此额外进行敏感性分析——剔除有≥2题缺失的4名参与者,验证结果稳定性; 统计软件:SAS 9.4。
所有材料均未达到六年级目标(Flesch阅读易读性≥80),但全部达到了八年级标准(≥60); Flesch阅读易读性最高的是DocsGPT(72.6)和ChatGPT4(72.3),人工编写的Epic得分最低(60.2),阅读难度最大; Flesch-Kincaid年级方面,ChatGPT4(5.5)和DocsGPT(5.7)已达到或接近六年级目标,其余材料均在七年级以上; SMOG年级方面,所有材料均需高中及以上教育水平才能理解;ChatGPT4(9.4)表现最好,Google Bard(14.3)难度最高,对应约14年受教育年限(大学低年级水平)。这意味着对于健康素养普遍偏低的肝病患者群体,Google Bard生成的材料阅读难度最高,临床使用需谨慎。
5份材料均达到≥70%的可理解性阈值,即所有材料均被两组评估者认为可理解; 肝病专家的可理解性评分普遍低于患者/照护者(专业人员评判标准更严格); 患者/照护者评分最高的是Google Bard(100.0%),最低的是DocsGPT(90.0%)。
仅有人工编写的Epic材料同时被两组评估者认定为可操作——患者/照护者评分77.5%,肝病专家评分80.0%,均达到70%阈值; DocsGPT是唯一一份被两组评估者均认定为不可操作的材料——患者/照护者65.7%,肝病专家50.0%,均低于70%; 其余AI材料的可操作性在两组中表现不一致,未能达到"双组同时认可"的标准。
Google Bard最常被认为是人工撰写:患者/照护者70.0%,肝病专家66.7%认为它是人写的; DocsGPT最常被认为是AI生成:患者/照护者66.7%,肝病专家80.0%认为它是AI写的; 人工编写的Epic被肝病专家认为是AI生成的比例高达50%——即专家们有一半时间猜错了!
除DocsGPT(中位数3.5分,即51%-75%准确)外,其余4份材料(包括Epic人工版)的准确性评分均在4分以上(76%-99%准确); 5种材料之间准确性无显著差异。
多维度评估框架(客观+主观+准确性),覆盖患者和医学专家双视角; 统一提示词和标准化流程,保证各材料的可比性; 来源辨别设计,填补了既往研究的空白。
患者/照护者通过便利抽样招募,不具备全人群代表性; 提示词明确指定了六年级阅读水平,但真实用户不一定会加这一限定——即便加了,部分AI输出仍超出目标水平,说明当前AI在格式化输出上的精准度仍有提升空间; 评估者未被要求说明判断来源的理由,未来研究可增加定性访谈以深化理解; 当前聊天机器人无法生成视觉辅助内容,这是患者教育材料的重要组成部分,本研究中视觉辅助部分的评估项目被删除,影响了对整体可操作性的全面判断。
护理人员可将AI聊天机器人作为患者教育材料的"初稿生成工具",由专业人员在AI生成的模板基础上进行审核、校正和可操作性补充,既节省时间,又保障质量; 在给患者提供教育材料前,必须经由医疗专业人员进行医学准确性审核,不能让AI内容直接流向患者; 对于健康素养较低的肝病患者,可优先考虑ChatGPT4等可读性评分更高的材料作为参考模板。
【对护理科研小白的启示与可延伸选题】请关注本公众号,下次再聊。
想做项目申报,可加助教微信评估选题。


夜雨聆风