【AI赋能护理科研】AI生成 vs 人工撰写:肝硬化患者健康教育材料的质量对比研究解读

图片基于文献，由 gpt image 2.0 生成

原文信息：Pradhan F, Fiedler A, Samson K, et al. Artificial intelligence compared with human-derived patient educational materials on cirrhosis. Hepatology Communications. 2024;8:e0367.

一、研究背景

1.1 患者健康教育材料的重要性与现实困境

患者健康教育材料（Patient Educational Materials, PEMs）是临床护理的重要工具——一份好的健康教育材料，能帮助患者理解疾病、掌握自我管理技能，从而延缓疾病进展、改善生活质量。

然而，现实中患者教育材料的质量参差不齐，面临两大核心痛点：

痛点一：可读性不达标。美国医学会（AMA）和美国国立卫生研究院（NIH）明确建议，患者教育材料的阅读难度应不超过六年级水平——因为美国普通成年人的实际阅读水平约为八年级，而在肝病这类慢性病患者中，健康素养普遍偏低，对材料可读性的要求更高。但现有的人工编写材料往往难以达到这一标准。

痛点二：编写耗时耗力。高质量的患者教育材料需要医疗专业人员投入大量时间，而临床护士和医生本就工作繁重，这成为制约材料质量和更新频率的重要瓶颈。

1.2 AI大语言模型的崛起与医疗应用前景

2022年11月，ChatGPT横空出世，上线仅64天便突破1亿用户，成为史上增长最快的应用程序之一。以ChatGPT为代表的大语言模型（Large Language Model, LLM）聊天机器人，能够以近似人类对话的方式生成流畅、连贯的文本，已在多个语言中展现出出色的交互能力。

目前，ChatGPT已被集成到美国市场占有率近三分之一的Epic电子健康记录系统中，标志着AI工具正式进入临床应用场景。这一背景下，一个关键问题浮出水面：AI聊天机器人能否生成高质量的患者教育材料？它生成的内容与人工编写的材料相比，质量如何？

1.3 以肝硬化为切入点：为什么选这个病？

本研究选择肝硬化作为研究切入点，有其充分的理由：

肝硬化是美国第十二大死亡原因，每年造成超过100万人死亡，比许多其他慢性疾病具有更高的死亡风险。⚠️ 原文在同一句话中将"美国第十二大死因"与"每年超过100万死亡"并列表述，读者引用时建议核查最新CDC数据，批判性看待这一表述方式；
早期干预可延缓肝硬化失代偿，但患者往往对疾病管理和并发症预防知识严重不足；
患者健康素养低的问题在肝硬化群体中尤为突出，对教育材料的可读性要求更严格。

1.4 研究空白与本研究目的

尽管AI在医疗领域的应用呼声日益高涨，但此前缺乏针对AI生成肝硬化患者教育材料质量的系统评估。因此，本研究旨在从可读性、年级水平、可理解性、可操作性和医学准确性五个维度，将4种主流AI聊天机器人（ChatGPT、DocsGPT、Google Bard、Bing Chat）生成的教育材料与Epic电子病历系统中的人工编写材料进行全面对比，为临床护理实践中是否、如何引入AI辅助患者教育提供循证依据。

二、研究方法

2.1 研究设计

本研究采用描述性比较研究设计（descriptive comparative study），属于质量改进项目，因此获得机构审查委员会（IRB）豁免审查。

⚠️ 特别说明：IRB豁免不代表研究无需经过任何伦理审查流程——研究者仍需向伦理委员会提交申请并获得正式的豁免确认。国内开展类似质量改进研究，也需向医院伦理委员会申请豁免，不能直接绕过。

2.2 研究对象与材料来源

所有材料统一在2023年4月9日获取，以确保时间一致性。共纳入5份教育材料：

材料来源	类型
Epic电子病历系统可打印模板	人工编写（Human-derived）
ChatGPT（ChatGPT4）	AI生成
DocsGPT	AI生成
Google Bard	AI生成
Bing Chat	AI生成

AI生成使用统一提示词：

"请撰写一份一页纸的患者教育材料，向读者介绍肝硬化的诊断及其并发症，假设读者具有六年级的阅读水平。"

统一提示词的设计原则参照AMA对患者教育材料阅读水平的推荐（六年级水平）。为消除材料之间的格式差异对评估的干扰，研究者对材料做了最小限度的标准化处理——仅统一字体和颜色、删除图表，不修改任何文字内容。

2.3 评估维度与工具

本研究从客观指标和主观评估两个层面对材料质量进行全面评估：

① 客观指标：可读性与年级水平（3个工具）

Flesch阅读易读性评分（Flesch Reading Ease）：得分越高越易读，≥80对应六年级水平，≥60对应八年级水平。使用Microsoft Word内置可读性统计工具计算。
Flesch-Kincaid年级水平（Flesch-Kincaid Grade Level）：目标值≤6（六年级），同样使用Microsoft Word计算。
SMOG年级水平（Simple Measure of Gobbledygook）：目标值≤6，使用在线计算器计算（https://charactercalculator.com/smog-readability）。

② 主观评估：可理解性与可操作性（PEMAT-P工具）

共22名评估者参与，分为两组：

14名患者/照护者：通过便利抽样，在内镜候诊室招募，无任何报酬，不收集个人标识信息；仅收集性别、年龄段、最高学历、英语水平等宏观人口学数据。
8名移植肝病学专家：负责可理解性、可操作性及医学准确性评估。

使用**PEMAT-P（Patient Education Materials Assessment Tool for Printable Materials）**评估：

原始工具含17道可理解性题目和7道可操作性题目；
因本研究已删除视觉辅助内容，评估者统一删除第12-19题（视觉辅助相关），仅保留其余题目；
每题回答"同意"（1分）、"不同意"（0分）或"不适用"（不计入得分）；
≥70%为达标（可理解/可操作），该阈值与既往文献一致。

③ 来源辨别：所有评估者须判断每份材料是人工撰写还是AI生成（可选"不确定"，不确定者计入分析时排除）。评估者事先不知晓5份材料中人工与AI材料的具体比例。

④ 医学准确性：仅由8名移植肝病学专家评分，使用改编自Dy等和Storino等的5分制评分系统：

1分：＜25%准确
2分：26%-50%准确
3分：51%-75%准确
4分：76%-99%准确
5分：100%准确

2.4 统计分析

两类评估者（肝病专家 vs 患者/照护者）的数据分别分析，不直接对比（因背景知识和评估角度不同）；
连续数据以**中位数和四分位距（IQR）**描述；
用Friedman检验比较5种材料在可理解性和可操作性得分分布上的差异；
患者/照护者数据存在缺失（匿名收集，无法事后补录）；为此额外进行敏感性分析——剔除有≥2题缺失的4名参与者，验证结果稳定性；
统计软件：SAS 9.4。

三、研究结果

3.1 客观可读性与年级水平

客观评分结果汇总如下（表1）：

评分工具	Epic（人工）	Bing Chat	ChatGPT4	DocsGPT	Google Bard
Flesch阅读易读性	60.2	63.7	72.3	72.6	63.5
Flesch-Kincaid年级	7.4	7.9	5.5	5.7	7.5
SMOG年级	11.6	12.3	9.4	12.1	14.3

核心发现：

所有材料均未达到六年级目标（Flesch阅读易读性≥80），但全部达到了八年级标准（≥60）；
Flesch阅读易读性最高的是DocsGPT（72.6）和ChatGPT4（72.3），人工编写的Epic得分最低（60.2），阅读难度最大；
Flesch-Kincaid年级方面，ChatGPT4（5.5）和DocsGPT（5.7）已达到或接近六年级目标，其余材料均在七年级以上；
SMOG年级方面，所有材料均需高中及以上教育水平才能理解；ChatGPT4（9.4）表现最好，Google Bard（14.3）难度最高，对应约14年受教育年限（大学低年级水平）。这意味着对于健康素养普遍偏低的肝病患者群体，Google Bard生成的材料阅读难度最高，临床使用需谨慎。

⚠️ 注意：不同评分工具对"谁表现最好"的判断并不完全一致——Flesch阅读易读性和F-K年级均显示ChatGPT4最接近目标，而SMOG的结果在各材料间差异更大。解读时需逐一说明，不能笼统说"某材料在所有可读性指标上都最好"。

3.2 可理解性与可操作性（主观评估）

患者/照护者基本信息（12名提供人口学信息）：92.9%为女性；年龄18-24岁占8.3%，25-34岁占25%，35-44岁占16.7%，45-54岁占41.7%，≥55岁占8.3%；高中学历占41.7%，大专/本科占50%，硕士及以上占8.3%；英语水平平均4.5/5分。

Friedman检验结果：两组评估者的可理解性和可操作性得分，在5种材料之间均无显著差异（p>0.05）。

可理解性：

5份材料均达到≥70%的可理解性阈值，即所有材料均被两组评估者认为可理解；
肝病专家的可理解性评分普遍低于患者/照护者（专业人员评判标准更严格）；
患者/照护者评分最高的是Google Bard（100.0%），最低的是DocsGPT（90.0%）。

可操作性：

仅有人工编写的Epic材料同时被两组评估者认定为可操作——患者/照护者评分77.5%，肝病专家评分80.0%，均达到70%阈值；
DocsGPT是唯一一份被两组评估者均认定为不可操作的材料——患者/照护者65.7%，肝病专家50.0%，均低于70%；
其余AI材料的可操作性在两组中表现不一致，未能达到"双组同时认可"的标准。

💡 关键发现：所有材料在可理解性上差距不大，但可操作性是最明显的短板——读懂一份材料和知道"我该怎么做"，是两件截然不同的事。

3.3 来源辨别：评估者能否分清人工与AI？

参与来源判断部分的20名评估者中，有7名（35%）至少对一种材料选择了"不确定"——这本身就说明区分难度之大。

具体来看：

Google Bard最常被认为是人工撰写：患者/照护者70.0%，肝病专家66.7%认为它是人写的；
DocsGPT最常被认为是AI生成：患者/照护者66.7%，肝病专家80.0%认为它是AI写的；
人工编写的Epic被肝病专家认为是AI生成的比例高达50%——即专家们有一半时间猜错了！

总体结论：评估者无法准确区分哪些材料是人工撰写、哪些是AI生成。

3.4 医学准确性（仅肝病专家评估）

除DocsGPT（中位数3.5分，即51%-75%准确）外，其余4份材料（包括Epic人工版）的准确性评分均在4分以上（76%-99%准确）；
5种材料之间准确性无显著差异。

四、讨论

4.1 主要发现及其意义

本研究的核心发现可以用一句话概括：AI聊天机器人生成的肝硬化患者教育材料，在可读性、可理解性和医学准确性上与人工编写材料整体相当，有时甚至更优，但可操作性整体偏弱。

这一发现为临床护理中引入AI辅助患者教育提供了初步的循证支持，提示AI生成内容在特定应用场景下（肝硬化患者教育材料）具备与人工编写材料相当的质量水平。在Flesch-Kincaid年级水平这一指标上，ChatGPT4（5.5）和DocsGPT（5.7）已达到或接近六年级目标，而人工编写的Epic材料为7.4年级，差距明显；但需注意，5种材料在主观可理解性和可操作性评分上统计上无显著差异（Friedman检验p>0.05）。这对于医护人员的实践具有重要启示：AI可以成为批量生成、快速更新患者教育材料模板的有力工具。

4.2 可操作性：所有材料共同的短板

可操作性（Actionability）——让患者看完材料后知道"我该做什么"——在本研究中整体偏低，是所有材料（无论人工还是AI）共同面对的挑战。只有Epic人工版同时被两组评估者认为可操作，AI材料在这一维度普遍不足。

这一发现提示：未来优化患者教育材料，无论使用AI还是人工编写，都应将提升可操作性作为重点方向——即材料不能只解释"是什么"，更要告诉患者"怎么做"。

4.3 评估者无法区分人工与AI：双刃剑的两面

评估者（包括专业的移植肝病学家）无法可靠区分材料来源，这一发现值得深思：

一方面，这说明AI生成内容在文风和专业性上已足够接近人工水平，患者教育应用场景中的"以假乱真"已成现实；另一方面，这也意味着AI生成的不准确内容（如DocsGPT的3.5分准确性）同样难以被识别——正因为读者无从分辨，AI内容的质量把关责任就更应落在医疗专业人员身上。

4.4 研究优势与局限性

研究优势：

多维度评估框架（客观+主观+准确性），覆盖患者和医学专家双视角；
统一提示词和标准化流程，保证各材料的可比性；
来源辨别设计，填补了既往研究的空白。

研究局限性：

患者/照护者通过便利抽样招募，不具备全人群代表性；
提示词明确指定了六年级阅读水平，但真实用户不一定会加这一限定——即便加了，部分AI输出仍超出目标水平，说明当前AI在格式化输出上的精准度仍有提升空间；
评估者未被要求说明判断来源的理由，未来研究可增加定性访谈以深化理解；
当前聊天机器人无法生成视觉辅助内容，这是患者教育材料的重要组成部分，本研究中视觉辅助部分的评估项目被删除，影响了对整体可操作性的全面判断。

4.5 对护理实践的直接启示

护理人员可将AI聊天机器人作为患者教育材料的"初稿生成工具"，由专业人员在AI生成的模板基础上进行审核、校正和可操作性补充，既节省时间，又保障质量；
在给患者提供教育材料前，必须经由医疗专业人员进行医学准确性审核，不能让AI内容直接流向患者；
对于健康素养较低的肝病患者，可优先考虑ChatGPT4等可读性评分更高的材料作为参考模板。

五、结论

本研究通过多维度比较，系统评估了AI聊天机器人与人工编写的肝硬化患者教育材料的质量差异。研究表明，AI生成材料在可读性、年级水平、可理解性和医学准确性上与人工编写材料整体相当，在部分客观可读性指标上（如Flesch-Kincaid年级水平）表现更优，但主观评估维度无统计显著差异（Friedman检验p>0.05）；但可操作性是所有材料的共同短板，人工与AI材料均需进一步改进。评估者（包括肝病专科医生）无法可靠区分材料来源，提示AI生成内容的质量管控责任更需由临床专业人员主动承担。

AI聊天机器人在患者健康教育领域展现出良好应用前景，但在广泛推广至日常临床实践之前，仍需更多研究验证其临床实用性，并解决可操作性不足的核心问题。

【AI赋能护理科研】AI生成 vs 人工撰写:肝硬化患者健康教育材料的质量对比研究解读

【对护理科研小白的启示与可延伸选题】请关注本公众号，下次再聊。

想做项目申报，可加助教微信评估选题。