【AI+心理教育】四川大学华西医院/华西护理学院陈娟团队:四款大语言模型回应抑郁问题比较研究发现,DeepSeek全面性最优

如果你也在愁没临床样本、没跨模型对比、没标准化评估框架，不如换个思路，用多维LLMs评估+跨学科验证+多指标机制解析杀出重围！你的心理健康数字资源课题是否适合类似思路？欢迎咨询评估~

文献解读

中文标题：大型语言模型如何回应常见抑郁问题：ChatGPT-4.0、DeepSeek、Google Gemini 和 Perplexity 的比较分析

发表期刊：Nurse Education in Practice

发表时间：2026年1月

影响因子：4.0/Q2

研究背景

LLMs的医疗应用潜力：大型语言模型（LLMs）基于深度学习架构，能理解、生成和处理人类语言，在肝硬化、糖尿病等常见疾病中的应用已受关注，但在心理健康（尤其抑郁症）领域的表现尚未充分探索。

抑郁症的全球负担：抑郁症是全球致残首要原因，影响超3亿人，因社会 stigma 和精神卫生专业人员短缺（分布不均），许多人延迟就医；2019年全球约70.3万人死于自杀（每100例死亡含1例），凸显早期干预和准确信息传播的重要性。

LLMs的辅助价值：公众日益依赖数字健康资源（如95.6%美国受访者在线查健康信息，49.6%大学生用在线工具获取心理健康信息），LLMs可克服地理/语言障碍，作为患者教育和护理支持的补充工具，但需评估其准确性、全面性、可读性。

研究方法

1. 研究设计

类型：横断面分析（Cross-sectional analysis），遵循《加强流行病学观察性研究报告》（STROBE）指南。

问题收集：从UpToDate、NICE、WHO等7个权威网站及既往研究收集抑郁症问题，经多学科专家（精神科医生、护士、心理治疗师）咨询后，最终确定35个问题，涵盖发病机制、风险因素、临床表现、诊断、预防、治疗、预后、护理8个领域。

2. 模型选择与数据生成

评估模型：选取4款主流LLMs——ChatGPT-4.0（OpenAI）、DeepSeek、Google Gemini（Alphabet）、Perplexity（Perplexity AI）。

数据生成：2025年2月24-27日，为每个问题启动新对话生成回应（避免上下文干扰）。

3. 评估方法

准确性：3名资深精神科护士（>10年临床经验）用5点Likert量表盲评（1=差/误导风险高，5=杰出/无错误），分歧时由第4名博士级护士共识解决。

全面性：同3名护士用5点量表评估（1=严重缺细节，5=富含细节），关注覆盖范围。

可读性：用3项指标——

Flesch-Kincaid Grade Level（FKGL）：对应美国教育年级（值越低越易读）；

Gunning Fog Index（GFI）：理解所需教育年限（值越低越易读）；

Flesch Reading Ease Score（FRES）：阅读易度（0-100分，值越高越易读）。

4. 统计分析

工具：GraphPad Prism 10.1.2（准确性、全面性）、R Software 4.4.2（可读性）。

方法：Kolmogorov-Smirnov检验正态性，正态分布用单因素ANOVA+Tukey事后检验，非正态用Bonferroni法；显著性水平p<0.05。

图1 总体研究设计流程图

研究结果

本研究通过表1（四款LLMs评估结果汇总）、图2（准确性与全面性评分）、图3（可读性评分） 展示核心发现：

1. 准确性评估

整体表现：四款模型平均准确性得分均较高，但Perplexity显著低于其他三者（p<0.001）：

DeepSeek=4.62±0.25，ChatGPT-4.0=4.67±0.34，Google Gemini=4.65±0.28，Perplexity=4.04±0.29。

“杰出”响应比例：ChatGPT-4.0（69.5%）、Google Gemini（68.6%）、DeepSeek（62.9%）显著高于Perplexity（30.5%）。

图2 4个大语言模型评估结果的比较

图3 DeepSeek、ChatGPT-4.0、Google Gemini和Perplexity之间可读性评估的比较

2. 全面性评估

整体表现：DeepSeek全面性最优，Perplexity最差（p<0.001）：

DeepSeek=4.72±0.32，ChatGPT-4.0=4.39±0.39，Google Gemini=4.22±0.35，Perplexity=3.43±0.34。

“非常全面”响应比例：DeepSeek（73.3%）远高于ChatGPT-4.0（44.8%）、Google Gemini（36.2%）、Perplexity（6.7%）；Perplexity的“略全面”响应占8.6%，其他模型均为“中等及以上”。

3. 可读性评估

响应长度（词数）：DeepSeek（504.29±122.28）> Google Gemini（356.69±108.64）> ChatGPT-4.0（281.80±90.19）> Perplexity（120.14±26.54）（见表2）。

可读性指标（值越低/FRES越高越易读）：

研究结论

1. 核心结论

潜力：LLMs（尤其是DeepSeek）在抑郁症健康教育的准确性、全面性上表现较好，可作为初级保健和心理健康场景的补充资源。

挑战：存在可读性不足（需更高教育水平理解）、Perplexity准确性较低（因token限制导致响应过简）、模型性能因领域而异（训练数据差异）等问题。

定位：LLMs应仅作为辅助工具，需结合临床监督和安全保障，不能替代专业医疗建议。

2. 局限性与未来方向

局限性：仅评估4款模型、问题分布不均（治疗+护理占68.7%）、限于英语环境、未评估患者行为结局。

未来方向：评估更多模型、平衡问题领域、开展多语言/数字弱势群体研究、验证临床效用及对患者的实际影响。

往期精选

【IF15.1】香港大学团队用LLM构建甲状腺癌分期与风险分级命名实体框架，实现AJCC 8th版分期与ATA风险自动分类

Cell Reports Medicine（IF=10.6）重磅！复旦邵志敏/肖毅/蒋逸舟团队单细胞代谢谱解析TNBC，锁定MCT1靶点增敏化疗免疫Cell Reports Medicine（IF=10.6）重磅！复旦邵志敏/肖毅/蒋逸舟团队单细胞代谢谱解析TNBC，锁定MCT1靶点增敏化疗免疫

IF=8.3｜张庆宇团队（山东第一医科大学附属山东省立医院骨科·通讯作者）用多组学+机器学习揭秘槲皮素-PRKCA肌肉保护通路