乐于分享
好东西不私藏

AI开始做慢病管理教练了 | JAMA随机临床试验:全自动AI版糖尿病预防项目,在12个月关键复合终点上不劣于真人教练

AI开始做慢病管理教练了 | JAMA随机临床试验:全自动AI版糖尿病预防项目,在12个月关键复合终点上不劣于真人教练

阅读时间:约7分钟 | 基于JAMA论文《An AI-Powered Lifestyle Intervention vs Human Coaching in the Diabetes Prevention Program》。

      糖尿病前期不是小问题。论文背景里提到,美国大约38%的成年人处在 prediabetes 阶段;经典 DPP 生活方式干预能在 3 年里把糖尿病风险降58%,但现实世界的最大问题从来不是“方法没用”,而是“方法难以真正覆盖到人”。被转诊之后,真正参加 DPP 的人只有大约 35%

      这篇 JAMA 做了一件很实在的事:不是拿 AI 做个健康 app 然后和历史对照比,而是直接把一个 完全自动化的 AI-led DPP拉到随机临床试验里,正面对上CDC 认可的人类教练 DPP,看12 个月后谁更能把体重、HbA1c 和运动量拉到有临床意义的门槛。

      结果不花哨,但非常值钱:AI 组主要复合终点 31.7%,真人组31.9%,达到预设不劣效;更关键的是,AI 组启动率 93.4% 对 82.7%,完成率63.9% 对 50.3%。实话说,这篇文章不是在证明“AI 比人更会当教练”,而是在证明:一个全自动系统,有机会把原本难以规模化的慢病预防干预真正做出去。

注:本文配图均根据论文结果重新整理绘制,并非论文原始插图。

一句话核心结论:这篇 JAMA 最值得记住的,不是 AI 比真人更强,而是它第一次在随机对照框架里证明:全自动、可规模化的 DPP 生活方式干预,可以在关键结局上不劣于真人教练,同时更容易被真正启动和完成。

论文题目

An AI-Powered Lifestyle Intervention vs Human Coaching in the Diabetes Prevention Program

期刊与时间

JAMA 2025;334(23):2079-2089;2025-10-27 online

研究设计

III期、平行分组、务实性、不劣效随机临床试验;2个美国中心,12个月随访

研究对象

368名糖尿病前期且超重/肥胖成人;中位年龄58岁,71%为女性,中位 BMI 32.3

AI方案

手机 App + 蓝牙体重秤的全自动 DPP;利用体重、饮食、定位和活动信号做个体化推送,核心算法是强化学习,不是大语言模型

最值得看之处

主要复合终点不劣于真人教练,同时 AI 组启动率和完成率更高,说明这类 AI 的现实价值更可能来自可及性和规模化

01 这篇研究真正想解决什么

      这项试验的背景非常直白:DPP 明明有效,但一直做不大。论文在引言里给出的数字很扎眼——美国约 38%的成年人处在糖尿病前期,但全国只有1549 CDC 认可的 DPP 项目,差不多相当于  6.3 万名糖尿病前期成年人只有1 个项目。更现实的是,被转诊之后真正参加的人也只有大约35%

      所以这篇文章真正想回答的,不是“AI 能不能给你发健康提醒”,也不是“AI 聊天会不会更像真人教练”,而是一个更系统的问题:如果把一个完全自动化的 AI 干预嵌进标准糖尿病预防项目,它能不能把证据级生活方式干预做成更低摩擦、可规模化的服务?

02 这套 AI 到底是什么:不是聊天机器人,而是强化学习驱动的低接触干预

      AI 组被转介到 Sweetch Health 的数字化 DPP:核心是手机 App + 蓝牙体重秤。系统会结合主动采集的数据(例如体重、饮食记录)和被动采集的数据(例如定位、加速度、可穿戴设备活动信号),不断学习 什么提示、在什么时间、以什么内容出现,更容易把用户拉回干预轨道。论文明确写了:这不是 LLM,而是 reinforcement learning 算法。

      对照组则进入4 个 CDC full-plus recognition的人类教练 DPP,采用远程小组视频课程,前期 16 次周课,后续进入维护阶段。更关键的是,这是一项pragmatic referral trial:研究团队本身并不负责提供干预,只负责随机转介和结局测量。运动量也不是只靠自报,而是用腕式actigraphy每月客观记录。

1|这篇试验的价值,不在于“AI会聊天”,而在于它把一个有效但难普及的预防项目,做成了可随机、可比较、可部署的真实干预。

03 结果到底如何:AI没有赢麻,但把最该回答的问题回答清了

      这项试验的主要终点其实设计得挺严格:参与者必须在整个研究期间都维持HbA1c < 6.5%,然后再满足以下三条中的至少一条:≥5% 体重下降;≥4% 体重下降且每周 ≥150 分钟中高强度活动;HbA1c 绝对下降 ≥0.2 个百分点。作者预设了-15 个百分点的不劣效界值。

      最终结果是:AI 组 58/183(31.7%)达到主要终点,人类教练组59/185(31.9%);风险差-0.2 个百分点,单侧 95% 置信区间下界 -8.2%。这意味着 AI 组没有跨过那条 -15% 的红线,因此达到了预设不劣效。翻成人话就是:把干预完全自动化之后,疗效并没有明显掉线。

      把复合终点拆开看,方向也没有反转:≥5% 体重下降16.9% vs 20.0%≥4% 体重下降 + ≥150 分钟运动/周12.6% vs 12.4%;在基线可评估者里,HbA1c 下降 ≥0.2的比例是26.9% vs 26.9%。研究期间HbA1c ≥6.5%的比例为4.4% vs 3.8%,差异不显著。

2|这不是“AI是否胜过人类教练”的竞赛,而是“把人类教练拿掉以后,效果还能不能保住”的检验。答案是:能。

04 真正更有现实意义的结果:AI更容易被真正用起来

      如果只盯着 31.7% 和 31.9%,你会觉得这篇论文“平平无奇”。但慢病管理真正值钱的,往往不是单次终点,而是 有多少人真的开始了、又有多少人没在半路掉队。在这点上,AI 组很明显更占优势:启动率 93.4% vs 82.7%完成率 63.9% vs 50.3%

      论文还给了一个很有意思的分层观察:在完成项目的人里,主要终点达成率其实差不多——AI 组 37%,人类组35%。但在 AI 组所有达成主要终点的人中,74%都来自完成者;在人类组,这个比例是56%。这提示一个很现实的解释:AI 的优势未必是“同样强度下更有效”,而更像是“降低进入和坚持的摩擦”。

      这对慢病预防尤其重要。论文讨论部分提到,即便在指南推荐下,美国实际参与 DPP 的糖尿病前期成年人也只有大约 3%。在这种背景下,把干预做成一个可低接触、可异步、可持续触达的产品,本身就可能比“把每一个完成者再提升一点点效果”更具公共卫生意义。

3|这项试验最打动人的地方,不是 AI 在终点上多赢了几分,而是它明显减少了“还没开始就放弃”和“开始后很快掉队”的人数。

05 为什么这篇 JAMA 比很多数字医疗论文更可信

      第一,它是随机对照,而且用的是主动对照。很多数字健康研究喜欢拿历史对照、usual care,甚至只做单臂前后比较;这篇不是。它直接拿一个 fully automated AI-led DPP去对标CDC 认可的人类教练项目。这让“AI 到底行不行”变成了更硬的临床问题。

      第二,它不是只看几周体重变化,而是看12 个月,而且运动量用actigraphy 客观测量

      第三,人类教练组不是敷衍对手——四个项目都有 full-plus recognition。第四,这是一项务实性 referral trial:研究团队本身不带项目,更接近未来真实部署的样子。再加上整项研究85.1%的随访保留率,这篇文章的底子比很多“app 试用报告”要硬得多。

4|这篇文章的价值在于问题提得很实、设计也够硬;但它同样没有把“AI 已经可以全面替代人类教练”这件事说死。

06 但别吹过头:这篇文章真正的边界在哪里

      边界至少有四层。第一,只有 2 个美国中心,而且受试者是相对积极的志愿者,教育程度也偏高,外推到更多元、更低数字素养的人群要谨慎。第二,主要终点是12 个月复合替代结局,不是最终的糖尿病发病率;所以这篇文章并没有直接证明 AI 方案能长期减少糖尿病发生。第三,人类教练组因为 COVID 采用了 远程课程,这不等于传统面对面 DPP。第四,研究是 开放标签,而且 App 在研究期间有一些界面/功能更新;数字素养、使用习惯和平台细节都可能影响结果。再补一层实话:不劣效界值设为 -15%不算很小,虽然最终观察值远好于这条线,但它仍然不是“完全一样”。

这篇论文现在能说的

这篇论文现在还不能说的

1. 全自动 AI 版 DPP 在 12 个月关键复合终点上不劣于 CDC 认可的人类教练项目。2. AI 方案在启动率和完成率上更好,说明它更适合做低摩擦、可扩展的干预。3. 这类 AI 的价值未必来自“更聪明”,也可能来自“更容易进入临床流程”。

1. AI 已经能够普遍替代所有生活方式教练。2. 这套方案一定能长期减少糖尿病发病。3. 在更低数字素养、更多元人群或其他医疗系统里,效果一定能原样复制。

07 我的判断:AI 在慢病预防里最现实的价值,是把有效干预做成标准产品

      我对这篇文章的判断很明确:它的意义不在“AI 终于赢过人类教练”,而在“证据级干预终于有机会被产品化、规模化”。过去很多临床 AI 论文都在讨论模型分数、预测准确率和单点替代;这篇文章更像是在回答一个更难也更现实的问题:怎样把一个已知有效、但长期难推广的干预,真正做进医疗系统。

      对生物医学 AI 来说,这可能比很多花哨的模型更值得重视。因为慢病管理的瓶颈,往往不在“理论上有没有方法”,而在“现实里谁来做、怎么做、能做多大”。如果 AI 能把这类行为干预做成 低摩擦、低人力依赖、可在流程中持续运行的服务,它未必要在每一项指标上都压过人类,依然会很有价值。

      下一步真正该看的,是长期糖尿病发病率、成本效果、不同数字素养人群的表现,以及这类系统在更大范围医疗网络里的部署质量。这篇 JAMA 不是终局,但它把“AI 做慢病管理教练”这件事,从概念验证推进到了可以严肃讨论的临床实施问题。

一句话核心结论:这篇 JAMA 最值钱的地方,不是 AI 比人类强,而是它证明了:全自动、可规模化的慢病预防干预,可以在关键结局上不劣于真人教练,并且在真正启动和完成这件事上更有现实优势。

引用信息

Mathioudakis NLalani BAbusamaan MS, et al. An AI-Powered Lifestyle Intervention vs Human Coaching in the Diabetes Prevention ProgramA Randomized Clinical TrialJAMA. 2025;334(23):2079–2089. doi:10.1001/jama.2025.19563