AI开始做慢病管理教练了 | JAMA随机临床试验:全自动AI版糖尿病预防项目,在12个月关键复合终点上不劣于真人教练-夜雨聆风

AI开始做慢病管理教练了 | JAMA随机临床试验:全自动AI版糖尿病预防项目,在12个月关键复合终点上不劣于真人教练

阅读时间：约7分钟 | 基于JAMA论文《An AI-Powered Lifestyle Intervention vs Human Coaching in the Diabetes Prevention Program》。

糖尿病前期不是小问题。论文背景里提到，美国大约38%的成年人处在 prediabetes 阶段；经典 DPP 生活方式干预能在 3 年里把糖尿病风险降58%，但现实世界的最大问题从来不是“方法没用”，而是“方法难以真正覆盖到人”。被转诊之后，真正参加 DPP 的人只有大约 35%。

这篇 JAMA 做了一件很实在的事：不是拿 AI 做个健康 app 然后和历史对照比，而是直接把一个 完全自动化的 AI-led DPP拉到随机临床试验里，正面对上CDC 认可的人类教练 DPP，看12 个月后谁更能把体重、HbA1c 和运动量拉到有临床意义的门槛。

结果不花哨，但非常值钱：AI 组主要复合终点 31.7%，真人组31.9%，达到预设不劣效；更关键的是，AI 组启动率 93.4% 对 82.7%，完成率63.9% 对 50.3%。实话说，这篇文章不是在证明“AI 比人更会当教练”，而是在证明：一个全自动系统，有机会把原本难以规模化的慢病预防干预真正做出去。

注：本文配图均根据论文结果重新整理绘制，并非论文原始插图。

一句话核心结论：这篇 JAMA 最值得记住的，不是 AI 比真人更强，而是它第一次在随机对照框架里证明：全自动、可规模化的 DPP 生活方式干预，可以在关键结局上不劣于真人教练，同时更容易被真正启动和完成。

论文题目	An AI-Powered Lifestyle Intervention vs Human Coaching in the Diabetes Prevention Program
期刊与时间	JAMA 2025;334(23):2079-2089；2025-10-27 online
研究设计	III期、平行分组、务实性、不劣效随机临床试验；2个美国中心，12个月随访
研究对象	368名糖尿病前期且超重/肥胖成人；中位年龄58岁，71%为女性，中位 BMI 32.3
AI方案	手机 App + 蓝牙体重秤的全自动 DPP；利用体重、饮食、定位和活动信号做个体化推送，核心算法是强化学习，不是大语言模型
最值得看之处	主要复合终点不劣于真人教练，同时 AI 组启动率和完成率更高，说明这类 AI 的现实价值更可能来自可及性和规模化

01 这篇研究真正想解决什么

这项试验的背景非常直白：DPP 明明有效，但一直做不大。论文在引言里给出的数字很扎眼——美国约 38%的成年人处在糖尿病前期，但全国只有1549个 CDC 认可的 DPP 项目，差不多相当于 每 6.3 万名糖尿病前期成年人只有1 个项目。更现实的是，被转诊之后真正参加的人也只有大约35%。

所以这篇文章真正想回答的，不是“AI 能不能给你发健康提醒”，也不是“AI 聊天会不会更像真人教练”，而是一个更系统的问题：如果把一个完全自动化的 AI 干预嵌进标准糖尿病预防项目，它能不能把证据级生活方式干预做成更低摩擦、可规模化的服务？

02 这套 AI 到底是什么：不是聊天机器人，而是强化学习驱动的低接触干预

AI 组被转介到 Sweetch Health 的数字化 DPP：核心是手机 App + 蓝牙体重秤。系统会结合主动采集的数据（例如体重、饮食记录）和被动采集的数据（例如定位、加速度、可穿戴设备活动信号），不断学习 什么提示、在什么时间、以什么内容出现，更容易把用户拉回干预轨道。论文明确写了：这不是 LLM，而是 reinforcement learning 算法。

对照组则进入4 个 CDC full-plus recognition的人类教练 DPP，采用远程小组视频课程，前期 16 次周课，后续进入维护阶段。更关键的是，这是一项pragmatic referral trial：研究团队本身并不负责提供干预，只负责随机转介和结局测量。运动量也不是只靠自报，而是用腕式actigraphy每月客观记录。

图1｜这篇试验的价值，不在于“AI会聊天”，而在于它把一个有效但难普及的预防项目，做成了可随机、可比较、可部署的真实干预。

03 结果到底如何：AI没有赢麻，但把最该回答的问题回答清了

这项试验的主要终点其实设计得挺严格：参与者必须在整个研究期间都维持HbA1c < 6.5%，然后再满足以下三条中的至少一条：≥5% 体重下降；≥4% 体重下降且每周 ≥150 分钟中高强度活动；HbA1c 绝对下降 ≥0.2 个百分点。作者预设了-15 个百分点的不劣效界值。

最终结果是：AI 组 58/183（31.7%）达到主要终点，人类教练组59/185（31.9%）；风险差-0.2 个百分点，单侧 95% 置信区间下界 -8.2%。这意味着 AI 组没有跨过那条 -15% 的红线，因此达到了预设不劣效。翻成人话就是：把干预完全自动化之后，疗效并没有明显掉线。

把复合终点拆开看，方向也没有反转：≥5% 体重下降是16.9% vs 20.0%；≥4% 体重下降 + ≥150 分钟运动/周是12.6% vs 12.4%；在基线可评估者里，HbA1c 下降 ≥0.2的比例是26.9% vs 26.9%。研究期间HbA1c ≥6.5%的比例为4.4% vs 3.8%，差异不显著。

图2｜这不是“AI是否胜过人类教练”的竞赛，而是“把人类教练拿掉以后，效果还能不能保住”的检验。答案是：能。

04 真正更有现实意义的结果：AI更容易被真正用起来

如果只盯着 31.7% 和 31.9%，你会觉得这篇论文“平平无奇”。但慢病管理真正值钱的，往往不是单次终点，而是 有多少人真的开始了、又有多少人没在半路掉队。在这点上，AI 组很明显更占优势：启动率 93.4% vs 82.7%，完成率 63.9% vs 50.3%。

论文还给了一个很有意思的分层观察：在完成项目的人里，主要终点达成率其实差不多——AI 组 37%，人类组35%。但在 AI 组所有达成主要终点的人中，74%都来自完成者；在人类组，这个比例是56%。这提示一个很现实的解释：AI 的优势未必是“同样强度下更有效”，而更像是“降低进入和坚持的摩擦”。

这对慢病预防尤其重要。论文讨论部分提到，即便在指南推荐下，美国实际参与 DPP 的糖尿病前期成年人也只有大约 3%。在这种背景下，把干预做成一个可低接触、可异步、可持续触达的产品，本身就可能比“把每一个完成者再提升一点点效果”更具公共卫生意义。

图3｜这项试验最打动人的地方，不是 AI 在终点上多赢了几分，而是它明显减少了“还没开始就放弃”和“开始后很快掉队”的人数。

05 为什么这篇 JAMA 比很多数字医疗论文更可信

第一，它是随机对照，而且用的是主动对照。很多数字健康研究喜欢拿历史对照、usual care，甚至只做单臂前后比较；这篇不是。它直接拿一个 fully automated AI-led DPP去对标CDC 认可的人类教练项目。这让“AI 到底行不行”变成了更硬的临床问题。

第二，它不是只看几周体重变化，而是看12 个月，而且运动量用actigraphy 客观测量。

第三，人类教练组不是敷衍对手——四个项目都有 full-plus recognition。第四，这是一项务实性 referral trial：研究团队本身不带项目，更接近未来真实部署的样子。再加上整项研究85.1%的随访保留率，这篇文章的底子比很多“app 试用报告”要硬得多。

图4｜这篇文章的价值在于问题提得很实、设计也够硬；但它同样没有把“AI 已经可以全面替代人类教练”这件事说死。

06 但别吹过头：这篇文章真正的边界在哪里

边界至少有四层。第一，只有 2 个美国中心，而且受试者是相对积极的志愿者，教育程度也偏高，外推到更多元、更低数字素养的人群要谨慎。第二，主要终点是12 个月复合替代结局，不是最终的糖尿病发病率；所以这篇文章并没有直接证明 AI 方案能长期减少糖尿病发生。第三，人类教练组因为 COVID 采用了 远程课程，这不等于传统面对面 DPP。第四，研究是 开放标签，而且 App 在研究期间有一些界面/功能更新；数字素养、使用习惯和平台细节都可能影响结果。再补一层实话：不劣效界值设为 -15%不算很小，虽然最终观察值远好于这条线，但它仍然不是“完全一样”。

这篇论文现在能说的	这篇论文现在还不能说的
1. 全自动 AI 版 DPP 在 12 个月关键复合终点上不劣于 CDC 认可的人类教练项目。2. AI 方案在启动率和完成率上更好，说明它更适合做低摩擦、可扩展的干预。3. 这类 AI 的价值未必来自“更聪明”，也可能来自“更容易进入临床流程”。	1. AI 已经能够普遍替代所有生活方式教练。2. 这套方案一定能长期减少糖尿病发病。3. 在更低数字素养、更多元人群或其他医疗系统里，效果一定能原样复制。

07 我的判断：AI 在慢病预防里最现实的价值，是把有效干预做成标准产品

我对这篇文章的判断很明确：它的意义不在“AI 终于赢过人类教练”，而在“证据级干预终于有机会被产品化、规模化”。过去很多临床 AI 论文都在讨论模型分数、预测准确率和单点替代；这篇文章更像是在回答一个更难也更现实的问题：怎样把一个已知有效、但长期难推广的干预，真正做进医疗系统。

对生物医学 AI 来说，这可能比很多花哨的模型更值得重视。因为慢病管理的瓶颈，往往不在“理论上有没有方法”，而在“现实里谁来做、怎么做、能做多大”。如果 AI 能把这类行为干预做成 低摩擦、低人力依赖、可在流程中持续运行的服务，它未必要在每一项指标上都压过人类，依然会很有价值。

下一步真正该看的，是长期糖尿病发病率、成本效果、不同数字素养人群的表现，以及这类系统在更大范围医疗网络里的部署质量。这篇 JAMA 不是终局，但它把“AI 做慢病管理教练”这件事，从概念验证推进到了可以严肃讨论的临床实施问题。

一句话核心结论：这篇 JAMA 最值钱的地方，不是 AI 比人类强，而是它证明了：全自动、可规模化的慢病预防干预，可以在关键结局上不劣于真人教练，并且在真正启动和完成这件事上更有现实优势。

引用信息

Mathioudakis N, Lalani B, Abusamaan MS, et al. An AI-Powered Lifestyle Intervention vs Human Coaching in the Diabetes Prevention Program: A Randomized Clinical Trial. JAMA. 2025;334(23):2079–2089. doi:10.1001/jama.2025.19563