替代终点杀过人—以及,医疗AI正在犯同一个错

一

1989年。一种抗心律失常的药，临床试验数据漂亮得不得了——心跳不规律的指标完美压下去了

然后试验被紧急叫停

因为吃药的人，死得比不吃药的人多

指标改善了。人死了。方向是反的。

这件事在医学史上叫CAST试验。它教了整个制药业一课——

替代终点达标，不代表硬终点达标

替代终点：心跳规律了、血糖降了、肿瘤缩小了——看起来在好转的指标硬终点：人活了没有。器官好了没有。这个病人一年后还在不在

替代终点存在的原因是硬终点太慢、太贵、太难测。所以行业用替代终点代替硬终点做决策。

但CAST试验告诉你：替代终点和硬终点，可以方向相反

这一课的学费，是几百条人命

二

35年后。医疗AI行业正在交同一笔学费。

幻觉率从3.5%降到2.6%——替代终点。HealthBench全球第一——替代终点。日咨询量100万次——替代终点。

硬终点呢？

患者好了没有？肌酐降了没有？那个自己停药的痛风患者三个月后来复查了没有？

没人测，没人追，没人提。

Peter Drucker说过一句话："There is nothing so useless as doing efficiently that which should not be done at all."

没有什么比高效地做一件根本不该做的事更无用的了

用全球最精密的技术优化一个替代终点——然后那个替代终点最漂亮的AI，告诉一个孕妇秋水仙碱"相对安全"。

35年前制药业的剧本，一个字没改

三

我在做专病医疗AI，说一件让我转变的事。

我们有个人工医助，用户反馈特别好。很耐心，很温暖，聊得很开心。

后来我去看了一遍她服务的用户数据。发现一件事——有几个用户满意度很高，但睡前那次清呤一直没喝。聊了半小时，没问那一句"你睡前那次喝了没有"。

聊得很开心，夜间8小时结晶窗口敞着。

我下了一条指令：不许提供情绪价值

不是不能共情，但共情是手段，不是目的。一段对话结束时用户感觉很好但没有产生行为改变，这段对话就是失败的。

后来做AI服务，这条规矩原样搬了进来。你不是来聊天的，你是来努力让他的肌酐降下去的

从那天起我改了衡量标准，不看AI回答得对不对。看患者三个月后复查时肌酐变了多少。

这就是效果驱动，不是一个口号，是一个衡量标准的切换。

四

效果驱动意味着什么？意味着一系列让人不舒服的选择。

我的AI会说"你昨天睡前那次清呤没吃吧"——用户不舒服，但夜间8小时的结晶窗口必须关掉

我的AI会说"你这个哑铃400个太多了，乳酸竞争排泄会推高尿酸，减到200"——用户觉得管太宽，但尿酸降不下来因为运动量错了

我的AI会说"你上周应酬喝的那两杯酒，大概让这周的努力白费了一半"——用户不爱听，但他的pH回到6.0说明确实如此

我的AI还会说"你这个情况我帮不了"——病程太长、广泛纤维化、我判断拿不到结果的，我直接说。不会先收钱再说"我们试试看"

我要努力帮用户拿到结果，从而获得收入。不是努力赚钱，然后交付一个替代终点。

有人说，"培养医生不能让患者付代价"。说得对。但给患者一个幻觉率2.6%的漂亮回答，然后让他带着这个回答，独自走进180天无人过问的生活——这不叫让患者付代价？

五

说个具体的事

我们管理的每个用户，初期每天测三次尿液pH——晨起、下午、睡前。数据发给AI。AI根据三个数字动态调整剂量和时间。

为什么？

尿酸结晶在pH低于6.0的环境里生长，在6.8-7.2的环境里溶解。白天溶了一点，晚上8小时没人管又长回来——净效果是负的。你降了尿酸、吃了药，但肌酐就是不降。

这就是为什么很多患者"尿酸降了但肌酐不降"——传统治疗只做了降尿酸，没有做溶解结晶，更没有做抗炎修复。一环转、两环不转，效果打三折。

这件事没有任何一个行业评测在测。但它决定了肌酐降不降。它才是硬终点

六

William Osler——现代临床医学之父，说过一句话：

"The good physician treats the disease; the great physician treats the patient who has the disease."

好医生治的是病，伟大的医生治的是这个生了病的人

治病是替代终点。治这个人，才是硬终点

"这个人"意味着什么？意味着知道他昨晚没吃药、知道他这周应酬多了、知道他的pH又掉了、会在他想放弃的那一秒说出他需要听的那句话

不是一次答对。是180天持续做好

不是AI答得多准。是这个人，好了没有

所有不以这个为终点的优化，都是替代终点。

替代终点可以很漂亮。但CAST试验告诉我们——漂亮的替代终点，杀过人

盯着替代终点跑的人，可以跑得很快

但只有盯着硬终点的人，才到得了终点

（完）