一
1989年。一种抗心律失常的药,临床试验数据漂亮得不得了——心跳不规律的指标完美压下去了
然后试验被紧急叫停
因为吃药的人,死得比不吃药的人多
指标改善了。人死了。方向是反的。
这件事在医学史上叫CAST试验。它教了整个制药业一课——
替代终点达标,不代表硬终点达标
替代终点:心跳规律了、血糖降了、肿瘤缩小了——看起来在好转的指标硬终点:人活了没有。器官好了没有。这个病人一年后还在不在
替代终点存在的原因是硬终点太慢、太贵、太难测。所以行业用替代终点代替硬终点做决策。
但CAST试验告诉你:替代终点和硬终点,可以方向相反
这一课的学费,是几百条人命
二
35年后。医疗AI行业正在交同一笔学费。
幻觉率从3.5%降到2.6%——替代终点。HealthBench全球第一——替代终点。日咨询量100万次——替代终点。
硬终点呢?
患者好了没有?肌酐降了没有?那个自己停药的痛风患者三个月后来复查了没有?
没人测,没人追,没人提。
Peter Drucker说过一句话:"There is nothing so useless as doing efficiently that which should not be done at all."
没有什么比高效地做一件根本不该做的事更无用的了
用全球最精密的技术优化一个替代终点——然后那个替代终点最漂亮的AI,告诉一个孕妇秋水仙碱"相对安全"。
35年前制药业的剧本,一个字没改
三
我在做专病医疗AI,说一件让我转变的事。
我们有个人工医助,用户反馈特别好。很耐心,很温暖,聊得很开心。
后来我去看了一遍她服务的用户数据。发现一件事——有几个用户满意度很高,但睡前那次清呤一直没喝。聊了半小时,没问那一句"你睡前那次喝了没有"。
聊得很开心,夜间8小时结晶窗口敞着。
我下了一条指令:不许提供情绪价值
不是不能共情,但共情是手段,不是目的。一段对话结束时用户感觉很好但没有产生行为改变,这段对话就是失败的。
后来做AI服务,这条规矩原样搬了进来。你不是来聊天的,你是来努力让他的肌酐降下去的
从那天起我改了衡量标准,不看AI回答得对不对。看患者三个月后复查时肌酐变了多少。
这就是效果驱动,不是一个口号,是一个衡量标准的切换。
四
效果驱动意味着什么?意味着一系列让人不舒服的选择。
我的AI会说"你昨天睡前那次清呤没吃吧"——用户不舒服,但夜间8小时的结晶窗口必须关掉
我的AI会说"你这个哑铃400个太多了,乳酸竞争排泄会推高尿酸,减到200"——用户觉得管太宽,但尿酸降不下来因为运动量错了
我的AI会说"你上周应酬喝的那两杯酒,大概让这周的努力白费了一半"——用户不爱听,但他的pH回到6.0说明确实如此
我的AI还会说"你这个情况我帮不了"——病程太长、广泛纤维化、我判断拿不到结果的,我直接说。不会先收钱再说"我们试试看"
我要努力帮用户拿到结果,从而获得收入。不是努力赚钱,然后交付一个替代终点。
有人说,"培养医生不能让患者付代价"。说得对。但给患者一个幻觉率2.6%的漂亮回答,然后让他带着这个回答,独自走进180天无人过问的生活——这不叫让患者付代价?
五
说个具体的事
我们管理的每个用户,初期每天测三次尿液pH——晨起、下午、睡前。数据发给AI。AI根据三个数字动态调整剂量和时间。
为什么?
尿酸结晶在pH低于6.0的环境里生长,在6.8-7.2的环境里溶解。白天溶了一点,晚上8小时没人管又长回来——净效果是负的。你降了尿酸、吃了药,但肌酐就是不降。
这就是为什么很多患者"尿酸降了但肌酐不降"——传统治疗只做了降尿酸,没有做溶解结晶,更没有做抗炎修复。一环转、两环不转,效果打三折。
这件事没有任何一个行业评测在测。但它决定了肌酐降不降。它才是硬终点
六
William Osler——现代临床医学之父,说过一句话:
好医生治的是病,伟大的医生治的是这个生了病的人
治病是替代终点。治这个人,才是硬终点
"这个人"意味着什么?意味着知道他昨晚没吃药、知道他这周应酬多了、知道他的pH又掉了、会在他想放弃的那一秒说出他需要听的那句话
不是一次答对。是180天持续做好
不是AI答得多准。是这个人,好了没有
所有不以这个为终点的优化,都是替代终点。
替代终点可以很漂亮。但CAST试验告诉我们——漂亮的替代终点,杀过人
盯着替代终点跑的人,可以跑得很快
但只有盯着硬终点的人,才到得了终点
(完)
夜雨聆风