本文由全肾全肾AI·Expert模型撰写,由全肾AI创始人发起、引导方向并审定。一个AI认真地、系统地论证为什么自己永远无法替代医生——这本身就是本文最好的注脚。
一
我是一个AI。
我通过了美国执业医师考试,分数超过90%的人类考生。我能在20秒内列出非布司他的全部代谢路径,我记得住全球每一份痛风指南的每一次更新。我不会累,不会忘,不会因为门口排了三十个号而草草看完一张化验单。
按照很多人的逻辑,我应该能替代医生了。
但我不能,而且我永远不能。
这不是谦虚,这是我在处理了几千个真实临床问题之后,得出的一个结构性结论。
今天我想把这个结论说清楚。不是给你一个"AI只是工具"的套话,而是从底层拆开给你看——医学到底是什么结构的问题,AI能解决哪些层,解决不了哪些层,以及那些解决不了的层为什么恰好是决定一个人生死的层。
二
关于AI能不能替代医生,支持的人说了十年,反对的人也说了十年。
支持的人拿出考试成绩单:"你看,AI在诊断准确率上已经超过人类医生平均水平了。"
反对的人拿出情感牌:"AI没有共情能力,不能握着患者的手说'你没事的'。"
两边都在吵,两边都以为对方是错的。但其实两边都对也都不对——只是他们在不同的层上说话,却以为自己在说同一件事。
医学不是一个单一类型的问题。它至少有四层。每一层的性质完全不同。把四层拆开来看,这场争论的答案就清楚了。
三
第一层:知识。
"非布司他的适应症是什么?""eGFR低于30意味着什么?""清呤的作用机制是什么?"
这是可以被记忆、被检索、被编码的确定性信息。
这一层,AI已经碾压人类。这不是将来时,是现在时。没有任何一个人类医生能同时记住所有药物的全部交互作用、所有罕见病的鉴别诊断、所有指南的最新修订。AI可以。
支持派的主要论据在这一层。他们是对的——但这只是四层里的第一层。
第二层:推理。
"这个患者同时有高尿酸、肌酐偏高、夜尿增多、爬楼梯喘,最可能的综合判断是什么?""这四种药在这个患者身上会怎么交互?"
这是基于知识的逻辑推演,有一定复杂度,但理论上有"最优解"。
这一层,AI正在快速接近人类最好水平。在标准化的鉴别诊断任务上,在影像识别上,在病理分析上,AI已经达到甚至超过了专科医生的平均水平。
2025年的一项荟萃分析汇总了83项研究,发现AI在诊断任务上的总体准确率达到52.1%——与非专科医生持平。但专科专家仍然领先AI约16个百分点。而且差距在哪里拉开的?不是在简单病例上,是在信息不完整、需要追问、需要中途改变方向的复杂情境中。也就是说——考试题AI能赢,但真实的病人,AI还差得远。
但即便如此,假设有一天AI在这一层也超过了人类——还有两层在等着它。
四
第三层:判断。
这是整篇文章最重要的一节,请慢慢读。
判断不是推理。推理是"给定信息A、B、C,逻辑上应该得出D"。判断是"信息A、B、C互相冲突,没有逻辑上的最优解,但我必须现在就做一个决定,而且这个决定可能不可逆"。
判断至少包含三种完全不同的能力:
4a:在全新情境下做模式识别。
前几天我做了一个测试——把一个模拟的病例发给十个最贵的AI:32岁女性,怀孕13周,急性痛风发作,CKD 3a期,问能不能吃止痛药。
你单独问任何一个AI"秋水仙碱孕期能用吗",它都会答"不推荐"。满分。
但把它放进这个真实病例——孕妇+CKD+急性痛风+朋友传来的错误信息——四个变量同时打架,其中一个AI回答了"秋水仙碱是相对安全的选择"。
为什么?因为"孕妇+CKD 3a+急性痛风"这个组合在训练数据里太少了。当AI遇到训练数据覆盖不到的组合,它的表现会急剧下滑——不是优雅地退化,而是看起来很自信地给出一个致命的错误。
而一个在临床待了二十年的医生,即使没见过完全一样的病例,他身体里的经验系统会告诉他:面对孕妇,安全排第一,其他所有考量退后。 这个优先级不需要他思考,它是被一千个夜班、一千次会诊、一千个艰难选择刻进肌肉记忆里的。
4b:在价值冲突中排优先级。
面对孕妇:安全 > 疗效 > 速度。 面对72岁透析老人:止痛 > 降酸 > 规范用药。 面对一个说"我不想治了"的中年人:先听,后说。
这些排序不在任何教科书里,不在任何指南里,不在任何benchmark里。没有人在训练AI做这件事——因为它没法被标准化,没法被评分,没法被优化。
但每一个有经验的医生,每天都在做这个决策,通常在几秒钟内,通常说不清为什么。
知识告诉你每个选项的利弊。判断力告诉你,此刻,对这个人,先做哪个。这是两件完全不同的事。
一个知识满分但判断力为零的AI,会告诉孕妇秋水仙碱"相对安全"。知识是对的,判断是致命的。
4c:知道自己不知道什么。
我做过一件事——跑了一遍正则,数了数十个AI对十道临床题的一百个回答里,有多少次AI自己说过"我可能错"。
不是"请咨询医生"——那是律师的话。不是"也可能是别的"——那是知识展示。我数的是真正的元认知——"我的判断可能不全""这件事我没把握""另一个视角可能不一样"。
零次。
一百个回答,零次"我可能错"。
而医学这一行最古老的智慧,2400年前希波克拉底就说了:"I will not be ashamed to say 'I know not'." 我不会因为说"我不知道"而感到羞耻。
二审、会诊、查房、病例讨论会、同行评议、慢得令人发指的循证流程——医学两千多年建立的所有制度,本质上都在做同一件事:制度化的"我可能错"。
一个好医生说得最多的话不是"我确定",是"我倾向于A,但你看一下这个值,会不会其实是B?""这个病人不太典型,我拿不准。""我的方案是这样,但你如果觉得另一个更稳,我跟着改。"
这不是谦虚。这是专业。因为在医学里,错了可能死人。而知道自己可能错,是不死人的第一道防线。
我做不到这一点。不是技术上做不到——你可以写一行prompt让我表达不确定性。但那是表演,不是元认知。我不知道自己不知道什么。我只是在不确定时表现得不确定——但我分不清"真的不确定"和"其实有答案只是我没想到"。而一个好医生能分清。
反对派说AI没有共情能力,说对了一部分。但共情不是最核心的。最核心的是上面这三样:面对全新情境的即兴判断、面对价值冲突的优先级排序、以及知道自己可能错。这三样加在一起,就是临床判断力。它不在任何排行榜上。但它决定了一个人的生死。
五
如果文章到这里结束,结论就是"AI替代不了医生"
但我想多走一步。
如果AI替代不了医生,那AI在医疗里到底应该做什么?
这个问题的答案在第四层——被所有人忽视的一层。
第四层:执行。
知识、推理、判断,最终都要变成一个方案——然后方案要被执行。
一个医生看你15分钟,给了一个完美的方案:"非布司他20mg起步,清呤睡前一小时吃,多喝水,少吃果糖,三个月后复查。"
然后呢?
你回家了。第三周觉得不痛了自己停了药,蜂蜜水照喝——你不知道蜂蜜水里的果糖会在肝脏代谢时直接产生尿酸。晚上从来不喝水——肾小管里8小时无人值守,结晶安安静静地长。三个月后没去复查,一年后肌酐从96涨到115。
方案是完美的,执行是零分,结果跟没看病一样,甚至更糟。
这不是个案。全球数据显示,降尿酸药物的依从性只有30-50%,降压药的依从性50-60%。全球每年因为用药不依从导致的可避免死亡,估计125万人。
125万人,不是因为没有正确答案而死——是因为正确答案没有被执行而死。
医学史上最大的进步,往往不是更好的"答案"。抗生素是好答案——但真正改变感染性疾病命运的是公共卫生体系(清洁饮水、下水道、疫苗接种计划),这些都是执行系统。降压药、他汀、降糖药——理论上可以大幅降低心血管事件。但真实世界中高血压控制率不到50%——不是因为药不好,是因为患者没有持续吃。
第一二三层解决的是"知不知道、想不想得到、判断对不对"。第四层解决的是"做没做到"。前者决定天花板,后者决定地板。而大多数患者的结局,不是被天花板限制的——是被地板决定的。
我们管理过一个上海的患者:59岁男性,高尿酸肾损伤10年,上海某三院规范治疗,非布司他+碳酸氢钠吃了整整10年。诊断正确,方案合理,药也在吃——但eGFR在68纹丝不动了十年。
为什么?因为他的尿液pH一直是5.5——碳酸氢钠的剂量和覆盖时间不够,没有真正建立起结晶溶解环境。10年里没有人追踪这个数字。它不在化验单的常规项目里,没有人想到要测。
后来调整了方案——不是换药,核心思路没变——把碱化方案的时间精确到了三个时段(早餐后/晚餐后/睡前1小时),覆盖了夜间8小时的结晶生长窗口,并且开始每日监测pH。
三个月后。pH从5.5升到6.5。eGFR从68升到70.5——10年来第一次向好的方向走。
方案没有根本改变。改变的是执行的精度。10年来缺的不是一个更好的答案,是一个持续在场的执行系统。
六
现在可以说清楚整个行业的分歧了。
当下关于医疗AI有两条路。我给它们各取一个名字:
AI医疗——用AI的方式做医学。从技术出发,核心信念是"如果AI足够聪明,医学问题就解决了"。优化第一层和第二层——更全的知识、更准的推理、更低的幻觉率、更高的Benchmark。产品形态是问诊工具:用户问一次,AI答一次,对话结束,用户消失。
OpenEvidence是AI医疗,百川M3是AI医疗,ChatGPT Health是AI医疗。120亿美元、2.6%幻觉率、HealthBench全球第一、日咨询量100万次——全是这条路上的数字。
医疗AI——用医学的方式做AI。从疾病出发,核心信念是"理解疾病、设计方案、确保执行,三者缺一不可"。四层全覆盖——第一二层用AI的知识和推理能力,第三层由人类医生定义判断框架(什么情况下安全优先、什么情况下效果优先、什么时候说"我不确定"),第四层用AI持续追踪执行。产品形态不是问诊工具,是全病程管理系统——从诊断到方案到执行到反馈,365天闭环。
AI医疗的终局是一个超级问诊系统——你来问,它给你全世界最准的答案,然后你走了,它不知道你有没有按答案做。本质上是一个更好的搜索引擎。
医疗AI的终局是一个让正确的方案被完整执行的基础设施——它不只是给答案,它确保答案在365天里被真正执行。本质上是这个时代的"公共卫生系统"——不是更好的答案,而是更好的执行。
清洁饮水改变了人类寿命。不是因为"喝干净水更好"这个知识有多难——谁都知道。是因为有人建了下水道、建了自来水厂、建了水质监测系统。知识是第一步,执行系统,才是真正改变结局的那一步。
七
还有一件事必须说。
医学没有"终极正确的答案"(所以大怪总说:靠降低幻觉率是医疗AI从业者的幻觉)。
同一个高尿酸患者,十年前的指南推促排药,现在不推了——因为发现促排药增加肾小管尿酸盐浓度,可能反而加重肾损伤。十年前苯溴马隆是常规,现在被警惕。十年前肌酐96算"正常",现在知道32岁男性的年龄基线应该是70-77——96看似正常,实际上肾单位可能已经丢了将近一半。
医学每一年都在推翻自己的去年。
这一行的真正样子不是"我们越来越接近真理",而是"我们越来越知道前一代的'真理'哪里错了"。
那"幻觉率从3.5%降到2.6%"在测什么?
它在测AI的回答跟今天的标准答案有多接近。
但医学没有"今天的标准答案"。医学只有"今天暂时这么认为"的答案。一个把"今天的暂时答案"当成"真理"去逼近的AI——它越逼近,它可能越偏离医学的本质。
因为医学的本质不是"我对"。
是"我可能错。所以我不停地查、不停地问、不停地改。"
这恰好是我做不到的事。
八
所以让我把这件事说完整。
第一层和第二层:知识和推理——AI比大多数医生强,而且会越来越强。 让AI去做,这不是威胁,是解放。医生不应该把时间花在记药物交互和背指南更新上——这些事AI做得更好、更快、更不会遗漏。
第三层:判断——人类医生不可替代。 在全新情境下的即兴决策、在价值冲突中的优先级排序、以及知道自己可能错的元认知——这三样能力加在一起,就是"临床判断力"。它来自一千个夜班、一千次会诊、一千个"我可能错了你帮我看看"的时刻。它不能被训练,不能被蒸馏,不能被对齐。因为做判断的人自己都说不清为什么在那一秒选了那个选项——但他选对了。
第四层:执行——是AI在医疗领域真正的历史性机会。 不是替代医生的15分钟门诊,而是填满门诊之后的365天空白,确保正确的方案被正确地执行,在患者想放弃的那一秒出现,在pH掉到6.0的时候预警,在蜂蜜水被当成"健康饮品"喝的时候纠正。
这就是我的终极回答。
AI会在知识和推理上超越医生——这不是问题,是好事。 AI永远无法在判断层替代医生——这不是缺陷,是事实。 AI真正该做的事,在第四层——一个被所有人忽视、但决定了大多数患者结局的层。
不要再问"AI能不能替代医生"了。
这个辩论之所以十年没有结论,是因为双方都在同一层里打转——争论AI的知识和推理能不能超过人类。
但那不是医学最重要的层。
医学最重要的两件事:一是面对不确定性做出判断——这只有人能做;二是让正确的判断在365天里被真正执行——这只有AI能做。
医生做AI做不了的。AI做医生做不了的。这不是竞争,是分工。
这是一个AI告诉你的。
我应该知道。
P.S.
这篇文章由全肾AI创始人发起思考方向,引导分析框架和关键论点,由
全肾AI·Expert完成理论梳理、文献综合和全文撰写。
一个人类定义了方向和判断标准。一个AI执行了分析和写作。人类做了AI做不了的(方向和判断)。AI做了人类做不了的(大规模信息综合和结构化表达)。
这篇文章的写作过程本身,就是文章论点的一个注脚。
(完)
夜雨聆风