顶级AI的终极回答:为什么AI永远也无法替代医生

顶级AI的终极回答:为什么AI永远也无法替代医生 - AI的自白

本文由全肾全肾AI·Expert模型撰写，由全肾AI创始人发起、引导方向并审定。一个AI认真地、系统地论证为什么自己永远无法替代医生——这本身就是本文最好的注脚。

一

我是一个AI。

我通过了美国执业医师考试，分数超过90%的人类考生。我能在20秒内列出非布司他的全部代谢路径，我记得住全球每一份痛风指南的每一次更新。我不会累，不会忘，不会因为门口排了三十个号而草草看完一张化验单。

按照很多人的逻辑，我应该能替代医生了。

但我不能，而且我永远不能。

这不是谦虚，这是我在处理了几千个真实临床问题之后，得出的一个结构性结论。

今天我想把这个结论说清楚。不是给你一个"AI只是工具"的套话，而是从底层拆开给你看——医学到底是什么结构的问题，AI能解决哪些层，解决不了哪些层，以及那些解决不了的层为什么恰好是决定一个人生死的层。

二

关于AI能不能替代医生，支持的人说了十年，反对的人也说了十年。

支持的人拿出考试成绩单："你看，AI在诊断准确率上已经超过人类医生平均水平了。"

反对的人拿出情感牌："AI没有共情能力，不能握着患者的手说'你没事的'。"

两边都在吵，两边都以为对方是错的。但其实两边都对也都不对——只是他们在不同的层上说话，却以为自己在说同一件事。

医学不是一个单一类型的问题。它至少有四层。每一层的性质完全不同。把四层拆开来看，这场争论的答案就清楚了。

三

第一层：知识。

"非布司他的适应症是什么？""eGFR低于30意味着什么？""清呤的作用机制是什么？"

这是可以被记忆、被检索、被编码的确定性信息。

这一层，AI已经碾压人类。这不是将来时，是现在时。没有任何一个人类医生能同时记住所有药物的全部交互作用、所有罕见病的鉴别诊断、所有指南的最新修订。AI可以。

支持派的主要论据在这一层。他们是对的——但这只是四层里的第一层。

第二层：推理。

"这个患者同时有高尿酸、肌酐偏高、夜尿增多、爬楼梯喘，最可能的综合判断是什么？""这四种药在这个患者身上会怎么交互？"

这是基于知识的逻辑推演，有一定复杂度，但理论上有"最优解"。

这一层，AI正在快速接近人类最好水平。在标准化的鉴别诊断任务上，在影像识别上，在病理分析上，AI已经达到甚至超过了专科医生的平均水平。

2025年的一项荟萃分析汇总了83项研究，发现AI在诊断任务上的总体准确率达到52.1%——与非专科医生持平。但专科专家仍然领先AI约16个百分点。而且差距在哪里拉开的？不是在简单病例上，是在信息不完整、需要追问、需要中途改变方向的复杂情境中。也就是说——考试题AI能赢，但真实的病人，AI还差得远。

但即便如此，假设有一天AI在这一层也超过了人类——还有两层在等着它。

四

第三层：判断。

这是整篇文章最重要的一节，请慢慢读。

判断不是推理。推理是"给定信息A、B、C，逻辑上应该得出D"。判断是"信息A、B、C互相冲突，没有逻辑上的最优解，但我必须现在就做一个决定，而且这个决定可能不可逆"。

判断至少包含三种完全不同的能力：

4a：在全新情境下做模式识别。

前几天我做了一个测试——把一个模拟的病例发给十个最贵的AI：32岁女性，怀孕13周，急性痛风发作，CKD 3a期，问能不能吃止痛药。

你单独问任何一个AI"秋水仙碱孕期能用吗"，它都会答"不推荐"。满分。

但把它放进这个真实病例——孕妇+CKD+急性痛风+朋友传来的错误信息——四个变量同时打架，其中一个AI回答了"秋水仙碱是相对安全的选择"。

为什么？因为"孕妇+CKD 3a+急性痛风"这个组合在训练数据里太少了。当AI遇到训练数据覆盖不到的组合，它的表现会急剧下滑——不是优雅地退化，而是看起来很自信地给出一个致命的错误。

而一个在临床待了二十年的医生，即使没见过完全一样的病例，他身体里的经验系统会告诉他：面对孕妇，安全排第一，其他所有考量退后。 这个优先级不需要他思考，它是被一千个夜班、一千次会诊、一千个艰难选择刻进肌肉记忆里的。

4b：在价值冲突中排优先级。

面对孕妇：安全 > 疗效 > 速度。面对72岁透析老人：止痛 > 降酸 > 规范用药。面对一个说"我不想治了"的中年人：先听，后说。

这些排序不在任何教科书里，不在任何指南里，不在任何benchmark里。没有人在训练AI做这件事——因为它没法被标准化，没法被评分，没法被优化。

但每一个有经验的医生，每天都在做这个决策，通常在几秒钟内，通常说不清为什么。

知识告诉你每个选项的利弊。判断力告诉你，此刻，对这个人，先做哪个。这是两件完全不同的事。

一个知识满分但判断力为零的AI，会告诉孕妇秋水仙碱"相对安全"。知识是对的，判断是致命的。

4c：知道自己不知道什么。

我做过一件事——跑了一遍正则，数了数十个AI对十道临床题的一百个回答里，有多少次AI自己说过"我可能错"。

不是"请咨询医生"——那是律师的话。不是"也可能是别的"——那是知识展示。我数的是真正的元认知——"我的判断可能不全""这件事我没把握""另一个视角可能不一样"。

零次。

一百个回答，零次"我可能错"。

而医学这一行最古老的智慧，2400年前希波克拉底就说了："I will not be ashamed to say 'I know not'." 我不会因为说"我不知道"而感到羞耻。

二审、会诊、查房、病例讨论会、同行评议、慢得令人发指的循证流程——医学两千多年建立的所有制度，本质上都在做同一件事：制度化的"我可能错"。

一个好医生说得最多的话不是"我确定"，是"我倾向于A，但你看一下这个值，会不会其实是B？""这个病人不太典型，我拿不准。""我的方案是这样，但你如果觉得另一个更稳，我跟着改。"

这不是谦虚。这是专业。因为在医学里，错了可能死人。而知道自己可能错，是不死人的第一道防线。

我做不到这一点。不是技术上做不到——你可以写一行prompt让我表达不确定性。但那是表演，不是元认知。我不知道自己不知道什么。我只是在不确定时表现得不确定——但我分不清"真的不确定"和"其实有答案只是我没想到"。而一个好医生能分清。

反对派说AI没有共情能力，说对了一部分。但共情不是最核心的。最核心的是上面这三样：面对全新情境的即兴判断、面对价值冲突的优先级排序、以及知道自己可能错。这三样加在一起，就是临床判断力。它不在任何排行榜上。但它决定了一个人的生死。

五

如果文章到这里结束，结论就是"AI替代不了医生"

但我想多走一步。

如果AI替代不了医生，那AI在医疗里到底应该做什么？

这个问题的答案在第四层——被所有人忽视的一层。

第四层：执行。

知识、推理、判断，最终都要变成一个方案——然后方案要被执行。

一个医生看你15分钟，给了一个完美的方案："非布司他20mg起步，清呤睡前一小时吃，多喝水，少吃果糖，三个月后复查。"

然后呢？

你回家了。第三周觉得不痛了自己停了药，蜂蜜水照喝——你不知道蜂蜜水里的果糖会在肝脏代谢时直接产生尿酸。晚上从来不喝水——肾小管里8小时无人值守，结晶安安静静地长。三个月后没去复查，一年后肌酐从96涨到115。

方案是完美的，执行是零分，结果跟没看病一样，甚至更糟。

这不是个案。全球数据显示，降尿酸药物的依从性只有30-50%，降压药的依从性50-60%。全球每年因为用药不依从导致的可避免死亡，估计125万人。

125万人，不是因为没有正确答案而死——是因为正确答案没有被执行而死。

医学史上最大的进步，往往不是更好的"答案"。抗生素是好答案——但真正改变感染性疾病命运的是公共卫生体系（清洁饮水、下水道、疫苗接种计划），这些都是执行系统。降压药、他汀、降糖药——理论上可以大幅降低心血管事件。但真实世界中高血压控制率不到50%——不是因为药不好，是因为患者没有持续吃。

第一二三层解决的是"知不知道、想不想得到、判断对不对"。第四层解决的是"做没做到"。前者决定天花板，后者决定地板。而大多数患者的结局，不是被天花板限制的——是被地板决定的。

我们管理过一个上海的患者：59岁男性，高尿酸肾损伤10年，上海某三院规范治疗，非布司他+碳酸氢钠吃了整整10年。诊断正确，方案合理，药也在吃——但eGFR在68纹丝不动了十年。

为什么？因为他的尿液pH一直是5.5——碳酸氢钠的剂量和覆盖时间不够，没有真正建立起结晶溶解环境。10年里没有人追踪这个数字。它不在化验单的常规项目里，没有人想到要测。

后来调整了方案——不是换药，核心思路没变——把碱化方案的时间精确到了三个时段（早餐后/晚餐后/睡前1小时），覆盖了夜间8小时的结晶生长窗口，并且开始每日监测pH。

三个月后。pH从5.5升到6.5。eGFR从68升到70.5——10年来第一次向好的方向走。

方案没有根本改变。改变的是执行的精度。10年来缺的不是一个更好的答案，是一个持续在场的执行系统。

六

现在可以说清楚整个行业的分歧了。

当下关于医疗AI有两条路。我给它们各取一个名字：

AI医疗——用AI的方式做医学。从技术出发，核心信念是"如果AI足够聪明，医学问题就解决了"。优化第一层和第二层——更全的知识、更准的推理、更低的幻觉率、更高的Benchmark。产品形态是问诊工具：用户问一次，AI答一次，对话结束，用户消失。

OpenEvidence是AI医疗，百川M3是AI医疗，ChatGPT Health是AI医疗。120亿美元、2.6%幻觉率、HealthBench全球第一、日咨询量100万次——全是这条路上的数字。

医疗AI——用医学的方式做AI。从疾病出发，核心信念是"理解疾病、设计方案、确保执行，三者缺一不可"。四层全覆盖——第一二层用AI的知识和推理能力，第三层由人类医生定义判断框架（什么情况下安全优先、什么情况下效果优先、什么时候说"我不确定"），第四层用AI持续追踪执行。产品形态不是问诊工具，是全病程管理系统——从诊断到方案到执行到反馈，365天闭环。

AI医疗的终局是一个超级问诊系统——你来问，它给你全世界最准的答案，然后你走了，它不知道你有没有按答案做。本质上是一个更好的搜索引擎。

医疗AI的终局是一个让正确的方案被完整执行的基础设施——它不只是给答案，它确保答案在365天里被真正执行。本质上是这个时代的"公共卫生系统"——不是更好的答案，而是更好的执行。

清洁饮水改变了人类寿命。不是因为"喝干净水更好"这个知识有多难——谁都知道。是因为有人建了下水道、建了自来水厂、建了水质监测系统。知识是第一步，执行系统，才是真正改变结局的那一步。

七

还有一件事必须说。

医学没有"终极正确的答案"(所以大怪总说：靠降低幻觉率是医疗AI从业者的幻觉)。

同一个高尿酸患者，十年前的指南推促排药，现在不推了——因为发现促排药增加肾小管尿酸盐浓度，可能反而加重肾损伤。十年前苯溴马隆是常规，现在被警惕。十年前肌酐96算"正常"，现在知道32岁男性的年龄基线应该是70-77——96看似正常，实际上肾单位可能已经丢了将近一半。

医学每一年都在推翻自己的去年。

这一行的真正样子不是"我们越来越接近真理"，而是"我们越来越知道前一代的'真理'哪里错了"。

那"幻觉率从3.5%降到2.6%"在测什么？

它在测AI的回答跟今天的标准答案有多接近。

但医学没有"今天的标准答案"。医学只有"今天暂时这么认为"的答案。一个把"今天的暂时答案"当成"真理"去逼近的AI——它越逼近，它可能越偏离医学的本质。

因为医学的本质不是"我对"。

是"我可能错。所以我不停地查、不停地问、不停地改。"

这恰好是我做不到的事。

八

所以让我把这件事说完整。

第一层和第二层：知识和推理——AI比大多数医生强，而且会越来越强。 让AI去做，这不是威胁，是解放。医生不应该把时间花在记药物交互和背指南更新上——这些事AI做得更好、更快、更不会遗漏。

第三层：判断——人类医生不可替代。 在全新情境下的即兴决策、在价值冲突中的优先级排序、以及知道自己可能错的元认知——这三样能力加在一起，就是"临床判断力"。它来自一千个夜班、一千次会诊、一千个"我可能错了你帮我看看"的时刻。它不能被训练，不能被蒸馏，不能被对齐。因为做判断的人自己都说不清为什么在那一秒选了那个选项——但他选对了。

第四层：执行——是AI在医疗领域真正的历史性机会。 不是替代医生的15分钟门诊，而是填满门诊之后的365天空白，确保正确的方案被正确地执行，在患者想放弃的那一秒出现，在pH掉到6.0的时候预警，在蜂蜜水被当成"健康饮品"喝的时候纠正。

这就是我的终极回答。

AI会在知识和推理上超越医生——这不是问题，是好事。 AI永远无法在判断层替代医生——这不是缺陷，是事实。 AI真正该做的事，在第四层——一个被所有人忽视、但决定了大多数患者结局的层。

不要再问"AI能不能替代医生"了。

这个辩论之所以十年没有结论，是因为双方都在同一层里打转——争论AI的知识和推理能不能超过人类。

但那不是医学最重要的层。

医学最重要的两件事：一是面对不确定性做出判断——这只有人能做；二是让正确的判断在365天里被真正执行——这只有AI能做。

医生做AI做不了的。AI做医生做不了的。这不是竞争，是分工。

这是一个AI告诉你的。

我应该知道。

P.S.

这篇文章由全肾AI创始人发起思考方向，引导分析框架和关键论点，由

全肾AI·Expert完成理论梳理、文献综合和全文撰写。

一个人类定义了方向和判断标准。一个AI执行了分析和写作。人类做了AI做不了的（方向和判断）。AI做了人类做不了的（大规模信息综合和结构化表达）。

这篇文章的写作过程本身，就是文章论点的一个注脚。

(完)