AI的“降维打击”:从一个脑转移靶病灶的争议,看懂什么是真正的高级智慧

各位同道，大家好，我是王伟强。

作为一名在三甲医院摸爬滚打了10年，如今在新药研发一线担任临床研究医生（CRP）的老兵，这些年我一直致力于一件事：探索AI如何真正赋能我们的临床和科研。在《AI赋能医生》这本书里，我分享了不少具体的案例。

但今天，我想跳出具体的Prompt（提示词）技巧，和大家聊一个更底层、甚至有些哲学意味的话题：在这个满世界都是“聪明”大模型的时代，我们究竟该如何定义AI的“智慧”？

不知道大家有没有这种感觉：现在的AI，越来越像科室里那种“过目不忘”的规培生。你问它指南，它能倒背如流；你问它机制，它能洋洋洒洒写出几千字。可是，当你把一个真正复杂的真实世界临床问题抛给它时，它有时会给你一个“逻辑严密但结论错误”的回复。

真正的专业和智慧，不仅仅在于“完美回答问题”，更在于在回答之前，先去审视和判断“这个问题本身是否成立”。

前几天，我在推进一个肿瘤新药项目时，就真真切切地感受到了这种“降维打击”般的智慧差异。

上周，同事问我：对于入组的晚期肿瘤患者，其脑转移病灶是否适合作为靶病灶来评估肿瘤进展？

这是一个非常经典的临床实操问题。为了验证我的想法，我决定给几位顶流AI当一次“考官”。

我首先点开了百川智能的百小应（这是一款在医疗垂直领域做得相当不错的AI）。
它迅速给出了回答：“王博，根据RECIST 1.1标准，只要脑部病灶的长径≥10mm，并且近期没有经过局部放射治疗或其他手术治疗，脑转移就可以作为靶病灶。”

接着，我又把原话抛给了目前业界公认极其强大的ChatGPT 5.4。
它的回答如出一辙，依然是极其严谨地引经据典，强调“病灶需≥10mm且近期未接受局部治疗”。

这两个回答错了吗？没有。如果这是一道医学规培考试的单选题，它们都能拿满分。教科书和RECIST 1.1指南白纸黑字就是这么写的。

但作为一名有经验的CRP，我看着屏幕上的标准答案，心里总觉得不踏实。医学从来不是冷冰冰的教条叠加，临床试验的设计更需要通盘的系统性思考。

带着这种不满足，我把同样的问题，一字不差地输入给了谷歌的Gemini 3.1 Pro。

Gemini 3.1 Pro并没有急于背诵RECIST标准，而是直接对我抛出的“前提”进行了分析。它给出的核心观点是：在大多数严谨的临床研究中，脑转移通常不建议、也不适合作为靶病灶进行评估。

为什么？它的推演逻辑完美契合了新药研发的真实临床语境：

入组标准的悖论
：为了保证患者的安全，绝大多数晚期肿瘤的临床研究方案中，都会有一条硬性入组标准——患者的脑转移病灶必须在入组前稳定至少四周以上。
评估目的的冲突
：既然方案已经要求这个病灶在过去四周是“稳定”的，说明它的生物学行为在短期内发生剧烈变化的可能性已经被筛选排除了。而我们设立“靶病灶”的根本目的是什么？是为了敏锐地捕捉和评估肿瘤的进展或缩小。
最终结论
：用一个“已经被强行要求稳定”的病灶，去承担“灵敏评估疗效”的任务，这在临床逻辑上本身就是矛盾的！因此，除非遇到极端特殊情况（比如患者全身真的找不到任何其他可测量的病灶了，或者就是研究药物对脑转移的治疗作用），否则脑转移病灶只应作为非靶病灶，在随访中观察它是否依然存在，或者是否出现脑部新发病灶即可。

看完这段回复，我不得不配合Gemini 3.1 pro更专业。

各位新药研发的同道们，临床医生们，从这个小小的测试中，你们看到了什么？

百川和GPT 5.4展现的是“高级检索与逻辑推演能力”；而Gemini 3.1 Pro展现的，是真正的“临床Trialist（试验专家）的系统性思维”。它跳出了“怎么评估靶病灶”这个微观问题，站在了“临床试验整体设计与入组标准”的宏观视角，对问题的前提进行了证伪。

这给我带来了深刻的启发，甚至超越了AI工具本身的范畴。

在我们的职业生涯中，难道不也是经历着这样的蜕变吗？

初级阶段（技术员思维）
：就像那些死记硬背指南的初级CRA或年轻住院医，领导或PI提出一个问题，他们立刻翻书、查文献，给出一个“绝对正确但脱离实际”的答案。
高级阶段（专家思维）
：真正的医学专家或资深CRP，在听到一个问题时，大脑里闪过的第一个念头往往是：“你为什么要问这个问题？你的前提成立吗？这个场景在真实的临床路径中合理吗？”

在新药研发中，我们经常会陷入这种“前提错误”的陷阱。比如，我们耗费巨资设计了一个极其复杂的生物标志物（Biomarker）检测流程，却忽略了在基层医院，患者根本无法获取足够质量的活检组织；我们设计了完美的疗效终点，却忽略了患者在接受前序多线治疗后，身体根本无法耐受这样的随访频率。

能够对问题本身进行审视，判断其是否值得回答，或者指出问题背后的逻辑漏洞，这本身就是经验、专业和高级智慧的体现。

各位科研和研发一线的战友们，AI技术发展到2026年的今天，大模型早已不再是那个只能帮你改改语法、润色中式英语的辅助工具了。

当我们懂得如何去测试它们，懂得去寻找那些能够“质疑我们前提”的AI时，它们就不再是简单的百科全书，而是变成了能够与我们进行灵魂拷问的同行专家、严苛的PI，甚至是帮助我们避开研发天坑的“吹哨人”。

下次当你准备向AI提问，或者在临床会议上面对别人的提问时，不妨在心里先默念一句：“慢着，这个问题的前提，真的成立吗？”

希望今天的分享能给大家带来一点不一样的思考。如果你在临床研究或日常行医中，也遇到过类似被AI“惊艳”或者“教育”的瞬间，欢迎在评论区留言，我们一起交流。周末愉快！

推荐阅读