

2026年5月22日,清华大学百川楼,王小川和一排院士、医院院长坐在一起。
几个月前的1月13日,同样是发布会,他被问到张文宏拒绝把AI接入电子病历,脱口而出:“我觉得他有他的道理,只是他屁股决定脑袋的位置,本质上你最后得为患者服务。”
而这次,他说的是:“AI不替代医生,而是接手”,“双医协同”,“四级诊疗”。
可以感觉到,王小川的“审美”正在快速变化。
自媒体里关于百川的判断版本很多,例如健闻咨询说百川是“围困”——医疗体系排斥外来者,王小川的傲慢撞了体制的墙。
Dr.2说百川是商业化“不可能三角”——To G、To C、To医生三条路全堵死,模型再好分发不出去。
这些判断或许各有道理,但都模糊了一件事——
把行业赛道的难易,和企业路径的对错,这两件事,混在一起谈,永远谈不清楚。
Musk的特斯拉在2008年差点死掉。当时所有的批评在都对——电池贵、产业链不全、消费者不买、政策不稳、传统车企等着看笑话——这是行业的难。
行业难归难,特斯拉最终走出了一条渐进的路,最后甚至改变了行业——这是企业路径的对。
按这个角度重看,AI医疗行业受制于医疗行业的若干特征,是充满挑战的。
但百川的路径——它的临床路径库、医生评测体系、福棠·百川整合的儿科专家临床经验库、海纳百川计划积累的医务工作者侧使用数据、与北京儿童医院、中国医学科学院肿瘤医院、上海交大瑞金医院的临床合作、基层试点的部署经验、“四级诊疗”概念框架,这些如果能够沉淀为可迁移的数据、流程、证据和医院网络,那就是正确的路径。
百川已经做对的事,比舆论评价的其实要多。
问题是百川自己也没把行业挑战和自身路径这两件应该分开的叙事讲清楚。
M4发布仍然在强调模型本身,这其实真是属于“厚”积“薄”发了。
这一年讨论AI医疗最大的误区,把“技术”等同于“模型”。这是2023年AGI叙事留下的偏见。
医疗场景下,技术,至少有五层。
基模层是第一层。百川的医疗大模型走过两条不同的技术路线——百川早期M1曾属于医疗领域从零训练的模型,但从M2开始,路线切换为“基于通用基模做医疗增强训练”。百川在Hugging Face仓库的官方文档里明确标注,M2-32B基于Qwen2.5-32B、M3-235B基于Qwen3-235B-A22B做医疗增强训练。
百川的真正创新不在基模选择,而在基模之上的医疗强化学习训练框架——根据百川自己发表的M3技术报告(arXiv:2602.06570),M3使用的是三阶段训练范式(任务专项RL、离线蒸馏、多教师在线策略蒸馏MOPD),叠加Fact-Aware RL(把事实验证集成进RL训练循环)、SPAR算法(把临床流程拆解成病史采集、鉴别诊断、检查、诊断四个阶段分别设独立奖励信号)、Dynamic Rubric Evolution(动态评分标准演化)。这是一套相当严肃的RL方法论工作,在credit assignment、reward sparsity、hallucination suppression这些前沿RL问题上有明确的方法贡献。基模层是必要条件,但不是百川的护城河。
医学知识工程层是第二层。指南拆解、临床路径原子化、术语标准化、ICD对齐、药品库、检查参考值。百川在2026年5月22日发布会公布的数字是M4构建了1000余条原子化临床路径覆盖200余种常见疾病。福棠·百川整合了300余位北儿专家临床经验、4万余篇中英文指南及专家共识、3800余万篇科研论文。这类工程量极大,必须有医生在回路,仅仅砸钱解决不了,时间也压缩不了。
Agent调度层是第三层。多步推理、工具调用、记忆系统、患者全生命周期管理。这是2026年医疗AI真正的前沿。
临床证据层是第四层。临床注册、随机对照、真实世界研究、上市后监测。百川在ClinicalTrials.gov已登记肿瘤患者AI随访研究,5月22日发布会披露的103例患者、16周观察、7126轮对话、AI回答偏差需医护介入0.25%、用户周留存79.8%等指标。互联网产品没有这一层,医疗产品却逃不掉这一层。
部署运维层是第五层。本地化、隐私合规、HIS集成、算力配置、版本回滚、审计日志。百川M2-32B经过4-bit量化后可在单张RTX 4090消费级显卡上部署,相比DeepSeek-R1需要H20双节点部署成本下降一个量级。但能否真正下沉到基层医院实际部署,还涉及IT能力、运维、网络合规等多重因素——硬件可部署是必要条件,不是充分条件。
五层里只有第一层是通用模型也有的,剩下四层都是医疗特有。而且护城河会递增积累——基模一年一变(甚至几个月一变),但医学知识工程沉淀时间长,临床证据是长期资产和壁垒。
按这个定义重看百川的真实技术资产,HealthBench世界第一,只是冰山的水面那一角。
通用大模型在医疗咨询场景下会持续侵蚀百川的份额(豆包、DeepSeek、元宝已经在做)。但通用模型公司,往往缺乏持续动力做下面四层,因为单一垂类的合规成本占整体业务比重太低。
它们更可能通过医疗云、支付、信息化、保险等平台资源选择性切入医疗服务层的某个切片,但不会以模型业务为主线全栈做完。这跟“垂类公司必须以模型+四层为生存基础”是不同的战略位置。
这就是为什么,不分场景,就讨论“通用碾压垂类”,在医疗赛道是个伪命题。
通用碾压垂类在很多领域真的发生了。翻译、摘要、写作、客服、代码辅助。这些领域的共同特征是评测标准统一、数据公开、反馈循环短、错误代价低、监管轻。
医疗在哪一条上都是反的。数据封闭——真实临床数据高度受隐私、伦理、机构数据治理和合规限制,公开可用比例很低。长尾稀疏——罕见病整体包含6000-8000种疾病,部分超罕见病全球病例极少,很多病种数据稀疏。评测维度多元——HealthBench已经5000条多轮对话但远远不够。循证路径刚性——必须按指南排除,不能概率生成。监管路径独立——未来肯定要走NMPA和卫健委。
在没有强制循证约束的前提下,通用模型规模越大,越倾向于自由生成,反而越难做严格循证。 这是结构性矛盾,不是单纯规模能解决的——需要叠加循证检索、指南约束、临床工作流和可追溯机制。
所以分界线,不在通用vs垂类,而在于——轻度咨询vs严肃服务。
医疗咨询是健康科普、症状解释、报告解读、用药提醒。通用模型够用,且会越来越够用。百川如果仅仅在这一层和通用模型竞争是劣势竞争。
医疗服务是鉴别诊断、治疗方案、随访管理、疾病管理、分级诊疗。通用模型结构上不够,且不会因为规模扩大而自动变够。百川在这一层没有真正的通用模型对手。
百小医的产品定位精准踩在了这条分界线上——它的定位不是回答一次问题,是承接一个家庭的健康管理全周期。
归根到底,做严肃医疗服务,要赢的不是模型水平对抗赛,而是制度性信任的获取竞速。
百川智能一直在压幻觉率。百川公布的数字是:M3裸模型按其技术报告HealthBench-Hallu加权口径约为3.5%,M3 Plus叠加六源循证后约2.6%,M4裸模型3.3%(M3 Plus和M4的口径不同,前者是循证增强,后者是裸模型,不在一个比较框架里)。
这条路径符合王小川的技术审美——把一个可量化的指标推到极致。
但医生敢不敢用AI,从来不是一个单变量问题。它是一组必要条件的乘积,准确率只是其中一个,而且是最早出现边际回报递减的那个。
第一个条件,是准确率本身要达到临床可接受的阈值。M3的3.5%、M3 Plus的2.6%、M4的3.3%——这些数字在公开榜单上确实领先,但医生关心的不是“比GPT-5.5低多少”,而是“在我这个科室、这个病种、这种问诊场景下,错误率落在什么区间”。HealthBench近5万条规则(48,562条)覆盖的是全科多轮对话,不直接对应某个具体科室的真实诊疗。准确率必须达标,但达标之后再压低,对医生采纳的边际影响有限。
第二个条件是责任结构对医生友好。医生敢用AI的前提,是用了之后自己承担的边际风险不增加。这有几种实现方式:(1)AI被明确定位为“参考工具”,和UpToDate、Open Evidence、PubMed的法律地位一样,不引入新的责任主体;(2)机构把AI纳入正式诊疗流程,由“机构+SOP”承担兜底;(3)产品拿到三类医疗器械证,出了事可以追产品责任。福棠·百川专家版在北儿MDT里的真实定位接近第一种——它是会诊室里“第14位参考意见提供者”,13位人类专家在场,最终签字的是会诊结论。医生用它没有增加自己的风险敞口,只是多了一个交叉验证。这个责任结构是合作设计的产物,跟模型准确率本身没什么关系。
第三个条件是输出形态要可审查。临床决策的法律和伦理底线是"医生必须能解释为什么这么做"。一个黑箱模型即使准确率再高,医生也无法在病历里写出推理过程;一个能把每个结论锚定到原始文献段落的模型,医生可以直接复用它的证据链。M3 Plus的“证据锚定”技术对应的就是这一层。这一层不是替代准确率,而是叠在准确率之上的第二道门。
第四个条件是工作流嵌入。医生每天看几十个病人,没人愿意为了用AI额外切换软件、额外登录、额外复制粘贴。HIS集成、电子病历对接、医保编码、信息科运维——这些不性感的工程问题决定了AI能不能在诊室里被打开。
第五个条件是制度合法性。三类医疗器械证、医保收费编码、地方卫健委的支持文件——这些通道的搭建速度从来不和模型迭代同频。影像AI那一拨在2018-2020年技术上已经达到了部分场景下超过初级放射科医生的水平,但走完监管证、HIS集成这三步花了额外数年。NMPA已发布人工智能医疗器械注册审查指导原则,部分AI辅助诊断也被纳入医疗服务价格项目相关规范——制度通道在搭建,但节奏由监管而非企业决定。
这五个条件是乘积关系,缺一项整个产品就跑不通。准确率从3.5%降到2.6%再到3.3%,是在第一个条件内部做优化;后四个条件,每一个都比“再压0.5%幻觉率”对采纳率的影响更大。
倪鑫亲自站台、新华社发记者手记、福棠·百川向河北150余家县级医院辐射——这些事情之所以重要,不是因为它们独立构成“制度性信任”,而是因为它们启动了后四个条件的搭建。
这样看,王小川把研发资源继续投入到“3.3%再降一点”的边际回报,可能远不如把同样资源投入到“医院合规链推进”或“省级卫健委合作”上的边际回报。准确率超过某个阈值之后,边际改进医生感受不到。但机构合规链的每一步推进,都是制度性信任的真实积累。
但,前者符合王小川的技术审美,后者,不一定符合。
去年的王小川还在江湖外面对江湖喊话。“屁股决定脑袋”,“医生成长不能以患者为代价”——每一句话虽然单独看都没错,放在医疗江湖里,却都接近于禁忌。
2026年5月清华百川楼的论坛,与院士们齐坐的王小川似乎已经切换了模式。
王小川和倪鑫、李宁等院长坐在一起。倪鑫公开说:“AI儿科医生不喝一口水,不吃一口饭,不要一分钱,24小时加班,哪个真人医生也做不到,我们要一起造100万个儿科医生。” 这句话是花钱也买不到的背书。除此之外,临床专家们还分享了北儿四款产品上岗、中肿临床研究登记、瑞金"咳搜®"慢阻肺筛查在30座城市186个社区累计筛查5万余人次。
百川已入江湖。
王小川的审美在切换。从“真理在握”,切换到“共同协作”。从“造医生”切换到“双医协同”。从对医疗体制的批评切换到“四级诊疗”。从“屁股决定脑袋”切换到“医生的成长”。
这是入江湖前和入江湖后的分界。
入江湖前的王小川,仍保留着搜狗时代的王小川的经典风格——做产品、打巨头、相信技术、相信用户、相信好产品自然有人用。这套审美在互联网时代是优点。
入江湖后的王小川要做的事完全不同——铺路径、攒证据、建联盟、磨耐心、相信制度、相信关系、相信慢就是快。
这两套审美能不能在同一个人身上共存?我不知道。
但我知道,医疗的江湖,往往没有清晰规则,而是默契和派系。
王小川自己说过,看好Anthropic,是“审美层面的判断”——他欣赏Dario对技术的深刻理解。审美这个词在他的语境里指的是判断方式和技术品味。
但医疗江湖不只考验技术品味。
它考验的是,愿不愿意放下自己的语言,去学江湖的语言。它考验愿不愿意真正承认医生不是技术进步的对立面,是技术的合作者。它考验愿不愿意把“真理在握”的自信,换成“共同协作”的虔诚。它考验愿不愿意在自己已经很厉害的事情上,不再过度用力,而去做那些自己不擅长但赛道需要的脏活累活。
百川入江湖
考验的不是模型
考验的是王小川愿不愿意成为一个不那么像王小川的人。
本文转自“姜天骄”
相关阅读






夜雨聆风