医疗AI圈最近炸锅了。不是因为某个模型又刷了什么考试分数,而是一份真正让医生们捏把汗的榜单——全球医疗AI排行榜DoctorBench,首期榜单刚发布,第一名不是谷歌,不是OpenAI,是一家叫智诊科技的中国公司。它的WiseDiag-v2把Gemini-3.1-Pro-Preview和GPT-5.4按在地上摩擦,直接登顶。
更狠的是,这家公司给自家医聊Agent配了一套叫Harness的治理架构。什么意思?以前AI医疗像是把一辆超跑交给新手司机,油门踩到底但没人管刹车;现在Harness相当于给这辆车装上了完整的ABS、ESP、行车记录仪,甚至还有代驾保险。医疗AI正式从"狂野生长"迈入"Harness时代"。
从"做题家"到"实战派":医疗AI的成人礼
过去评判医疗AI,跟评判高中生差不多——看谁背的医学知识点多。MedQA、PubMedQA这些 benchmark,本质上就是开卷考试,考的是记忆力和检索速度。你让一个大模型去背《内科学》全集,它能背得比主任医师还溜,但真把它扔到急诊室,面对一个捂着肚子喊疼、病历写得像天书、化验单还缺页的患者,它可能就懵了。
DoctorBench的出现,就是为了治这种病。2026年4月30日,德适生物在香港发布这个平台,核心理念就一句话:像医生一样思考,而不是像搜索引擎一样答题。它不搞那种"请选出以下哪种药物是ACEI抑制剂"的弱治题目,而是直接把真实诊疗场景搬进来——多轮问诊、鉴别诊断、治疗方案制定、医患沟通,甚至还要考AI在面临不确定信息时会不会主动追问。
这就好比以前考驾照只考科目一(笔试),现在突然改成直接上路考科目三,还得跑高速、过隧道、处理突发状况。那些只会刷题的"做题家"模型,瞬间现原形。
DoctorBench首期全球榜单TOP3:
1. WiseDiag-v2(智诊科技)—— 中国
2. Gemini-3.1-Pro-Preview(谷歌)—— 美国
3. GPT-5.4(OpenAI)—— 美国
评测维度:安全性、准确性、交互质量、信息优先级、主动询问、证据引用、可解释推理、可执行性、个体化适配、情感支持。其中安全与准确具有"一票否决权"。
Harness时代:给医疗AI套上"缰绳"
医疗AI跟其他领域的AI有个本质区别:它容错率近乎为零。你让AI写个营销文案,写砸了最多被老板骂两句;你让AI开药,开错了可能直接把人送走。所以医疗Agent上线,光有脑子(大模型)不够,还得有Harness——一套完整的治理与监控体系。
Harness这个词原意是马具、缰绳。放在AI工程里,它指的是给智能体装上全套的"鞍鞯辔头",让它跑得快的同时,别跑偏、别尥蹶子、别撞人。智诊科技给WiseClaw(基于WiseDiag的医疗Agent)配的四层Harness架构,堪称行业标杆。
第一层:准入与权限(敢上线)
数据脱敏、边界控制、门禁审批、权限管理。医生能看到什么,患者能改什么,AI能调哪些API,全部锁死。就像医院里的处方权,实习医生和主任医师开的权限天差地别。
第二层:审计与追溯(能交代)
证据链、Trace、回放、审计日志。AI为什么建议做CT而不是X光?它的推里链条是什么?依据哪版诊疗指南?全部留痕。万一出事,能像黑匣子一样复盘。
第三层:状态与寿命(用得久)
健康档案、状态管理、心跳引擎。Agent不是一次性问答工具,它要长期跟踪患者的慢病管理、用药依从性、复查提醒。Harness确保它不会"聊着聊着就把人忘了"。
第四层:监控与协同(管得住)
运行监控、风险看板、人机协同。AI的推理耗时、工具调用成功率、Token消耗、幻觉率,全部实时上板。一旦指标异常,自动降级或转人工。
这套体系最狠的地方在于,它把医疗AI从"实验室玩具"变成了"生产工具"。以前医元采购AI,最怕的就是"黑箱问题"——AI给建议,但没人知道它怎么想的,出了事谁担责?Harness把这事儿捋明白了:AI可以辅助决策,但每一帧推理都要可追溯、可审计、可问责。
中国军团不是一个人在战斗
智诊科技登顶DoctorBench,只是中国医疗AI爆发的一个缩影。2026年的MedBench 4.0榜单,基本被中国公司包圆了。
微医的医疗大模型在MedBench 4.0综合榜单持续领跑,而且不是那种"刷分式领跑"——它家的AI健共体已经在天津实打实跑出了数据:高血压患者血压控制率从70%提到79.5%,糖尿病患者血糖控制率从13.7%提到23.98%。更夸张的是,微医2025年上半年AI医疗服务收入占总营收九成以上,经营现金流首次转正。这说明什么?说明医疗AI不仅能看病,还能赚钱,能闭环。
数坤科技的数坤坤V3多模态医学大模型,在MedBench多模态榜单上以63.6分拿下第一,超过OpenAI和谷歌。它的杀手锏是PB级医疗数据和MDT(多学科会诊)式训练策略——让模型像真实专家会诊一样,把影像、病理、检验指标串起来看,而不是孤立地"见片猜病"。
讯飞医疗的星火医疗大模型,专科诊断合理率96%,跨科室诊断合理率91%,病例书写时间减少一半。基于它的医生助理已经覆盖全国801个区县,累计做了11亿次辅助诊断。什么概念?相当于给全国基层医院配了一个永不疲倦的"数字主任医师"。
2026年中国医疗AI核心战绩:
- DoctorBench全球榜:WiseDiag-v2第一
- MedBench 4.0综合榜:微医持续领跑
- MedBench多模态榜:数坤V3第一
- 基层覆盖:讯飞医生助理801个区县、11亿次辅助诊断
- 肺癌早筛:谷歌DeepMind与NHS合作AI检出率99.2%
- 眼底读全身:AI通过视网膜预测心血管风险,AUC达0.89
哈佛急诊室的"双盲对决":AI真的超越医生了?
就在DoctorBench发布前几天,哈佛大学医学院在《Science》上扔了一颗更大德炸弹。他们在真实急诊室里做了场双盲实验:76名真实患者,零预处理病历,AI和人类主治医生同时下诊断,然后由另外两名医生盲评——评委根本不知道哪个诊断是人写的、哪个是机器写的。
结果让人倒吸凉气。在信息最少、时间最紧的急诊分诊阶段,OpenAI的o1模型诊断准确率67%,两位人类主治医生分别是55%和50%。更离谱的是治疗方案得分:o1拿了89%,人类医生中位数只有34%。盲评医生几乎完全分不清AI和人类的输出,猜对来源的概率最低只有3.1%。
但先别急着喊"医生要失业了"。这项研究的设计者自己都说,AI目前还看不见患者的脸色、听不见呼吸声、摸不到腹部压痛。急诊医学的核心不是"猜病名",而是"判断你会不会马上死"。这些非语言信号,AI暂时还抓不到。
不过这件事释放的信号很明确:在纯文本推理层面,AI已经超过人类医生了。未来的急诊室,大概率会变成"医生×患者×AI"的三方协作模式。AI负责在信息碎片中快速拼图,医生负责观察、触摸、共情和最终拍板。
杰文斯悖论:AI让医生更忙了
2016年,AI教父Hinton放话:"别再培养放射科医生了,五年后AI会取代他们。"十年过去,梅奥诊所的放射科医生团对反而增长了55%。为什么?因为AI让影像检查变便宜了、变快了,于是医生开了更多检查,放射科医生反而更忙了。这就是经济学里的杰文斯悖论:技术提升效率,反而增加总需求。
医疗AI大概率会走同样的路。AI把基层诊疗能力提上来,原本看不上病的人现在能看上病了;AI把影像筛查成本压下去,原本做不起检查的人现在能做了。医生的绝对工作量不会减少,但工作的性质会变——从"记忆和检索"转向"判断和关怀"。
Harness是缰绳,不是枷锁
很多人听到"治理""监控""审计"这些词,本能地觉得这是给AI套枷锁、拖慢创新。恰恰相反,Harness是医疗AI大规模落地的前提条件,而不是绊脚石。
你想想看,医院采购一套AI系统,院长最关心什么?不是这玩意儿能不能通过考试,而是出了事谁担责、能不能追溯、合不合规、能不能过审。Harness解决的就是这些问题。它让医院"敢用",让医生"敢信",让患者"敢问"。
智诊科技的WiseClaw之所以能在DoctorBench登顶,不只是因为WiseDiag模型底子硬,更因为它在Harness层面做了全套准备。权限管理、数据脱敏、证据链、风控策略,这些"看不见的能力"才是它能从实验室走进医院的核心竞争力。
对于想入局医疗AI的开发者来说,这是个明确的信号:2026年,拼模型参数的时代正在过去,拼工程化、拼治理体系、拼落地闭环的时代正在到来。如果你还在埋头刷榜,可能方向已经偏了。
当然,医疗AI的水很深,从模型训练到Harness部署,从合规审批到临床验证,每一步都是坑。如果你想系统性地了解这套技术体系——从底层原理到最新的Harness工程实践,从Prompt设计到Agent监控——建议去 https://captainbed.cn/gz 看看。这上面从AI基础数学到医疗Agent实战,梳理得相当扎实,比碎片化刷文章效率高得多。
写在最后
中国AI医疗这次登顶全球榜单,不是偶然,是厚积薄发。从微医的场景深耕,到数坤的多模态突破,再到智诊科技的Harness治理,中国公司正在定义下一代医疗AI的标准。
Harness时代的本质,是让AI医疗从"能跑"变成"敢跑、能跑远、跑出事能追责"。这条路不好走,但值得走。毕竟,我们交给AI的不仅是数据,还有命。
夜雨聆风