全球医疗榜第一,中国AI杀疯了!医疗AI迈入Harness时代

医疗AI圈最近炸锅了。不是因为某个模型又刷了什么考试分数，而是一份真正让医生们捏把汗的榜单——全球医疗AI排行榜DoctorBench，首期榜单刚发布，第一名不是谷歌，不是OpenAI，是一家叫智诊科技的中国公司。它的WiseDiag-v2把Gemini-3.1-Pro-Preview和GPT-5.4按在地上摩擦，直接登顶。

更狠的是，这家公司给自家医聊Agent配了一套叫Harness的治理架构。什么意思？以前AI医疗像是把一辆超跑交给新手司机，油门踩到底但没人管刹车；现在Harness相当于给这辆车装上了完整的ABS、ESP、行车记录仪，甚至还有代驾保险。医疗AI正式从"狂野生长"迈入"Harness时代"。

从"做题家"到"实战派"：医疗AI的成人礼

过去评判医疗AI，跟评判高中生差不多——看谁背的医学知识点多。MedQA、PubMedQA这些 benchmark，本质上就是开卷考试，考的是记忆力和检索速度。你让一个大模型去背《内科学》全集，它能背得比主任医师还溜，但真把它扔到急诊室，面对一个捂着肚子喊疼、病历写得像天书、化验单还缺页的患者，它可能就懵了。

DoctorBench的出现，就是为了治这种病。2026年4月30日，德适生物在香港发布这个平台，核心理念就一句话：像医生一样思考，而不是像搜索引擎一样答题。它不搞那种"请选出以下哪种药物是ACEI抑制剂"的弱治题目，而是直接把真实诊疗场景搬进来——多轮问诊、鉴别诊断、治疗方案制定、医患沟通，甚至还要考AI在面临不确定信息时会不会主动追问。

这就好比以前考驾照只考科目一（笔试），现在突然改成直接上路考科目三，还得跑高速、过隧道、处理突发状况。那些只会刷题的"做题家"模型，瞬间现原形。

DoctorBench首期全球榜单TOP3：

1. WiseDiag-v2（智诊科技）—— 中国

2. Gemini-3.1-Pro-Preview（谷歌）—— 美国

3. GPT-5.4（OpenAI）—— 美国

评测维度：安全性、准确性、交互质量、信息优先级、主动询问、证据引用、可解释推理、可执行性、个体化适配、情感支持。其中安全与准确具有"一票否决权"。

Harness时代：给医疗AI套上"缰绳"

医疗AI跟其他领域的AI有个本质区别：它容错率近乎为零。你让AI写个营销文案，写砸了最多被老板骂两句；你让AI开药，开错了可能直接把人送走。所以医疗Agent上线，光有脑子（大模型）不够，还得有Harness——一套完整的治理与监控体系。

Harness这个词原意是马具、缰绳。放在AI工程里，它指的是给智能体装上全套的"鞍鞯辔头"，让它跑得快的同时，别跑偏、别尥蹶子、别撞人。智诊科技给WiseClaw（基于WiseDiag的医疗Agent）配的四层Harness架构，堪称行业标杆。

第一层：准入与权限（敢上线）

数据脱敏、边界控制、门禁审批、权限管理。医生能看到什么，患者能改什么，AI能调哪些API，全部锁死。就像医院里的处方权，实习医生和主任医师开的权限天差地别。

第二层：审计与追溯（能交代）

证据链、Trace、回放、审计日志。AI为什么建议做CT而不是X光？它的推里链条是什么？依据哪版诊疗指南？全部留痕。万一出事，能像黑匣子一样复盘。

第三层：状态与寿命（用得久）

健康档案、状态管理、心跳引擎。Agent不是一次性问答工具，它要长期跟踪患者的慢病管理、用药依从性、复查提醒。Harness确保它不会"聊着聊着就把人忘了"。

第四层：监控与协同（管得住）

运行监控、风险看板、人机协同。AI的推理耗时、工具调用成功率、Token消耗、幻觉率，全部实时上板。一旦指标异常，自动降级或转人工。

这套体系最狠的地方在于，它把医疗AI从"实验室玩具"变成了"生产工具"。以前医元采购AI，最怕的就是"黑箱问题"——AI给建议，但没人知道它怎么想的，出了事谁担责？Harness把这事儿捋明白了：AI可以辅助决策，但每一帧推理都要可追溯、可审计、可问责。

中国军团不是一个人在战斗

智诊科技登顶DoctorBench，只是中国医疗AI爆发的一个缩影。2026年的MedBench 4.0榜单，基本被中国公司包圆了。

微医的医疗大模型在MedBench 4.0综合榜单持续领跑，而且不是那种"刷分式领跑"——它家的AI健共体已经在天津实打实跑出了数据：高血压患者血压控制率从70%提到79.5%，糖尿病患者血糖控制率从13.7%提到23.98%。更夸张的是，微医2025年上半年AI医疗服务收入占总营收九成以上，经营现金流首次转正。这说明什么？说明医疗AI不仅能看病，还能赚钱，能闭环。

数坤科技的数坤坤V3多模态医学大模型，在MedBench多模态榜单上以63.6分拿下第一，超过OpenAI和谷歌。它的杀手锏是PB级医疗数据和MDT（多学科会诊）式训练策略——让模型像真实专家会诊一样，把影像、病理、检验指标串起来看，而不是孤立地"见片猜病"。

讯飞医疗的星火医疗大模型，专科诊断合理率96%，跨科室诊断合理率91%，病例书写时间减少一半。基于它的医生助理已经覆盖全国801个区县，累计做了11亿次辅助诊断。什么概念？相当于给全国基层医院配了一个永不疲倦的"数字主任医师"。

2026年中国医疗AI核心战绩：

DoctorBench全球榜：WiseDiag-v2第一

MedBench 4.0综合榜：微医持续领跑

MedBench多模态榜：数坤V3第一

基层覆盖：讯飞医生助理801个区县、11亿次辅助诊断

肺癌早筛：谷歌DeepMind与NHS合作AI检出率99.2%

眼底读全身：AI通过视网膜预测心血管风险，AUC达0.89

哈佛急诊室的"双盲对决"：AI真的超越医生了？

就在DoctorBench发布前几天，哈佛大学医学院在《Science》上扔了一颗更大德炸弹。他们在真实急诊室里做了场双盲实验：76名真实患者，零预处理病历，AI和人类主治医生同时下诊断，然后由另外两名医生盲评——评委根本不知道哪个诊断是人写的、哪个是机器写的。

结果让人倒吸凉气。在信息最少、时间最紧的急诊分诊阶段，OpenAI的o1模型诊断准确率67%，两位人类主治医生分别是55%和50%。更离谱的是治疗方案得分：o1拿了89%，人类医生中位数只有34%。盲评医生几乎完全分不清AI和人类的输出，猜对来源的概率最低只有3.1%。

但先别急着喊"医生要失业了"。这项研究的设计者自己都说，AI目前还看不见患者的脸色、听不见呼吸声、摸不到腹部压痛。急诊医学的核心不是"猜病名"，而是"判断你会不会马上死"。这些非语言信号，AI暂时还抓不到。

不过这件事释放的信号很明确：在纯文本推理层面，AI已经超过人类医生了。未来的急诊室，大概率会变成"医生×患者×AI"的三方协作模式。AI负责在信息碎片中快速拼图，医生负责观察、触摸、共情和最终拍板。

杰文斯悖论：AI让医生更忙了

2016年，AI教父Hinton放话："别再培养放射科医生了，五年后AI会取代他们。"十年过去，梅奥诊所的放射科医生团对反而增长了55%。为什么？因为AI让影像检查变便宜了、变快了，于是医生开了更多检查，放射科医生反而更忙了。这就是经济学里的杰文斯悖论：技术提升效率，反而增加总需求。

医疗AI大概率会走同样的路。AI把基层诊疗能力提上来，原本看不上病的人现在能看上病了；AI把影像筛查成本压下去，原本做不起检查的人现在能做了。医生的绝对工作量不会减少，但工作的性质会变——从"记忆和检索"转向"判断和关怀"。

Harness是缰绳，不是枷锁

很多人听到"治理""监控""审计"这些词，本能地觉得这是给AI套枷锁、拖慢创新。恰恰相反，Harness是医疗AI大规模落地的前提条件，而不是绊脚石。

你想想看，医院采购一套AI系统，院长最关心什么？不是这玩意儿能不能通过考试，而是出了事谁担责、能不能追溯、合不合规、能不能过审。Harness解决的就是这些问题。它让医院"敢用"，让医生"敢信"，让患者"敢问"。

智诊科技的WiseClaw之所以能在DoctorBench登顶，不只是因为WiseDiag模型底子硬，更因为它在Harness层面做了全套准备。权限管理、数据脱敏、证据链、风控策略，这些"看不见的能力"才是它能从实验室走进医院的核心竞争力。

对于想入局医疗AI的开发者来说，这是个明确的信号：2026年，拼模型参数的时代正在过去，拼工程化、拼治理体系、拼落地闭环的时代正在到来。如果你还在埋头刷榜，可能方向已经偏了。

当然，医疗AI的水很深，从模型训练到Harness部署，从合规审批到临床验证，每一步都是坑。如果你想系统性地了解这套技术体系——从底层原理到最新的Harness工程实践，从Prompt设计到Agent监控——建议去 https://captainbed.cn/gz 看看。这上面从AI基础数学到医疗Agent实战，梳理得相当扎实，比碎片化刷文章效率高得多。

写在最后

中国AI医疗这次登顶全球榜单，不是偶然，是厚积薄发。从微医的场景深耕，到数坤的多模态突破，再到智诊科技的Harness治理，中国公司正在定义下一代医疗AI的标准。

Harness时代的本质，是让AI医疗从"能跑"变成"敢跑、能跑远、跑出事能追责"。这条路不好走，但值得走。毕竟，我们交给AI的不仅是数据，还有命。