乐于分享
好东西不私藏

OpenAI 的 99.6% 医疗准确率,到底藏了多少“水分”?

OpenAI 的 99.6% 医疗准确率,到底藏了多少“水分”?

近期,OpenAI 医疗版 Clinicians 模型正式推出,以99.6% 医生认可准确率作为核心宣传点,依靠数千名执业医师组成评审团队,完成超 70 万条临床对话人工校验,试图树立 “安全、精准、可临床落地” 的 AI 标杆。
但深耕医疗 AI 评测、长期跟踪临床智能辅助产品落地现状,跳出营销包装再看这组亮眼数据,第一感受并非技术突破,而是警惕。
临床医学是极度严谨的高风险领域,差之毫厘便谬以千里。超高准确率的背后,往往藏着刻意筛选的测试环境与巨大的幸存者偏差。这类温室环境下打磨出的标准化得分,一旦投入真实临床复杂场景、非结构化病历、多病共存、罕见病鉴别诊断中,真实短板会快速暴露。
本文将从底层技术逻辑、幻觉治理机制、循证边界、本土化现实痛点四个维度,客观对比三款代表性产品:OpenAI 医疗大模型、海外纯循证标杆 OpenEvidence,以及国内最贴近循证路线的医渡智循。

一、核心路线分野:人工补漏、循证思维、本土数据修正

三款产品代表当前医疗 AI 三种完全不同的发展哲学,路线差异,直接决定临床可靠性的上限。

1. OpenAI:依赖人工兜底的 “修饰型准确”

OpenAI 的解决方案直白且互联网化:通用大模型天然存在生成式幻觉、逻辑断裂、编造文献的先天缺陷,那就通过大规模医生人工审核、RLHF 人类反馈强化学习,事后修正错误、统一输出口径,用 “堆人头” 的方式拉高安全评分。
从技术本质来看:它依旧是概率生成模型,核心是语义流畅、语境贴合、回答讨好审阅者,而非严格的医学因果推演。人工审核只能修正已知、常见、标准化问题,无法弥补模型底层医学逻辑缺失,更无法覆盖疑难病、小众用药、跨专科复杂合并症等长尾场景。
放到临床视角审视,这类模型最大隐患是强置信度幻觉:输出结论逻辑通顺、表述专业、条理完整,即便内容存在偏差、禁忌遗漏、方案错配,普通医护人员也难以快速识别。标准化问答里的满分表现,掩盖不了复杂临床场景下的系统性漏洞。

2. OpenEvidence:循证宗旨,拒绝猜测的临床证据引擎

和通用大模型 “尽可能给出完整回答” 的逻辑完全相反,OpenEvidence 走的是极致克制的循证路线。放弃超大参数通用模型架构,采用检索 – 筛选 – 溯源 – 验证的模块化设计,从源头收紧数据准入:仅收录顶级同行评审期刊、权威临床指南、RCT 研究、标准化诊疗共识,全面屏蔽低质量资讯、碎片化科普、非权威观点。
它的低幻觉并非依靠事后人工修改,而是依靠硬性机制约束:无高级别文献支撑的结论,绝不主观推演;指南未覆盖的小众病症、前沿疗法,直接标注「当前缺乏明确循证证据」;所有诊疗建议、用药参考、方案解读,逐条绑定出处、证据等级与文献原文。
这种 “不懂不答、无证不言” 的克制,牺牲了回答的丰富度与流畅度,却构筑起临床决策最需要的底线安全,也是海外专科医生、临床科研领域高度认可它的核心原因。

3. 医渡智循:中国版循证体系,直面本土医疗数据乱象

行业内普遍将医渡智循定义为本土化 OpenEvidence,这个定位客观且精准。它完整借鉴了 OE 的强循证内核、RAG 证据检索、原文溯源、证据分级体系,同时直面国内医疗最现实的痛点:电子病历书写不规范、模板化复制、诊断与检验指标矛盾、术语不统一、基层诊疗路径差异大、大量碎片化 “脏数据” 长期存在。
区别于海外纯循证模型,它的核心价值不在于复刻前沿文献检索,而在于循证规则反向质控:依托本土全量卫健委诊疗规范、专科指南、国内药典、医保临床路径,对混乱、矛盾、模糊的本土病历做逻辑校验与偏差修正;在全球文献库之外,搭建完全适配国内临床习惯、用药目录、诊疗流程的本土化证据库。
这也是国产循证模型无法被海外产品替代的关键:脱离中国诊疗规范、医保政策、基层医疗现实的纯海外循证,在国内临床场景中几乎无法落地。

二、幻觉治理深度对比:低幻觉,绝不等于诊断可靠

临床 AI 评价最大误区,就是把 “幻觉率” 和 “诊断准确率” 画上等号。幻觉只代表是否编造事实、虚构文献、捏造结论;而真实临床风险,更多来自漏诊、鉴别缺失、路径固化、常见病思维定势。
维度
OpenAI 临床版
OpenEvidence
医渡智循
综合幻觉率
复杂临床场景约 5%,小众领域文献编造问题突出
<1%,机制级防编造
<1.5%,依托 MED-RAG 多层校验
治理逻辑
事后人工审核兜底,修正显性错误
源头数据严控,无证据不生成
循证规则校验 + 本土病历逻辑修正
临床短板
擅长标准化作答,疑难病例易错判、强误导
证据不足即沉默,鉴别诊断拓展性弱
受国内病历数据影响,易倾向常见病结论
OpenAI 99.6% 的高分,本质是标准化题库 + 人工筛选优化的结果,高度依赖场景限定,不具备泛化性。在单一常见病、标准化用药咨询、常规健康宣教场景下表现稳定;但面对多系统合并症、非典型症状、罕见病、复杂鉴别诊断时,概率生成的短板会集中爆发。
OpenEvidence 实现了极致低幻觉,但存在明显边界:只做证据整合,不做临床推演,遇到证据稀缺的罕见病、新兴病种,只能给出证据不足提示,无法提供鉴别思路。
医渡智循处在两者中间:依托本土化循证体系解决落地问题,却无法完全摆脱国内病历数据长期积累的偏差,容易形成 “常见病优先” 的思维固化,在罕见病早期筛查、非典型病例识别上存在天然局限。

三、正视国产医疗 AI 的现实阵痛

抛开技术营销,必须理性看待国内循证类模型的共性困境。即便医渡智循这类头部本土化循证产品,依然绕不开垃圾进、垃圾出的行业难题。
国内大量基层及通用病历存在模板化书写、被动补录、诊断模糊、关键信息缺失等问题,长期形成庞大的非标准化数据库。当 AI 训练与场景适配高度依赖院内真实数据时,不规范的诊疗记录、同质化套话、逻辑矛盾的病历内容,会潜移默化影响模型判断倾向。
循证规则可以修正显性错误,但很难彻底扭转长期数据偏置带来的思维定势。这不是单一厂商的技术问题,而是整个国内医疗数字化阶段的集体短板,也是所有国产医疗 AI 必须长期面对的现实约束。

四、行业终极共识:临床 AI,可靠远胜于全能

三款产品的对比,最终指向同一个核心结论:医疗 AI 的价值,从来不是对话流畅、全能万能、纸面高分,而是边界清晰、证据可溯、风险可控

不要被单一百分比数据绑架,超高准确率大多诞生于封闭、标准、简单的测试环境,真实临床是复杂、模糊、充满个体差异的,单一数字没有参考意义。

医学逻辑优先于交互体验,通用大模型的对话感、共情力、文本生成能力更强,但临床辅助工具的核心是严谨与安全,流畅话术不能掩盖医学逻辑的缺失。

循证是医疗 AI 不可逾越的底线。无论是海外标杆 OpenEvidence,还是本土化的医渡智循,都印证一个事实:约束越多、证据越严、克制性越强的模型,越适合深度临床应用。

本土化适配是落地的硬性前提,海外循证体系再严谨,也无法适配国内诊疗规范、用药管理、医保路径与病历体系;脱离本土临床现实的技术优势,只能停留在科研与展示层面。

总结

若用于医学科普、文书辅助、医患沟通、常规宣教,OpenAI 综合体验最优,但严禁用于核心诊疗决策;

若追求顶级循证溯源、前沿文献查证、无风险临床证据参考,OpenEvidence 是当前全球标杆;

若扎根国内真实临床、病历质控、专科辅助、院内常态化落地,医渡智循是目前国内最成熟的本土化循证解决方案。

医疗从来不是试验场,更不是数据营销的秀场。未来的临床 AI,不需要华丽的万能模型,更不需要修饰出来的完美得分。在人命关天的医疗场景里,行业真正需要的,永远是:有据可依、有错不瞒、知边界、不妄断。

如果你对于AI医疗产品有想法,有见解,或者有AI医疗的项目问题,欢迎来找我私聊