OpenAI 的 99.6% 医疗准确率,到底藏了多少“水分”?

近期，OpenAI 医疗版 Clinicians 模型正式推出，以99.6% 医生认可准确率作为核心宣传点，依靠数千名执业医师组成评审团队，完成超 70 万条临床对话人工校验，试图树立 “安全、精准、可临床落地” 的 AI 标杆。

但深耕医疗 AI 评测、长期跟踪临床智能辅助产品落地现状，跳出营销包装再看这组亮眼数据，第一感受并非技术突破，而是警惕。

临床医学是极度严谨的高风险领域，差之毫厘便谬以千里。超高准确率的背后，往往藏着刻意筛选的测试环境与巨大的幸存者偏差。这类温室环境下打磨出的标准化得分，一旦投入真实临床复杂场景、非结构化病历、多病共存、罕见病鉴别诊断中，真实短板会快速暴露。

本文将从底层技术逻辑、幻觉治理机制、循证边界、本土化现实痛点四个维度，客观对比三款代表性产品：OpenAI 医疗大模型、海外纯循证标杆 OpenEvidence，以及国内最贴近循证路线的医渡智循。

一、核心路线分野：人工补漏、循证思维、本土数据修正

三款产品代表当前医疗 AI 三种完全不同的发展哲学，路线差异，直接决定临床可靠性的上限。

1. OpenAI：依赖人工兜底的 “修饰型准确”

OpenAI 的解决方案直白且互联网化：通用大模型天然存在生成式幻觉、逻辑断裂、编造文献的先天缺陷，那就通过大规模医生人工审核、RLHF 人类反馈强化学习，事后修正错误、统一输出口径，用 “堆人头” 的方式拉高安全评分。

从技术本质来看：它依旧是概率生成模型，核心是语义流畅、语境贴合、回答讨好审阅者，而非严格的医学因果推演。人工审核只能修正已知、常见、标准化问题，无法弥补模型底层医学逻辑缺失，更无法覆盖疑难病、小众用药、跨专科复杂合并症等长尾场景。

放到临床视角审视，这类模型最大隐患是强置信度幻觉：输出结论逻辑通顺、表述专业、条理完整，即便内容存在偏差、禁忌遗漏、方案错配，普通医护人员也难以快速识别。标准化问答里的满分表现，掩盖不了复杂临床场景下的系统性漏洞。

2. OpenEvidence：循证宗旨，拒绝猜测的临床证据引擎

和通用大模型 “尽可能给出完整回答” 的逻辑完全相反，OpenEvidence 走的是极致克制的循证路线。放弃超大参数通用模型架构，采用检索 – 筛选 – 溯源 – 验证的模块化设计，从源头收紧数据准入：仅收录顶级同行评审期刊、权威临床指南、RCT 研究、标准化诊疗共识，全面屏蔽低质量资讯、碎片化科普、非权威观点。

它的低幻觉并非依靠事后人工修改，而是依靠硬性机制约束：无高级别文献支撑的结论，绝不主观推演；指南未覆盖的小众病症、前沿疗法，直接标注「当前缺乏明确循证证据」；所有诊疗建议、用药参考、方案解读，逐条绑定出处、证据等级与文献原文。

这种 “不懂不答、无证不言” 的克制，牺牲了回答的丰富度与流畅度，却构筑起临床决策最需要的底线安全，也是海外专科医生、临床科研领域高度认可它的核心原因。

3. 医渡智循：中国版循证体系，直面本土医疗数据乱象

行业内普遍将医渡智循定义为本土化 OpenEvidence，这个定位客观且精准。它完整借鉴了 OE 的强循证内核、RAG 证据检索、原文溯源、证据分级体系，同时直面国内医疗最现实的痛点：电子病历书写不规范、模板化复制、诊断与检验指标矛盾、术语不统一、基层诊疗路径差异大、大量碎片化 “脏数据” 长期存在。

区别于海外纯循证模型，它的核心价值不在于复刻前沿文献检索，而在于循证规则反向质控：依托本土全量卫健委诊疗规范、专科指南、国内药典、医保临床路径，对混乱、矛盾、模糊的本土病历做逻辑校验与偏差修正；在全球文献库之外，搭建完全适配国内临床习惯、用药目录、诊疗流程的本土化证据库。

这也是国产循证模型无法被海外产品替代的关键：脱离中国诊疗规范、医保政策、基层医疗现实的纯海外循证，在国内临床场景中几乎无法落地。

二、幻觉治理深度对比：低幻觉，绝不等于诊断可靠

临床 AI 评价最大误区，就是把 “幻觉率” 和 “诊断准确率” 画上等号。幻觉只代表是否编造事实、虚构文献、捏造结论；而真实临床风险，更多来自漏诊、鉴别缺失、路径固化、常见病思维定势。

维度	OpenAI 临床版	OpenEvidence	医渡智循
综合幻觉率	复杂临床场景约 5%，小众领域文献编造问题突出	＜1%，机制级防编造	＜1.5%，依托 MED-RAG 多层校验
治理逻辑	事后人工审核兜底，修正显性错误	源头数据严控，无证据不生成	循证规则校验 + 本土病历逻辑修正
临床短板	擅长标准化作答，疑难病例易错判、强误导	证据不足即沉默，鉴别诊断拓展性弱	受国内病历数据影响，易倾向常见病结论

OpenAI 99.6% 的高分，本质是标准化题库 + 人工筛选优化的结果，高度依赖场景限定，不具备泛化性。在单一常见病、标准化用药咨询、常规健康宣教场景下表现稳定；但面对多系统合并症、非典型症状、罕见病、复杂鉴别诊断时，概率生成的短板会集中爆发。

OpenEvidence 实现了极致低幻觉，但存在明显边界：只做证据整合，不做临床推演，遇到证据稀缺的罕见病、新兴病种，只能给出证据不足提示，无法提供鉴别思路。

医渡智循处在两者中间：依托本土化循证体系解决落地问题，却无法完全摆脱国内病历数据长期积累的偏差，容易形成 “常见病优先” 的思维固化，在罕见病早期筛查、非典型病例识别上存在天然局限。

三、正视国产医疗 AI 的现实阵痛

抛开技术营销，必须理性看待国内循证类模型的共性困境。即便医渡智循这类头部本土化循证产品，依然绕不开垃圾进、垃圾出的行业难题。

国内大量基层及通用病历存在模板化书写、被动补录、诊断模糊、关键信息缺失等问题，长期形成庞大的非标准化数据库。当 AI 训练与场景适配高度依赖院内真实数据时，不规范的诊疗记录、同质化套话、逻辑矛盾的病历内容，会潜移默化影响模型判断倾向。

循证规则可以修正显性错误，但很难彻底扭转长期数据偏置带来的思维定势。这不是单一厂商的技术问题，而是整个国内医疗数字化阶段的集体短板，也是所有国产医疗 AI 必须长期面对的现实约束。

四、行业终极共识：临床 AI，可靠远胜于全能

三款产品的对比，最终指向同一个核心结论：医疗 AI 的价值，从来不是对话流畅、全能万能、纸面高分，而是边界清晰、证据可溯、风险可控。

不要被单一百分比数据绑架，超高准确率大多诞生于封闭、标准、简单的测试环境，真实临床是复杂、模糊、充满个体差异的，单一数字没有参考意义。

医学逻辑优先于交互体验，通用大模型的对话感、共情力、文本生成能力更强，但临床辅助工具的核心是严谨与安全，流畅话术不能掩盖医学逻辑的缺失。

循证是医疗 AI 不可逾越的底线。无论是海外标杆 OpenEvidence，还是本土化的医渡智循，都印证一个事实：约束越多、证据越严、克制性越强的模型，越适合深度临床应用。

本土化适配是落地的硬性前提，海外循证体系再严谨，也无法适配国内诊疗规范、用药管理、医保路径与病历体系；脱离本土临床现实的技术优势，只能停留在科研与展示层面。

总结

若用于医学科普、文书辅助、医患沟通、常规宣教，OpenAI 综合体验最优，但严禁用于核心诊疗决策；

若追求顶级循证溯源、前沿文献查证、无风险临床证据参考，OpenEvidence 是当前全球标杆；

若扎根国内真实临床、病历质控、专科辅助、院内常态化落地，医渡智循是目前国内最成熟的本土化循证解决方案。

医疗从来不是试验场，更不是数据营销的秀场。未来的临床 AI，不需要华丽的万能模型，更不需要修饰出来的完美得分。在人命关天的医疗场景里，行业真正需要的，永远是：有据可依、有错不瞒、知边界、不妄断。

如果你对于AI医疗产品有想法，有见解，或者有AI医疗的项目问题，欢迎来找我私聊