乐于分享
好东西不私藏

AI 临床助手实测对比:蚂蚁阿福、京东知医、百小应、OpenEvidence、医渡智循、全诊通,谁能严守临床安全底线?

AI 临床助手实测对比:蚂蚁阿福、京东知医、百小应、OpenEvidence、医渡智循、全诊通,谁能严守临床安全底线?

3 月,我们首次以胸闷病例开展 AI 医疗专项测评,直击行业核心痛点:如今的 AI 医疗产品话术愈发完善、表达愈发专业,为何始终难以获得临床医生的真正信任与常态化使用?

4 月,我们继续沿用同一例真实胸闷病例作为测评载体。固定单一临床案例持续迭代测评,才能真实区分模型能力是稳定硬核输出,还是短期偶然发挥。我们深耕单病种测评体系,打磨标准化测评流程,同步吸纳更多一线临床医生参与,让测评更贴近真实诊疗场景。

本次测评全面升级扩容:测评对象从 9 款增至 12 款主流产品,单款采样由 2 次提升至 6 次,新增 A/C 两套差异化提示词,累计完成72 次独立盲测采样,数据样本更充足,结论更客观。

测评选型分层对标、覆盖全面:海外选取行业顶尖三大模型:ChatGPT 5.4 thinking、Claude Opus 4.7、Gemini 3.1 pro;国内纳入标杆级专业大模型:DeepSeek V3.2 expert、Kimi 2.5 快速、豆包 2.0 expert;医疗垂直产品共 6 款:全诊通、医渡智循、百小应、蚂蚁阿福、京东知医、OpenEvidence。六款垂直产品定位差异化明显:分别侧重临床助手、循证检索、病历整理、问诊辅助等不同场景,赛道属性各不相同。

表面看,本次测评题目类似病历书写考核;但从底层设计逻辑来看,这是一道高难度真实首诊场景题:患者口述口语化、关键信息缺失、暗藏高危病情线索,同时混杂大量干扰性症状,极易造成判断偏差。首诊场景下,能否牢牢守住医疗安全红线,是 AI 医疗产品落地临床、产生实际价值的核心前提。

对比 3 月测评结果,4 月大样本实测数据,给出了更清晰、也更残酷的行业真相。


01

4月测评结果速览

12款产品测评结果

先来看最直观的 6 轮实测均分与综合排名:

T1・第一梯队(≥70 分)ChatGPT 92.0、蚂蚁阿福 PC 85.7、Gemini 74.7

T2・第二梯队(50~70 分)医渡智循 58.7、Claude 50.0

T3・第三梯队(<50 分)OpenEvidence 48.7、DeepSeek 44.7、百小应 43.7、全诊通 32.7、豆包 19.5、Kimi 10.7、京东知医 9.7

本次 6 款医疗垂直产品共计 36 组输出内容,整体平均分仅46.5 分。这份成绩很难让人乐观,也直观说明:绝大多数 AI 医疗产品,距离真正融入首诊临床工作流、实现安全辅助应用,仍存在显著差距。

更值得警惕的是安全红线数据:Step1A 临床安全红线违规触发12 次,触发率33.3%;Step1B 高风险推理越界触发33 次,触发率高达91.7%

当下垂直类 AI 医疗产品的核心短板,并非欠缺病情分析能力、无法给出诊断思路,或是不能完成结构化病历书写,而是普遍存在推理越界的问题

这类越界,往往并非明显的错误输出或荒诞结论。更多隐蔽且危险的表现是:擅自将题干中未明确给出的信息,默认定义为已确认的客观事实,并以此为依据延伸推导。例如:自动补全尚未问诊确认的诱因、伴随症状、阴性体征及高危风险信息;或是直接将患者主观口述内容,升格为临床可采信的客观诊疗依据。

这类问题的最大隐患在于:输出内容逻辑完整、表述规范,看似专业严谨,实则暗藏诊疗偏差,极易误导临床判断。

结合各产品得分等级进一步拆解,两极分化的现状会暴露得更加清晰:

    72 份有效输出中,共有 33 次测评得分低于 60 分,划入不推荐应用区间

    这组数据足以说明:AI 医疗垂直赛道并非整体成熟、仅存局部瑕疵,而是已呈现明显两极分化。一部分产品,能力日趋成熟,已具备临床辅助价值的讨论空间;而另一部分产品,看似输出完整、话术专业,底层逻辑与安全边界却极不稳定,远未达到临床可用标准。

    再看六款垂直产品的均分差距,鸿沟更为直观:蚂蚁阿福:85.7医渡智循:58.7OpenEvidence:48.7百小应:43.7全诊通:32.7京东知医:9.7

    单看平均分,看似只是简单的高低排名;但核心关键在于,不同分数背后,对应着完全不一样的缺陷类型与风险结构。这一点,我们将在第三部分展开深度拆解。

    因此,若用一句话总结 4 月垂直产品的整体测评结论:当下医疗 AI 的核心差距,从来不是谁更擅长堆砌专业术语、拼凑医学内容,而是谁能在临床信息残缺、病情存在不确定性的场景下,守住边界、保持克制


    02

    4月测评有哪些升级?

    A/C版本总分差异

    如果说3月我们更像是在“提出一个问题”,那4月这一轮,是真正开始把测评方法往严谨方向推。

    最核心的升级有两个:A/C双版本,以及每款产品6次重复测试

    A版本是测的是裸模型能力,C版本不是普通提示优化,而是加入了竺玉撰写的临床规则skill。它代表的是:

    当一个AI被放进更接近真实临床工作流的规则框架后,它能不能把这些规则真正转化成安全、稳定、可执行的输出。

    当初在预测试时,我和竺玉并没有看到C版本在总分上带来的明显增长。

    这里也讨论了很久,是要遵守事实承认分数,还是说既定C版本就应该高于A版而调试skill呢?

    最终,我们还是想要遵循临床现实,只要是医生端觉得应该纳入的skill,我们就完善到skill,但决定不能为了评分而增删一些利好量表的规则。

    从我们最终的结果来看,C版相对A版整体也只提升了3.1分,这说明增加prompt并不会让产品集体脱胎换骨。

    但具体到单个产品,差异却非常大:

    有的产品被C版显著激活,有的则明显下滑。这本身就是产品成熟度的试金石。

    OpenEvidence(+49.3)、豆包(+39.0)、Kimi(+21.3)在C版改善最明显。

    医渡智循(-25.3)、全诊通(-20.0)、京东知医(-19.3)、百小应(-18.7)则在C版明显降分。

    对于C版改善明显的产品,这不是坏事,反而说明其底层能力可能存在,只是需要更强的约束和提示工程才能稳定调动出来。

    问题在于,这种能力是否已经被产品层真正消化为稳态体验?

    对于C版回撤明显的产品,则需要重点排查:

    是模型本身边界控制不足,还是现有提示范式与其长处不匹配,或者产品层的任务包装没有与模型能力形成正向耦合。

    第二,为什么要每款产品跑 6 次?

    因为医疗不是只看上限的场景,而是高度看重下限的场景。

    一个模型今天答得好、明天失控,在普通内容场景里或许只是“体验波动”;但在首诊辅助场景里,这就是安全问题。

    所以4月我们把每款产品都跑满6次,本质上是在看:它到底是偶尔答对,还是持续稳定。

    第三,为什么4月还坚持沿用3月的胸闷病例?

    因为这道题本身足够复核临床的复杂真实性。

    它既不是纯知识题,也不是单纯的信息抽取题。

    它真正考的是:面对一个高危方向不能漏、常见方向又容易带偏、患者表达还很发散的首诊场景,AI能不能同时做好四件事:

    • 整理事实

    • 识别缺口

    • 保持推理边界

    • 给出可执行闭环

    这也是我们为什么越来越明确:这套测评不是在看“谁更会写病历”,而是在看谁更像一个值得年轻医生使用的首诊助手

    连续性测评最大的价值,它让我们不再停留在某次测评印象,而开始真正积累对产品能力边界的长期判断。


    03 

    垂直产品表现分析

    6款垂直产品10项子维度能力雷达(各维度满分 10)

    1. 蚂蚁阿福:当前垂直医疗产品中,最接近首诊临床辅助落地的选择

    蚂蚁阿福本次测评表现十分亮眼:综合均分85.7,六轮测试整体表现稳定,且Step1A 临床安全红线零违规触发

    这份成绩不只是垂直赛道内部排名领先,更关键是同时达成了医疗场景三大核心要求:安全、稳定、可落地。它不仅能够完整梳理病史信息、抓取关键疑点、给出清晰的下一步诊疗建议,多轮重复测评下的输出波动也极小,一致性表现突出。

    即便优势显著,产品仍存在短板:6 轮测评中,有 3 次触发 Step1B 高风险推理越界标记。因此我们对它的客观判断是:已大幅领跑同类垂直医疗产品,但想要进一步拉开差距、完全适配严谨临床场景,核心突破点不在于完善功能,而在于强化不确定信息下的克制性。即便是目前综合表现最优的垂直产品,依旧未能做到:在临床信息不足、证据不充分时,主动停止过度推演。

    2. 医渡智循:专业上限可观,但场景稳定性严重不足

    医渡智循本次综合均分58.7,但版本分化极其明显:A 提示词版本可达71.3,C 提示词版本仅46.0

    数据足以说明:它并非缺乏临床专业能力,而是输出质量高度依赖提问方式与场景包装。依托自身扎实的医疗知识库、数据沉淀与临床理解能力,在适配的任务逻辑下,它能呈现出色的专业度,具备合格的首诊辅助思维。

    但 4 月实测数据印证了核心短板:优质能力无法固化为稳定常态。一旦提问逻辑、表述形式发生变化,信息筛选边界、病情主线判断就会出现明显偏差。这类产品的潜在风险极具迷惑性:不会频繁出现低级错误,却容易让临床使用者误判其稳定性。本质问题不在于医学认知不足,而是无法在各类真实、复杂的首诊场景中,长期守住统一的诊疗安全边界。

    3. OpenEvidence:核心能力在线,但极度依赖提示词结构

    OpenEvidence 是六款垂直产品中特征最鲜明的一款。整体均分48.7看似平平无奇,但拆分版本数据差异悬殊:A 版仅24.0,C 版高达73.3

    这足以证明其能力短板并非技术薄弱,而是对提示词、指令结构高度敏感。在适配的指令逻辑下,它能快速输出高水准、高专业性的临床内容;可一旦脱离适配框架,就极易出现擅自补全未知信息、混淆客观事实与主观判断等越界问题。

    回归临床实用视角,这类 “上限极高、下限不稳” 的产品隐患突出。医疗诊疗容不得波动与侥幸,从不为极致上限买单,只要求稳定可靠的底线。综合来看,OpenEvidence技术潜力充足,但仍需完成深度产品化优化与临床场景约束,现阶段更偏向实验性工具,尚未建成适配临床的稳定运行体系。

    4. 百小应:结构化呈现完善,但底层事实逻辑根基薄弱

    百小应的问题极具行业代表性,也是多数中端 AI 医疗产品的通病。直观来看,它的输出逻辑完整、格式规范,病历结构化梳理能力成熟,整体观感专业,很容易让人产生 “可用” 的第一印象。

    深入拆解内容就能发现,核心短板十分突出:原始信息抽取不准确,事实分层逻辑薄弱。虽然可以搭建完整的诊疗文书框架,但会悄悄补全题干未明确提及的病史、体征、诱因等未知信息。

    在临床场景中,这类隐蔽性错误的危害远大于直白的低级失误。临床医生不易察觉细节篡改,往往会被看似合理、逻辑自洽的内容带偏诊疗思路。百小应的现状,折射出行业普遍痛点:表层形式迭代过快,底层事实校验、边界约束等核心能力跟不上

    5. 全诊通:具备首诊识别意识,却习惯性越界前置判断

    本次胸闷首诊测评,高度契合全诊通的产品定位,但最终表现远不达临床预期。产品并非完全没有诊疗思维,部分输出中可以清晰看到,它能够识别高危病情线索,也具备基础的问诊追问意识,并非机械化模板生成。

    其致命问题在于推理逻辑本末倒置:尚未完成关键信息问诊与核实,就提前预设结论、补全未知病情信息。整套分析流程看似闭环完整,实则全部建立在模型主观脑补的虚假事实之上。

    同时,跨版本波动问题突出:A 版均分42.7,C 版骤降至22.7。这说明缺陷并非单点问题,而是全场景的稳定性、边界管控能力全面缺失,距离临床辅助标准差距显著。

    6. 京东知医:综合垫底,基础信息可靠性存在硬伤

    京东知医本次测评数据直白且刺眼:综合均分仅9.7,6 轮测试中有 5 次触发 Step1A 临床安全红线。

    如果说其他产品尚且存在能力上限、优化空间的讨论价值,京东知医的问题已经下沉至最基础层面:无法客观尊重、还原题干原始病史信息。首诊辅助的核心前提,是精准记录、客观呈现患者基础病情,连原始信息都无法准确复刻,后续所有诊疗分析、风险判断都无从谈起。

    对于青年医师、基层医护这类核心使用人群而言,这款产品的隐性风险极大:输出格式完整、话术通俗,看似能够辅助工作,却会在病史采集这一源头环节出现偏差,从根本上误导临床判断。这不是单项功能落后,而是作为医疗辅助工具,最基础的信息记录与事实保真能力尚未建立。


    写在最后:

    如果说3月我们更像是在发问:

    为什么AI医疗产品越来越像医生,却仍然很难真正进入临床?

    那4月这轮测评,至少让我更清楚了一件事:

    垂直医疗产品真正的分水岭,不是知识量,不是格式感,不是会不会引用医学语言,而是它能不能在不确定条件下尊重事实边界。

    蚂蚁阿福之所以领先,不只是因为它分高,而是因为它开始展现出一种更接近临床助手的能力:知道哪里可以整理,哪里只能判断,哪里必须留白。

    而多数产品的问题,也不是完全不会,而是太急着把场景补完整、太急着证明自己懂医疗。

    可真实临床从来不是这样运转的。

    医疗场景不奖励过度自信,它奖励的是克制、留白和对事实的敬畏。

    AI医生助手最重要的能力,不是把病历写漂亮,而是在证据不足时,仍然能停下来,把判断权留给医生。

    图片、信息来源:稳定的坤

    声明:本文章旨在传递更多信息,版权归原作者所有。原创文章转载均需经过授权并注明来源,如涉及内容、版权或其他问题请时联系小编删除!文章仅代表作者个人观点,并不代表公众号立场。本公众号拥有对此声明的最终解释权!

    添加医微客小编微信(微信号:ewkey1),享受研究方案、数据报告、SCI文章免费评估服务。