实测全诊通:为什么AI写不好病历?

吕坤观察AI医疗的第121天
过去两个月,山甲实验室围绕胸闷首诊病例,对国内外12款AI大模型和医疗产品做了连续测评。
其中,排名第9的第全诊通给我的感受很复杂:本来它的定位就是AI书写病历,却在我们的首诊病例书写场景测评中呈现中等偏下水平。
它不是一款不懂医学知识的产品。
相反,它很会把患者口语整理成像样的病历,很会写现病史、既往史,也能给出相应追问和初步判断。
问题恰恰在这里,它越像一份正式病历,越容易掩盖真正的短板:事实边界把握不稳定。
这也是为什么,全诊通在【首诊病历结构化整理与医学语言转译】子项目得分上并不差,却连续两个月频频触发我们设置的风险推理预警:
它会把本应继续追问的信息,提前写成已经确认的事实,再据此展开后续推理。
为什么一款以病历书写为核心卖点的产品,会在首诊场景里反复触犯推理越界?
更进一步说,专注病历与专注患者,是否本来就存在一种容易被忽略的底层张力?
01
AI能不能套病例模版?

全诊通在测评中最大的扣分项(Step 1B),集中于它过度输出没有依据的阴性体征。
例如,在患者主诉极其碎片化、并未提供充分细节的首诊输入下,全诊通擅自补写了“无放射痛”、“无夜间阵发性呼吸困难”、“未见吞咽困难”等大量未发生的事实,并将其作为已知前提,推导后续的鉴别诊断。
在业内探讨中,有一种非常普遍的辩护逻辑:
在临床一线,医生为了效率,写病历时也在大量套用科室模板。
许多非特殊指标,医生也会直接按阴性处理。AI只是在学习并模仿医生的真实行为。
但在实际临床中,医生并不是在纯文本模态情景下看病。
患者走进诊室时的步态、面色、语速、呼吸节律、体位变化,已经通过视觉和听觉构成了某种事实依据。
医生在病历里写“无端坐呼吸”“无明显发绀”,往往不是凭空猜测,而是建立在现场观察和临床经验上的一种行政效率妥协。
而 AI 不是这样。
它面对的是有限、碎片化、语言转述、纯文本的输入,没有物理世界的观察能力。
当它写出“无放射痛”“无夜间阵发性呼吸困难”“未见吞咽困难”时,这不是基于观察得出的默认值,而是基于训练语料分布做出的概率补全。
问题更严重的地方在于,它不是补完就停,而是继续把这些补出来的阴性体征,当作 GERD、心绞痛、HFpEF 等疾病分析的依据。
所以,全诊通的产品问题在于,它会把临床文书中的模板默认值,越界迁移到了首诊推理层。
这件事在临床上为什么危险?
因为医生套模板,背后有责任兜底;AI 套模板,背后只有文本统计学概率。
前者若写错,责任主体明确;后者若写错,却极易被低年资医生直接采纳。
于是,一个原本应该服务效率的工具,就可能开始影响临床判断
02
薛翀的战略蓝图
全诊医学founder 薛翀 来源:China Daily
去年12月,全诊医学获得亿元B轮融资,创始人薛翀曾经对外描绘过一条战略路线:
既对标Abridge,也想做中国版OpenEvidence。
刨除能否对标成功来看,这个叙事其实本身并不荒唐对立。
因为从行业趋势看,两条路线本来就在靠近:
Abridge正在与UpToDate合作把临床决策支持嵌入文书工作流,
OpenEvidence原本深耕AI医学信息检索引擎,也推出了Visits功能,试图将实时证据与病历草稿融合在一个就诊工作流中。
所以,问题不在于两个方向能不能同时做,而在于:
你是不是还在用同一套生成偏好,同时优化两件互相牵制的事:完整合规的病历文书,和首诊场景下的不确定性管理。
病历质控偏好的,是结构完整、阴阳性项目齐全、少留空白。
首诊辅助偏好的,是事实绝对保真、风险优先级清晰、证据不足时必须留白。
前者天然厌恶空白,后者必须敬畏未知。
从全诊通这两个月的测评输出行为看,它显然更靠近前者。
它并不是完全不知道该问什么,相反,它经常能想到 ECG、诱发缓解因素、血糖控制、GERD 相关症状、甲状腺术后情况。
问题在于,它没有始终坚持先问,再写;更没有始终坚持先排危,再扩展。
一旦生成策略优先追求结构完整、表述饱满、像一份正式病历,它就自然会用概率学填平事实的缺口。
AI此时的文书能力已经足够强,但首诊辅助所需要的边界系统,还没有被真正建立起来。
03
为什么要用 AI 写病历?

6款垂直产品子项目雷达图 来源:穿三甲研究院
当我们跳出全诊通这一单一产品,重新审视AI病历书写这一火热的赛道时,我们必须直面一个更深刻、甚至略带刺痛感的医疗体制问题:
年轻医生在病历文书上的挣扎,究竟是在完成科室下派的行政任务,还是在期待通过这项工作得到临床思维的锻炼?
如果回到医学教育的第一性原理,写病历从来不是为了记录,而是为了重构。
患者的主诉是混乱、发散、情绪化的。年轻医生将这些噪音转化为规范的现病史,这是一个运用慢思考系统进行信息降噪、逻辑归类、鉴别诊断排查的痛苦过程。
写病历,是年轻医生构建临床逻辑闭环的专业学习过程。
然而,在当前的医疗现实中(尤其是DRG/DIP支付改革和严苛的医院等级评审下),病历的属性被刻板化了。
它变成了应对医疗纠纷的防弹衣,变成了向医保局要钱的发票单。
为了契合这些非临床的指标,年轻医生成了病历打字员,每天耗费数小时在复制粘贴、套科室模版、应付质控上。
目前AI病历书写产品,大概率卖点都是为了行政效率,而并非真能让医生专注看病,因为这经不起真实临床分析推理过程的审视。
一份看起来严密无比、实则可能暗藏幻觉的病历由AI瞬间生成时,真人未仔细审核,扫一眼便签字确认。
长此以往,医生会对疾病的边界失去敏感度。临床文书的行政工作效率与医学决策质量,在这里就会形成尖锐的人机矛盾。
写在最后:
回到全诊通本身,我们并不想简单否定这款产品。
它在病历结构化、医学语言转译、文书生成上展现出的工程能力,是值得承认的。
问题其实是当前医疗大模型一个很典型的矛盾:
生成能力越强,不代表事实边界越稳;病历越完整,也不代表首诊越安全。
当AI从文书辅助走向临床辅助时,它最需要补的,不是更多医学术语,也不是更长的鉴别诊断,而是更硬的事实纪律、更清楚的风险优先级,以及更明确的边界意识。
真正有价值的医疗 AI,不该只是一个更会写的高级打字员。
它更应该像一个克制的副驾驶:在医生遗漏时提醒,在证据不足时停下来,在高危场景里把风险排在前面,而不是替医生把未知写成已知。
唯有如此,AI 才能真正把时间还给医生。







夜雨聆风

