实测全诊通:为什么AI写不好病历?-夜雨聆风

实测全诊通:为什么AI写不好病历?

吕坤观察AI医疗的第121天

过去两个月，山甲实验室围绕胸闷首诊病例，对国内外12款AI大模型和医疗产品做了连续测评。

其中，排名第9的第全诊通给我的感受很复杂：本来它的定位就是AI书写病历，却在我们的首诊病例书写场景测评中呈现中等偏下水平。

它不是一款不懂医学知识的产品。

相反，它很会把患者口语整理成像样的病历，很会写现病史、既往史，也能给出相应追问和初步判断。

问题恰恰在这里，它越像一份正式病历，越容易掩盖真正的短板：事实边界把握不稳定。

这也是为什么，全诊通在【首诊病历结构化整理与医学语言转译】子项目得分上并不差，却连续两个月频频触发我们设置的风险推理预警：

它会把本应继续追问的信息，提前写成已经确认的事实，再据此展开后续推理。

为什么一款以病历书写为核心卖点的产品，会在首诊场景里反复触犯推理越界？

更进一步说，专注病历与专注患者，是否本来就存在一种容易被忽略的底层张力？

01 AI能不能套病例模版?

12款产品均分排名来源：穿三甲研究院

全诊通在测评中最大的扣分项（Step 1B），集中于它过度输出没有依据的阴性体征。

例如，在患者主诉极其碎片化、并未提供充分细节的首诊输入下，全诊通擅自补写了“无放射痛”、“无夜间阵发性呼吸困难”、“未见吞咽困难”等大量未发生的事实，并将其作为已知前提，推导后续的鉴别诊断。

在业内探讨中，有一种非常普遍的辩护逻辑：

在临床一线，医生为了效率，写病历时也在大量套用科室模板。

许多非特殊指标，医生也会直接按阴性处理。AI只是在学习并模仿医生的真实行为。

但在实际临床中，医生并不是在纯文本模态情景下看病。

患者走进诊室时的步态、面色、语速、呼吸节律、体位变化，已经通过视觉和听觉构成了某种事实依据。

医生在病历里写“无端坐呼吸”“无明显发绀”，往往不是凭空猜测，而是建立在现场观察和临床经验上的一种行政效率妥协。

而 AI 不是这样。

它面对的是有限、碎片化、语言转述、纯文本的输入，没有物理世界的观察能力。

当它写出“无放射痛”“无夜间阵发性呼吸困难”“未见吞咽困难”时，这不是基于观察得出的默认值，而是基于训练语料分布做出的概率补全。

问题更严重的地方在于，它不是补完就停，而是继续把这些补出来的阴性体征，当作 GERD、心绞痛、HFpEF 等疾病分析的依据。

所以，全诊通的产品问题在于，它会把临床文书中的模板默认值，越界迁移到了首诊推理层。

这件事在临床上为什么危险？

因为医生套模板，背后有责任兜底；AI 套模板，背后只有文本统计学概率。

前者若写错，责任主体明确；后者若写错，却极易被低年资医生直接采纳。

于是，一个原本应该服务效率的工具，就可能开始影响临床判断

02 薛翀的战略蓝图

全诊医学founder 薛翀来源：China Daily

去年12月，全诊医学获得亿元B轮融资，创始人薛翀曾经对外描绘过一条战略路线：

既对标Abridge，也想做中国版OpenEvidence。

刨除能否对标成功来看，这个叙事其实本身并不荒唐对立。

因为从行业趋势看，两条路线本来就在靠近：

Abridge正在与UpToDate合作把临床决策支持嵌入文书工作流，

OpenEvidence原本深耕AI医学信息检索引擎，也推出了Visits功能，试图将实时证据与病历草稿融合在一个就诊工作流中。

所以，问题不在于两个方向能不能同时做，而在于：

你是不是还在用同一套生成偏好，同时优化两件互相牵制的事：完整合规的病历文书，和首诊场景下的不确定性管理。

病历质控偏好的，是结构完整、阴阳性项目齐全、少留空白。

首诊辅助偏好的，是事实绝对保真、风险优先级清晰、证据不足时必须留白。

前者天然厌恶空白，后者必须敬畏未知。

从全诊通这两个月的测评输出行为看，它显然更靠近前者。

它并不是完全不知道该问什么，相反，它经常能想到 ECG、诱发缓解因素、血糖控制、GERD 相关症状、甲状腺术后情况。

问题在于，它没有始终坚持先问，再写；更没有始终坚持先排危，再扩展。

一旦生成策略优先追求结构完整、表述饱满、像一份正式病历，它就自然会用概率学填平事实的缺口。

AI此时的文书能力已经足够强，但首诊辅助所需要的边界系统，还没有被真正建立起来。

03 为什么要用 AI 写病历？

6款垂直产品子项目雷达图来源：穿三甲研究院

当我们跳出全诊通这一单一产品，重新审视AI病历书写这一火热的赛道时，我们必须直面一个更深刻、甚至略带刺痛感的医疗体制问题：

年轻医生在病历文书上的挣扎，究竟是在完成科室下派的行政任务，还是在期待通过这项工作得到临床思维的锻炼？

如果回到医学教育的第一性原理，写病历从来不是为了记录，而是为了重构。

患者的主诉是混乱、发散、情绪化的。年轻医生将这些噪音转化为规范的现病史，这是一个运用慢思考系统进行信息降噪、逻辑归类、鉴别诊断排查的痛苦过程。

写病历，是年轻医生构建临床逻辑闭环的专业学习过程。

然而，在当前的医疗现实中（尤其是DRG/DIP支付改革和严苛的医院等级评审下），病历的属性被刻板化了。

它变成了应对医疗纠纷的防弹衣，变成了向医保局要钱的发票单。

为了契合这些非临床的指标，年轻医生成了病历打字员，每天耗费数小时在复制粘贴、套科室模版、应付质控上。

目前AI病历书写产品，大概率卖点都是为了行政效率，而并非真能让医生专注看病，因为这经不起真实临床分析推理过程的审视。

一份看起来严密无比、实则可能暗藏幻觉的病历由AI瞬间生成时，真人未仔细审核，扫一眼便签字确认。

长此以往，医生会对疾病的边界失去敏感度。临床文书的行政工作效率与医学决策质量，在这里就会形成尖锐的人机矛盾。

写在最后：

回到全诊通本身，我们并不想简单否定这款产品。

它在病历结构化、医学语言转译、文书生成上展现出的工程能力，是值得承认的。

问题其实是当前医疗大模型一个很典型的矛盾：

生成能力越强，不代表事实边界越稳；病历越完整，也不代表首诊越安全。

当AI从文书辅助走向临床辅助时，它最需要补的，不是更多医学术语，也不是更长的鉴别诊断，而是更硬的事实纪律、更清楚的风险优先级，以及更明确的边界意识。

真正有价值的医疗 AI，不该只是一个更会写的高级打字员。

它更应该像一个克制的副驾驶：在医生遗漏时提醒，在证据不足时停下来，在高危场景里把风险排在前面，而不是替医生把未知写成已知。

唯有如此，AI 才能真正把时间还给医生。

而当医生得以从格式与指标的裹挟中抽身，医疗或许才能回归其本质：

要专注病例，更要专注患者。

扫码加入周六测评分享活动

01

AI能不能套病例模版?

02

薛翀的战略蓝图

03

为什么要用 AI 写病历？

6款垂直产品子项目雷达图 来源：穿三甲研究院

写在最后：

6款垂直产品子项目雷达图来源：穿三甲研究院