医疗AI Agent太笨?OpenAI:别骂“笨”,先补这三样东西
你会骂AI Agent笨吗?
当你的AI Agent又一次给出离谱的回答时,你的第一反应是什么?
我坦白:我骂它“笨”。😳

图:上周我刚刚骂完好笨
直到我看到OpenAI Codex团队的做法:
“When the agent struggles, we treat it as a signal: identify what is missing — tools, guardrails, documentation — and feed it back into the repository, always by having Codex itself write the fix.”
他们不责怪模型,不急着调参数。他们把每一次“卡住”当作一个信号——然后去检查:工具箱里少了什么?是工具不全,护栏没装,还是使用说明没写清?
那一刻我意识到:我变成了小孩子小时候最怕的那种父母——孩子考试不及格,劈头盖脸一句“你怎么这么笨”。却不去看看:是不是试卷超纲了?这个知识点我教过吗?他昨晚没睡好?还是压根没吃饱?
模型不会委屈,但它会持续犯错。而我们,会持续错过真正的问题。
我们为什么总想骂“笨”?
因为“归因于能力”最简单
当事情不如意时,人类大脑天生倾向性格归因(他不行),而非情境归因(环境不支持)。骂模型“笨”只需要1秒,而检查工具链、复盘流程可能要1小时。懒惰的大脑选前者。
因为“笨”这个词很解气,但毫无用处
骂孩子“笨”不会让他下次考好;骂模型“笨”不会让它自动学会新技能。真正有效的动作永远是:补上缺失的环节。Codex团队把它拆解为三类:

因为“骂笨”会掩盖系统的真正缺陷
医疗场景下,这个代价是致命的。一个分诊Agent漏掉心梗患者——我们可以骂它“笨”,然后花两周重新训练模型。但真正原因可能只是:它取不到心电图数据(缺工具),或者没有强制转急诊的规则(缺护栏)。改这两个,两小时。
深度洞见:我们骂模型“笨”,其实是在逃避自己的懒惰——懒得去理解系统,懒得去补漏洞。
为什么医疗AI尤其不能“骂笨”?
因为医疗的“错误”不是扣分,是生命
考试考砸了可以补考。但一个胰岛素剂量建议出错,可能是低血糖昏迷;一个过敏史忽略,可能是过敏性休克。骂一句“笨”很容易,但那个错误已经发生了。
因为医疗场景天然有“三缺”
医疗领域的AI Agent面临三个普遍缺失,任何一个都足以让它看起来“笨”:
1、缺工具
医院信息系统是孤岛,EMR、LIS、PACS互相不通。Agent想查个检验结果,要爬五个接口——还不一定爬得到。
2、缺护栏
临床路径复杂多变,同一症状可能是普通感冒,也可能是主动脉夹层。没有硬性护栏,Agent就会在低概率高风险的地方栽跟头。
3、缺文档
医疗知识更新快,指南年年变。Agent的“知识”停留在训练数据截止日,而真实世界每天都在变化。
一个真实案例:心梗分诊的“笨”是怎么来的
我在某个博主的文章评论区看到,某基层医院AI分诊Agent总是分错,例如频繁把急性心梗患者分流到普通内科。
1、传统归因:
模型太笨了,对心梗的心电图特征理解不足 → 重新标注1000份病历,两周后上线。
2、信号思维归因(Codex式三步检查):
(1)查工具
发现Agent根本拿不到心电图结论字段(接口未授权)→ 只能依赖医生输入的“症状描述”,而很多心梗早期只有胃痛、肩痛。
补工具:开通心电图读取API。
(2)查护栏
发现没有“高危胸痛强制升级”规则。哪怕Agent低置信度输出“普通内科”,也应该被拦截。
补护栏:增加一条硬规则:胸痛+出汗/恶心/放射痛 → 直接触发急诊警报。
(3)查文档
工具说明里没写“心电图优先级高于症状描述”。
补文档:明确调用顺序。
结果:三个低成本改动,无需重训模型。两周变成两小时。
这个案例的深度启示:模型从未变“聪明”过,它只是被提供了正确的“脚手架”。过去它看起来“笨”,是因为我们让它在一个残缺的环境里做事。
那什么样的人/团队,才能不骂“笨”?
他们有一种“工程耐心”
Codex团队的口号是:“优先使用无聊技术”。
什么意思?选择API稳定的、训练数据里高频出现的技术栈。不追新,不炫技。因为Agent对“无聊技术”更熟,犯错更少。

深度洞见:这种“无聊”不是保守,而是对复杂性的敬畏。知道什么会变、什么不该变,把稳定性建立在不变的基石上。
他们有一种“系统视角”
不骂模型“笨”的人,本质上持有一种系统思维:个体(模型/孩子)的行为 = 系统(工具/环境/规则)的输出。要改变输出,不改造个体,改造系统。
这跟现代医院安全管理如出一辙:“坏制度让好人做坏事,好制度让坏人也没机会。”
医疗不良事件的根本原因分析(RCA)从来不问“谁错了”,而是问“流程哪里有问题”。AI Agent也一样。
他们还有一种“成长型心智”
斯坦福心理学家卡罗尔·德韦克提出:固定型心智的人相信能力是固定的,失败意味着“我不行”;成长型心智的人相信能力可以通过努力和策略提升,失败只是“方法不对”。
骂模型“笨”是固定型心智——你认定它天生不行。
Codex团队是成长型心智——每次失败都是信号,告诉我们缺什么,然后补上。
这对医疗AI的启示:部署AI不是“一定要买一个最聪明的脑子”,而是建设一个让模型能持续表现良好的系统。系统需要迭代,而不是模型需要被骂。
落地:不骂“笨”之后,我们该做什么?
给所有医疗AI负责人、工程师、甚至管理者一份故障排查清单,按顺序走。
第一步:查工具
1、Agent能调取完成任务所需的所有数据/服务吗?
2、工具的输入输出格式,Agent理解对吗?(比如剂量单位是mg还是g?)
3、有没有外部依赖超时或变更?
第二步:查护栏
1、有没有应该被拦截却输出了的内容?(翻最近10条异常)
2、护栏规则覆盖了科室自定义的禁忌项吗?
3、有没有“低置信度→强制转人工”的兜底?
第三步:查文档
1、工具描述有没有写明“何时用、何时不用”?
2、有没有给出临床路径的步骤指引(而不是“请协助诊疗”这种废话)?
3、失败时有没有后备指令(如“查不到就请用户提供照片”)?
第四步:查技术栈
1、最近有没有引入未经充分验证的新模型/库?
2、能否用更成熟、文档更全的组件替换?
3、全链路日志能不能满足事后审计?
结语:从“责怪个体”到“完善系统”
写到这里,我想起一句话:
“如果一条鱼游得不好,不要教它爬树,先检查水是不是脏了。”
医疗AI的“水”,就是工具、护栏和文档。鱼游不好,不是鱼笨;Agent做不好,不一定是模型笨。
Codex团队的哲学,本质上是一种成熟的工程智慧:把失败当作信息,而不是耻辱。用系统补丁替代个人指责。
聪明的家长不会骂孩子笨,他会检查试卷难度、知识点漏洞、学习环境、营养状况。 成熟的医疗AI团队不会责怪模型,他们会平静地问:
“这次卡住,是在告诉我们缺什么?工具?护栏?还是文档?”
当我们停止骂“笨”的那一刻,我们才真正开始解决问题。

夜雨聆风