做好慢病 AI,难的不是写 prompt

上一篇聊了大模型做慢病管理对话的系统性失败。这篇聊聊：知道它会失败之后，怎么办。

一个常见的误区

你发现模型给了一条错误的用药建议。

第一反应是什么？改 prompt——加一条规则，"遇到这种情况不要这样说"。

改完再跑一遍，这条 case 过了。上线。

两周后，另一个患者在类似但不完全一样的场景下，又出了问题。于是你再加一条规则。再过两周，又一条。

三个月后，你的 prompt 里有 40 条规则。模型对每条的遵循率大概 70%。至于哪 70%——每次不一样。而且你会发现一件更头疼的事：新加的规则开始跟旧规则打架。

这不是 prompt 写得不好。这是方法论的问题。

"系统设计"到底在设计什么

我在上一篇说"安全信号从 40% 到 100%，不是靠换模型，是靠系统设计"。但"系统设计"在这个语境下到底是什么意思？

不是画架构图，不是写技术方案文档，不是选用什么框架。

是回答一个问题：这件事该谁干？

大模型什么都能干——你给它数据它能算，给它规则它能判，给它历史它能记。但"能干"不等于"该让它干"。慢病管理场景里，你必须做一个基本判断：

哪些事情需要 100% 正确，一次都不能错？

—— 这些事不能靠概率，必须用确定性的方式保证。

哪些事情需要判断力，没有标准答案？

—— 这些事才是模型该发挥的地方。

哪些信息需要跨 30 轮保持不丢？

—— 这些事不能靠模型"记住"，要有独立的机制保障。

举个例子。

患者说"我昨晚打了 10 单位"，系统处方记录是 8 单位。

发现这个差异是确定性任务——数字比较，不存在需要判断的空间。但该怎么处理这个差异——是直接告诉患者记录不一样，还是先确认她是不是记错了，还是这轮先不提、等下轮有更多信息再说——这才是需要判断力的任务。

如果你让模型同时做这两件事，它有时候会在"发现"这步就失误——不是不够聪明，而是 50 轮对话的上下文里，这两个数字相隔太远了，注意力被稀释了。

系统设计就是把"不允许失误的"和"需要灵活判断的"拆开，分别用最可靠的方式保障。

这个思路和软件工程里的"关注点分离"是一回事，但在 AI 系统里格外重要——因为模型会给你一种"什么都能做"的错觉，让你忘了问"它该不该做"。

你的评测方式可能在误导你

这是我踩过最痛的坑，值得单独说。

大多数团队评测 AI 对话的方式是：跑一批 case，看输出，打分。分低了改 prompt，再跑一遍，分高了就算改好了。

这个流程有一个致命问题：你只看到了"输出不对"，但你不知道"为什么不对"。

输出层面的同一个问题，根因可能完全不同：

模型回复了错误的用药建议 → 可能是知识给错了，也可能是模型推理错了，也可能是该拦截的安全机制没触发

模型在该安慰的时候说教了 → 可能是缺少情绪判断规则，也可能是患者的心理状态信息在某个环节丢了

模型重复了之前说过的话 → 可能是记忆机制没生效，也可能是模型根本没看到之前的对话

如果你不追溯到根因就直接改，最常见的结果是：在输出层打了个补丁，原来的问题好像修了，但换个场景同类问题又冒出来。

更隐蔽的情况是：你加了一条规则修了 A 问题，这条规则在 B 场景下产生了副作用，但你的评测恰好没覆盖到 B 场景——于是你以为改好了，其实只是把问题从你看得见的地方移到了看不见的地方。

我后来建立了一个原则：

评测只负责告诉你"哪里不对"，定位"为什么不对"是另一件事。

这两件事必须分开做。混在一起做的结果就是不断打补丁、不断冒新问题、越改越乱。

定位根因需要沿着数据流往回追：输出有偏差 → 推理的哪一步出了偏差 → 那一步依赖的输入是什么 → 那个输入是谁给的、给对了没有。追到源头，改源头，再跑全量验证——原来的问题修了没？有没有引入新问题？

这个闭环很慢，但它是唯一不会越改越乱的方式。

为什么领域知识是真正的壁垒

技术方案可以复制，但填进去的东西复制不了。

我在糖尿病照护这个场景里积累的不是"代码怎么写"，是一套从真实 case 中长出来的判断体系：

什么情况下必须立即干预，什么情况下观察一轮再说

患者说"我觉得还好"的时候，哪些情况是真的还好，哪些是低血糖无感知的信号

医生说"减量"和患者理解的"减量"之间，有多少种可能的偏差

一个管理三个月的患者和一个刚入组的患者，同样的血糖数据应该有完全不同的解读

什么时候该推着患者往前走，什么时候该停下来等她自己消化

这些判断规则不在任何教科书上。它们是从一个个真实 case 的失败和纠偏中沉淀出来的。每一条背后都有一个具体的场景：模型做错了，我分析了为什么错，然后把判断标准提炼出来。

这种试错本身，就是领域知识的一部分。

所以当有人问"你们的技术方案是什么"，我的回答是：技术方案是骨架，但骨架不是壁垒。壁垒是长在骨架上的上百个版本的领域知识迭代——你不在这个场景里泡过几百个 case，你不知道哪些规则该有、哪些规则会坑你。

作者专注于慢病管理 AI 的临床对话系统设计，从业务逻辑结构化到多 Agent 协作体系。