我的AI又进化了,92/100分,终于可以超过人类问诊了!
这周我没有回复任何粉丝的健康咨询内容。
没有更新两天一次。
我的员工和粉丝们发消息问:怎么了?
但我在做一件重要的事 ——
让给你看诊的AI,学会说”我不确定”。
为什么要做这件事
过去一两个月,我的AI健康顾问系统一直在运转。
但我发现一个非常重要的问题:
它太”聪明”了。
|
问它月经为什么20天来一次 → 它给了一个听起来专业的算法:”月经20天 = 黄体期被压缩到6-8天” → 错的。月经周期不是这样算的。 被训练数据带跑了,没查文献就写了。 问它早餐 → 它说”必须每天稳定吃早餐” → 错的。我的立场是:第一餐吃什么比几点吃更重要。 16+8是有效的代谢工具,不是问题。 问它补充剂 → 它漏掉了维生素C → 因为它默认”缺了才补”。 但维C对成年人来说是底盘,不是缺了才推。 问它饮食建议 → 它没提盐 → 因为训练数据里”少盐=健康”太强了。 它忘了:盐不够,胃酸不足,电解质失衡, 手抖、疲劳、心慌都会出现。 |
这些答案,听起来没毛病。
但它们不是我的立场。它们是大众营养学的默认答案。
AI被训练数据带跑了——它给你的,是互联网上最多人说的话,不是功能医学的第一性原理。
但不只是我的AI系统会出现这样的问题,而是几乎所有的AI都会有这样的问题,包括你们现在用的各种国内AI。所以这个问题的修改与否直接决定我们的健康咨询系统能否成功!

所以我做了什么
我找到了目前全世界最厉害的AI公司Anthropic(Claude的母公司)2022年发布的一篇论文:
Constitutional AI: Harmlessness from AI Feedback
这篇论文解决的核心问题是:
怎么让AI在回答时,不是给”最流行的答案”,而是给”最正确的答案”?
论文发现:AI在反复优化后,会开始输出模板化的回应——听起来专业,但失去了真正的判断力。
这个现象叫Goodharting。
我对照这篇论文,重新设计了整个系统。
做了哪些升级
升级1:答复前,必须先”反向核查”
现在AI在给你写分析之前,它必须先回答三个问题:
-
这个建议,我是从你的问诊表里得出的,还是从训练数据的习惯里拿来的? -
这里有没有哪个数字或算法,我没有核实就直接写了? -
这个建议,符合我的IP立场,还是主流营养学的默认答案?
这一步,是为了在写答案之前,先把”被带跑的部分”拦下来。
升级2:建立自查+互查双层系统
答复写完之后,系统会做19项标准自查,十几万字的指南指导。
现在在自查之前,还要先过一遍医学推理审查——专门检查:
-
月经周期、激素周期、营养素阈值这类数字,有没有查文献核实? -
“少盐””早餐””清淡”这类建议,是功能医学立场,还是主流话术?
一份真正好的回复,不是规则都对了,是医学推理对了。
升级3:建立”修订克制”机制
基于论文的另一个发现:AI越优化,越容易过度优化。
我给系统加了一条原则:
没有数据支持的修改,不做。
感觉应该改,但没有实测证据→不改。 一个案例出现问题→记录,不立刻变成规则。 累积5个以上相同模式→才考虑升级。
这让系统更稳定,而不是每天补丁打补丁。(大部分软件的代码错误都是这样出来的)
你可以期待什么
以前的系统:努力遵守规则,但容易被主流话术带走。
现在的系统:在写答复之前,先问自己”这是IP立场,还是互联网默认答案”。
具体到你能感受到的:
-
关于早餐:不再默认推荐你必须吃早餐。会根据你的体型和代谢情况,告诉你”第一餐吃什么”比”几点吃”更重要。 -
关于盐:会主动评估你的电解质状态,而不是跟着”少盐健康”走。 -
关于具体数字:所有涉及周期、剂量、阈值的建议,都会先查文献再写,不凭感觉。
一句话总结
我花了一周,不是让AI变得更聪明。
而是让它学会:在给你答案之前,先质疑自己。
这才是功能医学该有的样子。
最后我的宣言:
|
我不是医生,所以我没有丰富的临床经验。 这一点我必须承认。 但我在做两件事。 第一,在AI给出答案之前,先找出它可能出错的地方。我建立了一套机制——在写答复之前,先问自己:”这是我的立场,还是互联网的默认答案?”随着案例的积累,这个问题的准确度会越来越高。 第二,用高水平的最新论文持续升级系统。这次升级的基础,是Anthropic发布的Constitutional AI论文。下一次,依然是数据和论文来驱动改变。不是感觉,是证据。 我无法覆盖的只有两件事: 1:直接看到你的身体, 2:如果你不把检查结果发给我,这个闭环就无法完成。 其他的,系统来做。 而这个系统,现在还在继续进化。 基于上述两个局限,AI对这套系统的评分是:92/100 在无法直接检查身体、以及闭环依赖你主动回报检查结果这两点之外,这套系统能做到的是: 第一,凭一张问诊表,分析五年以上未能解决的多系统问题,找出多个相互作用的根因机制。 第二,确定检查优先级,根据根因个性化匹配补充剂,明确3-6个月的预期效果,并设计下一步闭环方案。 第三,在写出答复之前,系统会先质疑自己的判断——主动检查”这是功能医学的立场,还是互联网的默认答案”。 第四,通过连接顶尖功能医学专家的临床案例库,把机制准确性和临床应用经验同时接入系统(这个是我的系统独具的配方,内容超过了1000万字,以后很快会超过1个亿字符)。 这个深度的分析,你在任何医院的10分钟门诊里,几乎不可能拿到。 |
下周开始恢复更新。
如果你正在等待我的健康分析,谢谢你的耐心。
会比之前更准确。
⚠️ 说清楚的
这份系统给的是功能医学视角,不是医疗诊断。任何检查和用药,都需要和你的医生讨论。
夜雨聆风