乐于分享
好东西不私藏

我的AI又进化了,92/100分,终于可以超过人类问诊了!

我的AI又进化了,92/100分,终于可以超过人类问诊了!

这周我没有回复任何粉丝的健康咨询内容。

没有更新两天一次。

我的员工和粉丝们发消息问:怎么了?

但我在做一件重要的事 ——

让给你看诊的AI,学会说”我不确定”。


为什么要做这件事

过去一两个月,我的AI健康顾问系统一直在运转。

但我发现一个非常重要的问题:

它太”聪明”了。

问它月经为什么20天来一次 

→ 它给了一个听起来专业的算法:”月经20天 = 

   黄体期被压缩到6-8天”

→ 错的。月经周期不是这样算的。

   被训练数据带跑了,没查文献就写了。

问它早餐 → 它说”必须每天稳定吃早餐”

→ 错的。我的立场是:第一餐吃什么比几点吃更重要。

   16+8是有效的代谢工具,不是问题。

问它补充剂 → 它漏掉了维生素C

→ 因为它默认”缺了才补”。

   但维C对成年人来说是底盘,不是缺了才推。

问它饮食建议 → 它没提盐

→ 因为训练数据里”少盐=健康”太强了。

   它忘了:盐不够,胃酸不足,电解质失衡,

   手抖、疲劳、心慌都会出现。

这些答案,听起来没毛病。

但它们不是我的立场。它们是大众营养学的默认答案。

AI被训练数据带跑了——它给你的,是互联网上最多人说的话,不是功能医学的第一性原理。

但不只是我的AI系统会出现这样的问题,而是几乎所有的AI都会有这样的问题,包括你们现在用的各种国内AI。所以这个问题的修改与否直接决定我们的健康咨询系统能否成功!


所以我做了什么

我找到了目前全世界最厉害的AI公司Anthropic(Claude的母公司)2022年发布的一篇论文:

Constitutional AI: Harmlessness from AI Feedback

这篇论文解决的核心问题是:

怎么让AI在回答时,不是给”最流行的答案”,而是给”最正确的答案”?

论文发现:AI在反复优化后,会开始输出模板化的回应——听起来专业,但失去了真正的判断力。

这个现象叫Goodharting

我对照这篇论文,重新设计了整个系统。


做了哪些升级

升级1:答复前,必须先”反向核查”

现在AI在给你写分析之前,它必须先回答三个问题:

  • 这个建议,我是从你的问诊表里得出的,还是从训练数据的习惯里拿来的?
  • 这里有没有哪个数字或算法,我没有核实就直接写了?
  • 这个建议,符合我的IP立场,还是主流营养学的默认答案?

这一步,是为了在写答案之前,先把”被带跑的部分”拦下来。

升级2:建立自查+互查双层系统

答复写完之后,系统会做19项标准自查,十几万字的指南指导。

现在在自查之前,还要先过一遍医学推理审查——专门检查:

  • 月经周期、激素周期、营养素阈值这类数字,有没有查文献核实?
  • “少盐””早餐””清淡”这类建议,是功能医学立场,还是主流话术?

一份真正好的回复,不是规则都对了,是医学推理对了。

升级3:建立”修订克制”机制

基于论文的另一个发现:AI越优化,越容易过度优化。

我给系统加了一条原则:

没有数据支持的修改,不做。

感觉应该改,但没有实测证据→不改。 一个案例出现问题→记录,不立刻变成规则。 累积5个以上相同模式→才考虑升级。

这让系统更稳定,而不是每天补丁打补丁。(大部分软件的代码错误都是这样出来的)


你可以期待什么

以前的系统:努力遵守规则,但容易被主流话术带走。

现在的系统:在写答复之前,先问自己”这是IP立场,还是互联网默认答案”

具体到你能感受到的:

  • 关于早餐:不再默认推荐你必须吃早餐。会根据你的体型和代谢情况,告诉你”第一餐吃什么”比”几点吃”更重要。
  • 关于:会主动评估你的电解质状态,而不是跟着”少盐健康”走。
  • 关于具体数字:所有涉及周期、剂量、阈值的建议,都会先查文献再写,不凭感觉。

一句话总结

我花了一周,不是让AI变得更聪明。

而是让它学会:在给你答案之前,先质疑自己

这才是功能医学该有的样子。

最后我的宣言:

我不是医生,所以我没有丰富的临床经验。

这一点我必须承认。

但我在做两件事。

第一,在AI给出答案之前,先找出它可能出错的地方。我建立了一套机制——在写答复之前,先问自己:”这是我的立场,还是互联网的默认答案?”随着案例的积累,这个问题的准确度会越来越高。

第二,用高水平的最新论文持续升级系统。这次升级的基础,是Anthropic发布的Constitutional AI论文。下一次,依然是数据和论文来驱动改变。不是感觉,是证据。

我无法覆盖的只有两件事:

1:直接看到你的身体,

2:如果你不把检查结果发给我,这个闭环就无法完成。

其他的,系统来做。

而这个系统,现在还在继续进化。

基于上述两个局限,AI对这套系统的评分是:92/100

在无法直接检查身体、以及闭环依赖你主动回报检查结果这两点之外,这套系统能做到的是:

第一,凭一张问诊表,分析五年以上未能解决的多系统问题,找出多个相互作用的根因机制。

第二,确定检查优先级,根据根因个性化匹配补充剂,明确3-6个月的预期效果,并设计下一步闭环方案。

第三,在写出答复之前,系统会先质疑自己的判断——主动检查”这是功能医学的立场,还是互联网的默认答案”。

第四,通过连接顶尖功能医学专家的临床案例库,把机制准确性和临床应用经验同时接入系统(这个是我的系统独具的配方,内容超过了1000万字,以后很快会超过1个亿字符)。


这个深度的分析,你在任何医院的10分钟门诊里,几乎不可能拿到。


下周开始恢复更新。

如果你正在等待我的健康分析,谢谢你的耐心。

会比之前更准确。


⚠️ 说清楚的

这份系统给的是功能医学视角,不是医疗诊断。任何检查和用药,都需要和你的医生讨论。


最后的最后,我不断在学习&进化中… 希望我对你有帮助!