我的AI又进化了,92/100分,终于可以超过人类问诊了!-夜雨聆风

我的AI又进化了,92/100分,终于可以超过人类问诊了!

这周我没有回复任何粉丝的健康咨询内容。

没有更新两天一次。

我的员工和粉丝们发消息问：怎么了？

但我在做一件重要的事 ——

让给你看诊的AI，学会说”我不确定”。

为什么要做这件事

过去一两个月，我的AI健康顾问系统一直在运转。

但我发现一个非常重要的问题：

它太”聪明”了。

问它月经为什么20天来一次

→ 它给了一个听起来专业的算法：”月经20天 =

黄体期被压缩到6-8天”

→ 错的。月经周期不是这样算的。

被训练数据带跑了，没查文献就写了。

问它早餐 → 它说”必须每天稳定吃早餐”

→ 错的。我的立场是：第一餐吃什么比几点吃更重要。

16+8是有效的代谢工具，不是问题。

问它补充剂 → 它漏掉了维生素C

→ 因为它默认”缺了才补”。

但维C对成年人来说是底盘，不是缺了才推。

问它饮食建议 → 它没提盐

→ 因为训练数据里”少盐=健康”太强了。

它忘了：盐不够，胃酸不足，电解质失衡，

手抖、疲劳、心慌都会出现。

这些答案，听起来没毛病。

但它们不是我的立场。它们是大众营养学的默认答案。

AI被训练数据带跑了——它给你的，是互联网上最多人说的话，不是功能医学的第一性原理。

但不只是我的AI系统会出现这样的问题，而是几乎所有的AI都会有这样的问题，包括你们现在用的各种国内AI。所以这个问题的修改与否直接决定我们的健康咨询系统能否成功！

所以我做了什么

我找到了目前全世界最厉害的AI公司Anthropic（Claude的母公司）2022年发布的一篇论文：

Constitutional AI: Harmlessness from AI Feedback

这篇论文解决的核心问题是：

怎么让AI在回答时，不是给”最流行的答案”，而是给”最正确的答案”？

论文发现：AI在反复优化后，会开始输出模板化的回应——听起来专业，但失去了真正的判断力。

这个现象叫Goodharting。

我对照这篇论文，重新设计了整个系统。

做了哪些升级

升级1：答复前，必须先”反向核查”

现在AI在给你写分析之前，它必须先回答三个问题：

这个建议，我是从你的问诊表里得出的，还是从训练数据的习惯里拿来的？
这里有没有哪个数字或算法，我没有核实就直接写了？
这个建议，符合我的IP立场，还是主流营养学的默认答案？

这一步，是为了在写答案之前，先把”被带跑的部分”拦下来。

升级2：建立自查+互查双层系统

答复写完之后，系统会做19项标准自查，十几万字的指南指导。

现在在自查之前，还要先过一遍医学推理审查——专门检查：

月经周期、激素周期、营养素阈值这类数字，有没有查文献核实？
“少盐””早餐””清淡”这类建议，是功能医学立场，还是主流话术？

一份真正好的回复，不是规则都对了，是医学推理对了。

升级3：建立”修订克制”机制

基于论文的另一个发现：AI越优化，越容易过度优化。

我给系统加了一条原则：

没有数据支持的修改，不做。

感觉应该改，但没有实测证据→不改。一个案例出现问题→记录，不立刻变成规则。累积5个以上相同模式→才考虑升级。

这让系统更稳定，而不是每天补丁打补丁。（大部分软件的代码错误都是这样出来的）

你可以期待什么

以前的系统：努力遵守规则，但容易被主流话术带走。

现在的系统：在写答复之前，先问自己”这是IP立场，还是互联网默认答案”。

具体到你能感受到的：

关于早餐：不再默认推荐你必须吃早餐。会根据你的体型和代谢情况，告诉你”第一餐吃什么”比”几点吃”更重要。
关于盐：会主动评估你的电解质状态，而不是跟着”少盐健康”走。
关于具体数字：所有涉及周期、剂量、阈值的建议，都会先查文献再写，不凭感觉。

一句话总结

我花了一周，不是让AI变得更聪明。

而是让它学会：在给你答案之前，先质疑自己。

这才是功能医学该有的样子。

最后我的宣言：

我不是医生，所以我没有丰富的临床经验。

这一点我必须承认。

但我在做两件事。

第一，在AI给出答案之前，先找出它可能出错的地方。我建立了一套机制——在写答复之前，先问自己：”这是我的立场，还是互联网的默认答案？”随着案例的积累，这个问题的准确度会越来越高。

第二，用高水平的最新论文持续升级系统。这次升级的基础，是Anthropic发布的Constitutional AI论文。下一次，依然是数据和论文来驱动改变。不是感觉，是证据。

我无法覆盖的只有两件事：

1：直接看到你的身体，

2：如果你不把检查结果发给我，这个闭环就无法完成。

其他的，系统来做。

而这个系统，现在还在继续进化。

基于上述两个局限，AI对这套系统的评分是：92/100

在无法直接检查身体、以及闭环依赖你主动回报检查结果这两点之外，这套系统能做到的是：

第一，凭一张问诊表，分析五年以上未能解决的多系统问题，找出多个相互作用的根因机制。

第二，确定检查优先级，根据根因个性化匹配补充剂，明确3-6个月的预期效果，并设计下一步闭环方案。

第三，在写出答复之前，系统会先质疑自己的判断——主动检查”这是功能医学的立场，还是互联网的默认答案”。

第四，通过连接顶尖功能医学专家的临床案例库，把机制准确性和临床应用经验同时接入系统（这个是我的系统独具的配方，内容超过了1000万字，以后很快会超过1个亿字符）。

这个深度的分析，你在任何医院的10分钟门诊里，几乎不可能拿到。

下周开始恢复更新。

如果你正在等待我的健康分析，谢谢你的耐心。

会比之前更准确。

⚠️ 说清楚的

这份系统给的是功能医学视角，不是医疗诊断。任何检查和用药，都需要和你的医生讨论。

最后的最后，我不断在学习&进化中… 希望我对你有帮助！