进化实录 · 增刊②
AI算出来的数字,你敢用吗?
prevalence-calculator 的4次准不准博弈
AI算错了,你能看出来吗。
本文所有经验来自 ima.copilot 环境。以下方法在其他AI知识库中可能原理相通,但具体实现和提示词需根据平台调整。
你有没有在报告里写过这样的话:
「FD占消化科门诊的37-48%,其中60-80%存在屏障损伤,所以目标人群约XX万……」
写的时候你觉得很合理。数字是文献来的,逻辑是通的。
——上面这些数字,是你自己查的,还是AI告诉你的?
一、起源:我被AI算错的数据坑了
我的工作涉及大量「定量计算」——三段证据链中几乎每一步都是乘法:
流行病学某% × 某% × 某% × 某% = 目标人群
每一个「%」背后,都藏着一个问题:这个数据是原始文献里的,还是AI自己算出来的?
我问:「FD中屏障损伤的比例是多少?」
AI答:「约60-80%,来自一篇中国研究。」
听起来没问题,但当我要求它给出PMID时,它给了一篇论文。我去查——那篇论文研究的是胃溃疡患者的屏障损伤,不是FD患者的。
AI把「胃溃疡」的数据套到了「FD」头上。AI不是故意骗你,但它不会告诉你它可能弄错了。 我们实际需要一个「验算器」——一个专门负责「这个数字我能确认吗?」的技能。
二、第1次升级:从「一段话」到「一个框架」
触发原因
最初我用把标准五步计算法只是写在方法论文档,进行管理。包含5个步骤:
Step 1: 单疾病患病率合成Step 2: 就诊场景校正Step 3: 共病重叠校正(Inclusion-Exclusion法)Step 4: 加权机制覆盖计算Step 5: PAF验证(可选)
但很快发现了一个问题:每次用到这个SOP时,AI的执行质量不一样。 有时候它会跳过就诊校正,有时候它会忘记标注「没校正重叠就是高估」。
同一个流程,5次执行有3种不同的执行方式——这比没有流程更糟,因为你以为它做了,其实它没做。
改动
把五步计算法从方法论文档里抽出来,做成一个独立的skill。核心改造:
• 结构化输入模板:每步输入强制要求带PMID/DOI
• 强制标注规则:不校正重叠必须标明「高估」
• 计算可视化:每个乘法路径附完整追溯
将一个「方法论文档」独立为「可执行技能」的案例。
方法论文档里的内容如果每次都需要人为提醒才执行,就应该独立成技能。
三、第2次升级:禁止AI中间结果
触发原因
我让AI帮算:「FD门诊占比42% × 屏障损伤率70% = 29.4%」
AI给了29.4%,很精确。我问:「这个70%是哪来的?」
AI说:「来自一篇中国研究。」
我再问:「PMID是多少?」
AI查了20秒:「……抱歉,我无法确认这个具体数字的原始来源。」
整个计算中,「70%」这个关键乘数,是AI自己「猜」的。 它可能是从多篇文献的综合印象中得出的,也可能就是把某个粗略提及的数字当成了硬数据。
改动
🔴 禁止直接采信AI中间计算结果每个输入数据必须回溯原始文献并标注PMID/DOI。如果找不到原始文献,标注「❗缺口」而不是用一个模糊的数字。
同时要求AI加了数据验证检查清单,每个计算前强制过一遍:
□ 每个数据的原始来源是?□ PMID/DOI是多少?□ 原始文献中的实际数值是多少?□ 该数据来自什么人群?(中国/欧美/全球)□ 是否有至少2个独立来源支持?□ 多个来源数据是否一致?差异范围?□ 选择某个值的理由?
没通过这几项检查,计算就不输出。
在AI辅助决策中,「这个数据我不确定」比「我给你一个可能错的数据」有价值100倍。
四、第3次升级:回答“跟我有啥关系”
触发原因
同一批进行的「三重融合」升级(与medical-market-bridgeAI工具在Markting分析中的应用(6)增刊同时升级)。升级的触发信号来自同一个源头:医生视角缺失。
之前的输出是这样的:
目标人群 = 42%(门诊占比中值)× 70%(屏障损伤率中值)= 29.4%范围下限 = 37% × 60% = 22.2%范围上限 = 48% × 80% = 38.4%
这些数据对医生而言:「跟我有什么关系?」
于是加了个「临床翻译」改造:
① 每个计算结果后加一行🩺翻译:
🩺 对临床的意义:每100个您门诊的上消化道患者,大约有29个存在屏障损伤问题——也就是说,您一个半天门诊(按30个患者算)大概有9个。
② 每条乘法路径后加医生场景解释:
🩺 门诊占比42% ≈ 每10个消化科患者有4个是FD。屏障损伤率70% ≈ 这4个FD里有约3个存在屏障损伤。所以您一个门诊日看的FD患者中,多数存在未被满足临床的需求
③ 共病重叠校正加临床重叠说明:
🩺 临床重叠说明:临床中FD、GERD、Hp胃炎经常重叠——同一患者可能同时有FD症状、Hp阳性和轻度食管炎。这也是为什么您感觉「我这患者好像几种问题都有」——不是诊断不清楚,是它们共享同一个病理机制链。
这次升级
数据从「正确」到「有用」,中间就差一个步骤。翻译翻译——「跟我有什么关系?」
这一点我在分析方法论里叫它「所以…」测试——每个数字后面必须能接一个「所以…」连接到某个人的决策。接不上,就是无效数据。
五、第4次升级:给它一个「可被调用的接口」
触发原因
随着medical-market-bridge成了分析工作的调度入口,多个skill开始协作。prevalence-calculator经常被调用做加权计算——但它没有一个标准的调用接口。
每次调用时AI会去做,但有时执行的是旧版流程,有时跳过某一步,导致错误频出
改动
用SSL三层表示法重构,定义了标准化的输入输出接口(略)
六、从「一个计算器」看「整个系统」
现在prevalence-calculator在系统中的位置大概是这样的:
用户的分析需求 ↓medical-market-bridge(分析入口) ├── Phase 3:跨域检索 │ └── 收集各疾病患病率数据 ├── Phase 4:构建证据链 → │ └── prevalence-calculator(定量计算) │ ├── 输入:各疾病占比 + 机制发生率 │ ├── 计算:五步计算法 │ └── 输出:目标人群 + 医生翻译 ├── Phase 5:输出 │ ├── 数据插入报告 │ └── 引用格式 → evidence-chain-manager └── Phase 6:复盘 → 记录到学习日志
它是配合medical-market-bridge引擎使用的,详见AI工具在Markting分析中的应用(6)增刊
它在系统中的角色:不让任何一个「看起来合理」的数字偷偷溜过去。
🎬 在ima里创建一个你自己的「验算器」
你也想做一个?
第一步:先确认你的模型能创建技能
假设你已经有可用的AI模型和API Key,在ima的模型设置里已经配置好了。创建技能的操作入口通常在对话框里——直接提需求即可,不需要先建目录或想名字。
第二步:告诉AI你的需求
不需要手动建目录、不需要想名字。直接对AI说:
「我经常需要做定量计算,比如用几个百分比推导出目标人群有多大。我需要一个技能来做这件事:1. 收集每个疾病的患病率数据(必须带PMID)2. 区分这个数据是门诊构成比还是社区患病率3. 校正多疾病之间的重叠(Inclusion-Exclusion法)4. 加权计算机制覆盖比例5. 给出范围上下限和医生临床翻译另外定一条铁律:所有输入数据必须回溯到原始文献,禁止用AI自己推算出的数字。」
AI会自动理解你的需求,生成SKILL.md,自动命名,然后问你要不要注册。你确认就行。
第三步:用一版,改一版
• 用:一边用一边质疑他,促成他的进步(查遗补漏,升级优化)
• 记录不顺手:发现AI跳过了某一步、用了一个你找不到来源的数据——直接纠正
• 等升级:以后当你建立了一套「纠正记录系统」(后面文章会讲),AI可以跨会话记住你的纠正模式,同类问题累积后自动触发升级建议。现阶段先手动记录……
这是我自己的【ima Skill】prevalence-calculator链接是 https://ima.qq.com/skill?shareId=e70ae384371c4b6eb5d961dead58686d&from=share
这个版本是你的起点(堪堪够用),不是终点(远不够严谨)
📍 现在位置
写作计划·第一阶段├── ✅ 检索三定律(已发)├── ✅ 入库四件事(已发)├── ✅ 教材论文分治(已发)├── ✅ 文献清单规范(已发)├── 📝 文献驱动进化·子系列(5篇待写)│ ├── ⬜ 01-搜不准│ ├── ⬜ 02-知识网络│ ├── ⬜ 03-技能化│ ├── ⬜ 04-自我修正│ └── ⬜ 05-智能编排├── ✅ 增刊:医学-市场桥(已写)├── 📌 增刊:prevalence-calculator ← 你在这里└── ⬜ P6-Corrective RAG评分
本文是「进化实录」系列 增刊②。不占用主系列篇数,专门用真实案例展示技能开发的完整过程。主系列进度:前4篇(检索三定律 / 入库四件事 / 教材论文分治 / 文献清单规范)已完成;文献驱动进化·子系列(5篇)正在推进。


夜雨聆风