一文看懂医学统计全流程:从乱码 Excel 到高分 SCI 的“傻瓜式”导航图
|
|
|
|
|
|---|---|---|---|
| Step 1: 清洗 |
|
|
|
| Step 2: 描述 |
|
|
Table 1 (基线特征表) |
| Step 3: 比较 |
|
|
Table 1 的 P 值列 |
| Step 4: 回归 |
|
|
Table 2 / 3 (多因素表) |
| Step 5: 评价 |
|
|
Figure 1 / 2 (预测与评估图) |
01
-
格式铁律 :保证“一行一例”(每一行代表一个病人),每一列代表一个指标,绝对不能合并单元格。
-
缺失值抢救 :如果某个变量缺失率在 5%~30% 之间,千万别直接删除病人,请使用 MI (多重插补) 科学补救。 注意:绝对不能插补结局变量!
02
-
正态分布连续变量 :用 Mean ± SD (均值 ± 标准差) 描述。
-
偏态分布连续变量 :用 Median (IQR) (中位数和四分位间距) 描述。
-
分类变量 :用 n (%) (频数和百分比) 描述。
-
开挂技巧 :强烈建议放弃手动计算,使用 R 语言的包,5 行代码一键生成带 P 值的完美三线表。
03
-
比数值 (连续变量) :两组正态数据用 Student’s t-test ,偏态数据用 Mann-Whitney U test 。三组及以上比较必须用 ANOVA (方差分析) 。
-
比比例 (分类变量) :通常使用 Pearson’s Chi-square test (卡方检验) ;如果样本量极小(有格子的期望值小于 5),必须用 Fisher’s exact test (Fisher 精确检验) 。
-
比生存时间 :使用 Kaplan-Meier method 画生存曲线,并用 Log-rank test 比较差异。
04
-
结局是“死/活”或“有/无” (二分类) :使用 Logistic regression ,看 OR 值 (Odds Ratio) 。
-
结局是“存活时间” (生存分析) :使用 Cox proportional hazards models ,看 HR 值 (Hazard Ratio) 。
-
判读铁律 :如果 OR 或 HR 的 95% 置信区间跨过了 1,说明没有统计学意义。
05
-
应对两组病人底子不一样 (基线不齐) :使用 PSM (倾向性评分匹配) 或 IPTW (逆概率加权) ,把回顾性烂数据强行拉平成类似 RCT 的高质量数据。
-
证明你的模型真的准 :画出 ROC 曲线 ,看 AUC 值 (0.7 以上才及格)。同时用 Calibration plot (校准曲线) 和 C-index 证明预测概率和真实发生率一致。
-
证明你的模型真的有用 :画一张 DCA (决策曲线) ,向审稿人证明用你的模型去指导临床,能给病人带来实打实的“净获益 (Net Benefit)”。
-
寻找天选之子 (亚组分析) :画出漂亮的森林图,并且一定要看 P for interaction (交互作用 P 值) 。只有它小于 0.05,你才能下结论说“这药对男性比对女性更好”。
夜雨聆风