乐于分享
好东西不私藏

拯救你的“废铁数据”:不出错的标准 Excel 录入模板与避坑指南

本文最后更新于2026-03-12,某些文章具有时效性,若有错误或已失效,请在下方留言或联系老夜

拯救你的“废铁数据”:不出错的标准 Excel 录入模板与避坑指南

如果数据录入是一座大厦的地基,那 90% 的新手医生都在用“豆腐渣”打地基。为了避免分析时重头来过的惨剧,在敲下第一个字之前,请务必把以下规则刻在脑子里。
01
表头设计的“四项铁律”
表头(Excel 的第一行)是软件识别数据的唯一路标,绝对不能随心所欲。
铁律 1:坚决不用中文和特殊符号
  • 软件对中文兼容性极差,极易出现乱码。千万别带空格、括号或%/等符号。
  • 正解 :全部使用英文简写或拼音首字母,单词间用下划线连接。例如把“入院时收缩压”写成SBP_adm。
铁律 2:一列只能有一个变量
这是医生最爱犯的错:把血压写成120/80,把肿瘤大小写成3x4x5。软件没法算这种数据的平均值!
正解 :必须拆开!分成SBP(填 120)和DBP(填 80)两列;分成Tumor_L、
Tumor_WTumor_H三列。
铁律 3:绝对禁止“合并单元格”
为了排版好看,把三个病人的“主治医生”合并成一个大格?在统计软件眼里,这就等于数据错位灾难。
正解 :哪怕前 100 行都是同一个主治医生,也要老老实实把每一行都填满。
铁律 4:严格遵守“一行一人”
张三今天来复查,明天又来复查。不要在张三这一行后面无限加列(比如化验1、化验2、化验3),也不要在张三下面插几行副标题。
正解 :如果是横断面研究,张三只能占唯一的一行。
02
录入单元格的“三不原则”
  • 不要带单位 :格子里只写15,绝对不能写15 mg/dL,否则这列数据会瞬间从“数值变量”变成“文本字符”,无法计算均值。单位请写在你的“数据字典”里。
  • 不要用颜色代替信息 :把重症患者标成红色背景,轻症标成绿色?统计软件导入时, 颜色是带不进去的 ,你的分类信息会彻底丢失。必须新建一列Severity,用数字1和2来代表。
  • 不要乱写“缺失值” :如果这个病人没查血常规, 单元格直接留白(什么都别敲) 。千万不要自作聪明地填入“/”、“不详”、“拒查”、“N/A”或者“0”(除非他的指标真的是 0)。
03
灵魂杀器:建立你的“数据字典 (Codebook)”
真正标准化的数据库,一个 Excel 文件里必须包含两个 Sheet(工作表):
  1. Sheet 1:Raw_Data(原始数据表) —— 里面全是密密麻麻的数字和拼音表头。
  2. Sheet 2:Codebook(数据字典) —— 这是你的“密码本”,用来解释 Sheet 1 里的数字到底是什么意思。
给你一个标准的数据字典模板示例:
变量名 (Variable)
变量中文标签 (Label)
数据类型 (Type)
赋值说明 (Coding)
备注 / 单位 (Notes)
ID
唯一编号
文本
从 001 开始顺序编号
Age
年龄
连续数值
岁 (Years)
Sex
性别
分类数值
1 = 男,2 = 女
务必全数字录入
Smoke
吸烟史
分类数值
0 = 从不,1 = 戒烟,2 = 现吸烟
/
WBC_adm
入院白细胞
连续数值
×109/L
Comorb_DM
合并糖尿病
二分类
0 = 无,1 = 有
/
Follow_Date
末次随访日期
日期格式
YYYY-MM-DD
格式必须统一,如 2023-10-25
04
录入实战对比:菜鸟 vs 高手
假设你要记录患者李四(男,65岁,有高血压,血压140/90,今天没查空腹血糖)。
❌ 临床医生的日常习惯(灾难版):
  • 姓名:李四(泄露隐私)
  • 年龄/性别:65岁/男(带单位、带汉字、且挤在一个格子里)
  • 既往史:高血压3级(文本格式,无法做分类统计)
  • 血压:140/90(无法计算)
  • 血糖:未查(混入汉字,整列报废)
✅ 统计师眼里的完美数据(标准版):
  • ID:001
  • Age:65
  • Sex:1
  • HTN:1
  • SBP:140
  • DBP90
  • Glu:(直接留出空白)
统计软件是个“文盲+强迫症”。把所有汉字变成数字,把所有单位扔进字典,坚守“一列一指标,一行一患者”的底线,你的数据清洗工作量将直接缩减 90%。
本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 拯救你的“废铁数据”:不出错的标准 Excel 录入模板与避坑指南

猜你喜欢

  • 暂无文章