你盯着满屏的N/A和乱码,头发都抓掉了几根。
这场景太熟悉了。我在课上讲过很多遍清洗,可一到自己动手,就是东一榔头西一棒子。今天我把压箱底的一套方法拆开给你看。不需要懂数学模型,按步骤走就行。
第一步叫“看骨架”。
别急着删数据。先打开文件,扫一遍。看看每列是什么类型。是金额,是日期,还是纯文字。这一步只要做对一件事:标记出明显不对劲的格子。比如价格列里出现“电话咨询”,日期列里写“大概3月”。用荧光笔或者Excel批注标出来就行。
第二步叫“拆炸弹”。
最让人头疼的就是空值和重复值。但别慌,分情况处理。如果是人名或ID列空了,千万不能补随便一个数字。直接删掉这一行更安全。如果是地址列空了,可以查查其他列有没有补充线索。重复数据要看是不是同一个人录了两次。是的话留最早那条。不是的话就保留。
第三步叫“改错字”。
脏数据里有一半是打错字。比如“手机号码”那列有11位也有10位。10位的肯定是漏了一位。还有单位不统一。有写“公斤”,有写“斤”。这时候要设规则。比如所有重量统一转成“千克”。再比如性别列,有写“男”,有写“M”,还有写“先生”。统一成一个格式。这就叫标准化。
第四步叫“挤水分”。
有些数据表面干净,但隐藏着问题。比如订单金额那列,小数点位置不对。正常是三位数,突然冒出个四位数。比较一下前后几笔订单就知道它错在哪。还有空格问题。很多人录入时手抖多按了下空格,这种看不见的字符最害人。用查找替换功能把多余空格清掉。
第五步叫“做体检”。
清洗完不等于完事。你要随机抽查几十条数据。用肉眼过一遍,看看有没有逻辑冲突。比如客户年龄写着5岁,职业写的是退休。这种一眼假的数据必须揪出来。还可以用Excel的条件格式功能,把异常值自动标红。
最后给你一个定心丸。脏数据不可怕,可怕的是你总想一下子搞完美。按这个模板,先骨架后细节,把每一步拆开做。做一列就检查一列。不出一个小时,你那张面目全非的表就会变得清清爽爽。
去试试看。
夜雨聆风