Excel 数据清洗:一张问题表,教会我 8 个自动清洗步骤
这篇文章解决什么问题
你拿到一张从各处收上来的 Excel 表,里面有合并单元格、有空格、有重复行、金额格式不统一、日期乱七八糟……你想做透视表统计,但数据根本没法直接用。
手动一个个改,100 行数据能搞半小时。交给 AI,10 秒出结果。
今天我用一张故意埋了问题的数据表,实战练了一遍数据清洗。把经验整理出来,以后你直接把表扔给 AI,按这个清单检查就行。
今天实战:一张问题表
我创建了一张 10 行的数据表,故意埋了 10 类问题:
| 问题类型 | 具体表现 | 行号 |
|---|---|---|
| 合并单元格 | "财务"合并了两行,第二行读出来是空的 | 1-2 |
| 空白行 | 整行都是空的 | 第4行 |
| 前后空格 | 负责人 " 王五 " 前后有空格 | 第3行 |
| 金额带单位 | "1500元" 写了单位 | 第3行 |
| 重复行 | 张三-预算审核-1250,出现了两次 | 第1、4行 |
| 文本不统一 | "财务科" vs "财务" 混用 | 第5行 |
| 空白格不规范 | 金额写"空白",状态写"-" | 第5、7行 |
| 日期前后空格 | " 2025-06-10 " | 第6行 |
| 金额汉字化 | "贰仟元" | 第8行 |
| 日期格式混乱 | "2025/06/18"、"2025.06.08" | 第5、9行 |
原始 11 行(含 1 空白行)→ 清洗后 9 行有效数据。

数据清洗:8 个自动步骤
以后你把表扔给 AI,下面这些它会自动做,你不用一条条说:
1. 删除空白行
整行都是空的,直接删掉。这种行在透视表里会干扰统计。
2. 处理合并单元格
Excel 里合并单元格看起来是一个格子,但 AI 读取时只有第一行有值,下面都是空的。自动向下填充,把空值补成上面的内容。
3. 去除前后空格
所有文本列的前后空格,包括:
- 负责人 " 王五 " → "王五"
- 状态 " 已完成" → "已完成"
- 科室 " 总师室 " → "总师室"
4. 去重
同一科室、同一负责人、同一工作内容、同一金额、同一日期,内容完全一样的行只保留一条。
发现技巧:先按"科室 + 金额 + 日期"排序,重复行会挨在一起,一眼就能看出来。
5. 金额转数字
统一处理以下情况:
- 带逗号:"2,340.50" → 2340.5
- 带单位:"1500元" → 1500
- 大写数字:"贰仟元" → 2000
- 空白填充:"空白"、"-" → 0
6. 日期统一
全部改成 YYYY-MM-DD 格式:
- "2025/06/03" → "2025-06-03"
- "2025.06.08" → "2025-06-08"
- 前后空格一并去掉
7. 空白格处理
根据列的性质判断:
- 金额列写"空白" → 转成 0(方便透视表求和)
- 状态列写"空白"或"-" → 转成"未填写"
8. 状态规范
统一写法,避免"已完成""已完成""完成"混用:
- "已完成"、"已完成"、"完成" → 统一成"已完成"
- "进行中"、"进行中" → 统一成"进行中"

这些不会自动做,需要你明确说
| 需要你告诉 AI 的 | 原因 |
|---|---|
| 加"科"字还是去"科"字 | 不同单位习惯不同 |
| 0 元显示成"0"还是"未产生" | 业务含义不同 |
| 删掉某一行 | 不知道是真的不要还是格式错 |
| 按什么规则排序 | 默认保留原顺序 |
| 拆分成多个表 | 不知道按科室拆还是按日期拆 |
今天踩的一个坑:用户说"补科字",但表里"财务"出现 3 次,"财务科"只出现 1 次。按"少数服从多数"其实应该统一成"财务"才对。统一的方向不是加不加字,而是不要混着来。 透视表时"财务"和"财务科"会被当成两个不同科室。
最简操作模板
以后你发表,只需要这个格式:
这张表帮我清洗一下,然后做透视表看各科室金额。
文件:xxx.xlsx
AI 会自动做:去空行、去空格、填合并单元格、去重、金额转数字、日期统一、空白格处理、状态规范。
小结
数据清洗的核心就一句话:让数据变得值得做透视表。
这 8 步做好,任何透视表、统计、图表都能直接出结果。
下回拿到 messy 的表,别手动改,按这个清单扔给 AI。

文章里的数据表文件可在后台回复"清洗练习"获取。
夜雨聆风