
很多人一听 Codex,会觉得它是程序员写代码用的。
但实际上,Codex 很适合处理一种普通人也经常遇到的问题:
一堆乱七八糟的 Excel 表格。
比如:
表头不统一;
日期格式混乱;
金额里有“元”“¥”“,”;
空行很多;
重复数据很多;
多个 Excel 文件需要合并;
每个部门交上来的表格格式都不一样;
整理完还要生成汇总表和图表。
以前这些事情只能手动改。
现在可以换一种方式:
让 Codex 帮你写脚本、跑脚本、导出新 Excel。
简单说:
不是让 Codex “告诉你怎么整理表格”,
而是让它真的帮你搭一条 Excel 自动化处理流程。
一、为什么用 Codex 整理 Excel?
普通 AI 聊天工具可以帮你写 Excel 公式,也可以告诉你怎么做透视表。
但 Codex 更进一步。
它可以在你的项目文件夹里工作:
读取 Excel 文件;
分析表格结构;
写 Python 脚本;
安装或调用 pandas、openpyxl 等工具;
运行脚本;
输出清洗后的新 Excel;
生成清洗日志;
把流程保存成以后还能复用的项目。
也就是说,Codex 不只是“给建议”。
它更像一个能帮你干活的 Excel 自动化助手。
二、哪些 Excel 任务适合交给 Codex?
不是所有 Excel 任务都必须用 Codex。
如果只是一个简单公式,比如求和、平均值、IF 判断,用普通 ChatGPT 问一下就够了。
但下面这些任务,很适合交给 Codex。
1. 多个 Excel 文件合并
比如一个文件夹里有 30 个部门表格。
你想把它们合并成一个总表。
Codex 可以帮你写脚本:
读取文件夹中所有 Excel;
逐个打开第一个 sheet;
统一列名;
增加来源文件名;
合并成一个总表;
导出 merged.xlsx。
这比手动复制粘贴稳定得多。
2. 表头不统一
比如有些表叫:
姓名
员工姓名
人员姓名
Name
其实都是同一列。
Codex 可以帮你制定列名映射规则,把它们统一成“姓名”。
再比如:
金额
销售额
订单金额
实收金额
这些也可以统一成你指定的标准字段。
3. 日期格式混乱
Excel 里日期经常长这样:
2026/05/26
2026-5-26
2026年5月26日
May 26, 2026
20260526
Codex 可以帮你写脚本,把它们统一成:
2026-05-26
这对后续按月份统计非常重要。
4. 金额格式混乱
有些金额是:
1000
1,000
¥1000
1000元
1,000.00 元
看起来都是金额,但 Excel 里可能有的是数字,有的是文本。
Codex 可以帮你清理符号,把金额列转换成真正的数字。
后面才能做求和、平均值、排序和图表。
5. 缺失值和重复值检查
Codex 可以帮你生成数据质量报告,比如:
每一列缺失多少;
缺失比例是多少;
哪些行完全重复;
哪些关键字段重复;
哪些字段存在异常值。
这个对科研数据、客户名单、销售数据都很有用。
6. 生成汇总表
清洗完之后,Codex 还可以帮你生成汇总 sheet。
比如:
按月份统计总金额;
按部门统计人数;
按地区统计订单数;
按人员统计完成量;
按类别统计占比。
最后输出到同一个 Excel 文件里。
三、用 Codex 整理 Excel 的标准流程
新手不要一上来就说:
“帮我整理这个 Excel。”
这句话太模糊。
更稳的流程是 5 步。
第一步:准备一个项目文件夹
先新建一个文件夹,比如:
excel_clean_project
里面可以这样放:
raw_data/
放原始 Excel 文件
output/
放处理后的结果文件
scripts/
放 Codex 生成的脚本
README.md
记录这个项目怎么用
这样做的好处是:
原始数据不会乱;
处理结果有地方保存;
脚本可以复用;
以后同类表格可以继续用。
第二步:让 Codex 先看结构,不要修改
打开 Codex,选择这个文件夹,然后先说:
请先读取 raw_data 文件夹中的 Excel 文件,不要修改任何原始文件。
请告诉我:
- 一共有多少个 Excel 文件;
- 每个文件有哪些 sheet;
- 每个 sheet 的行数和列数;
- 每一列的字段名;
- 哪些字段可能含义相同但命名不同;
- 哪些列有缺失值;
- 哪些列格式可能不统一;
- 先输出诊断报告,不要执行清洗。
这一步非常重要。
先诊断,再处理。
否则 Codex 可能会根据自己的理解直接清洗,结果不一定符合你的需求。
第三步:让 Codex 制定清洗方案
看完结构后,再让它制定方案:
请根据刚才的诊断结果,制定一份 Excel 清洗方案。
要求包括:
- 标准列名如何设置;
- 哪些列需要统一格式;
- 日期列如何处理;
- 金额列如何处理;
- 重复值如何判断;
- 缺失值如何保留或标记;
- 输出文件包含哪些 sheet;
- 先列方案,不要执行。
这一阶段你要重点检查:
列名有没有统一错;
日期列有没有识别错;
金额列有没有搞错;
哪些重复值应该删,哪些不能删;
缺失值是不是应该保留。
第四步:确认后再让 Codex 写脚本
方案确认后,再说:
请按照确认后的清洗方案,写一个 Python 脚本。
要求:
- 使用 pandas 和 openpyxl;
- 读取 raw_data 文件夹中的所有 Excel 文件;
- 不要覆盖原始文件;
- 清洗后的总表输出到 output/merged_cleaned.xlsx;
- 同时生成 output/cleaning_log.txt;
- 日志中记录读取了哪些文件、合并了多少行、删除了多少重复行、哪些列被重命名、哪些日期和金额字段被转换;
- 先生成脚本,并解释脚本逻辑,不要直接运行。
注意最后一句:
先生成脚本,不要直接运行。
这样你可以先看它准备做什么。
第五步:确认后运行并检查结果
如果脚本逻辑没问题,再让 Codex 运行。
运行后,让它继续检查:
请运行脚本,并检查输出文件。
请告诉我:
- 原始总行数;
- 清洗后总行数;
- 删除了多少重复行;
- 每一列缺失值数量;
- 输出文件包含哪些 sheet;
- 是否有报错或异常值需要我人工确认。
这一步就是“结果验收”。
不要生成完就直接拿去用。
四、完整案例:把 30 个部门表格合并成总表
假设你有 30 个 Excel 文件,每个文件是一个部门提交的月度数据。
问题是:
每个文件表头不完全一样;
有些文件多了空行;
有些金额带“元”;
日期格式不统一;
有重复记录;
你还想知道每个部门各自提交了多少数据。
你可以这样给 Codex 下指令:
我有一个文件夹 raw_data,里面有多个部门提交的 Excel 文件。
请帮我完成一个 Excel 自动整理项目。
目标:把所有文件合并成一个干净的总表,并生成清洗日志。
具体要求:
- 读取 raw_data 中所有 .xlsx 文件;
- 合并每个文件的第一个 sheet;
- 自动去除完全空白行;
- 统一列名:员工姓名、人员姓名、姓名统一为“姓名”;
- 金额、销售额、订单金额统一为“金额”;
- 日期、提交日期、填报日期统一为“日期”;
- 将金额列中的“元”“¥”“,”去掉,并转为数字;
- 将日期统一为 YYYY-MM-DD 格式;
- 增加一列“来源文件名”;
- 增加一列“来源部门”,从文件名中提取;
- 去除完全重复的行;
- 输出 output/merged_cleaned.xlsx;
- 额外生成一个 summary sheet,按来源部门统计记录数和金额总和;
- 生成 output/cleaning_log.txt;
- 不要覆盖任何原始文件。
请先生成处理方案和脚本逻辑,不要直接运行。
这就是一个非常典型的 Codex + Excel 场景。
如果你每个月都要做同样的整理,以后只要把新文件放进 raw_data,再运行同一个脚本就可以。
这才叫真正省时间。
五、用 Codex 整理 Excel 的优势
1. 不用记复杂公式
你不需要记 VLOOKUP、XLOOKUP、COUNTIF、SUMIF。
你只需要说清楚:
我要按什么字段匹配;
我要统计什么;
我要输出什么结果。
Codex 可以帮你写公式,也可以直接写脚本处理。
2. 适合批量处理
Excel 手工操作最怕批量。
一个表还好,几十个表就很崩溃。
Codex 的优势就是批量:
批量读取;
批量合并;
批量改名;
批量清洗;
批量导出。
3. 可以复用
手动操作做完就结束了。
但 Codex 写出来的脚本可以保留下来。
下次遇到类似数据,只要替换原始文件,再运行一次。
这就是从“手动整理”变成“自动化流程”。
4. 有日志,方便检查
好的 Excel 自动化不应该是黑箱。
你要让 Codex 生成日志。
比如:
读取了几个文件;
合并了多少行;
删除了多少重复值;
哪些列被重命名;
哪些字段转换失败;
哪些数据需要人工确认。
这样你才知道它到底做了什么。
六、哪些人最适合用 Codex 整理 Excel?
1. 职场新人
比如:
会议签到表;
客户名单;
部门月报;
销售数据;
库存表;
活动报名表。
2. 科研人员
比如:
病例数据;
随访表;
问卷数据;
实验记录;
多中心数据;
文献提取表。
3. 运营人员
比如:
账号数据;
内容选题库;
阅读量统计;
用户标签;
投放数据;
转化数据。
4. 财务和行政
比如:
报销表;
发票台账;
供应商名单;
合同台账;
费用分类;
预算执行表。
5. 学生
比如:
问卷结果;
成绩统计;
社团报名表;
文献阅读表;
课程资料整理表。
七、新手一定要注意的 6 件事
1. 不要覆盖原始文件
每次都明确告诉 Codex:
不要覆盖原始文件。
输出到 output 文件夹。
2. 先诊断,再处理
不要一上来就让它清洗。
先让它看:
有哪些文件;
有哪些列;
哪里不统一;
哪里有缺失;
哪里有重复。
3. 字段含义不清楚时,不要让它乱猜
比如:
“订单金额”和“实收金额”不一定一样。
“提交日期”和“审核日期”不一定一样。
“患者编号”和“住院号”不一定一样。
含义不清楚时,让它标记出来,等你确认。
4. 敏感数据先脱敏
如果 Excel 里有:
身份证号;
手机号;
患者信息;
客户资料;
财务数据;
未发表科研数据。
一定要谨慎。
能本地处理就本地处理。
能脱敏就先脱敏。
不要随便上传到不清楚的外部服务。
5. 运行脚本前先让它解释
看到 Codex 准备运行命令时,不要无脑批准。
可以先问:
请解释这条命令会做什么,会不会修改原始文件,会不会删除数据,能不能回退。
6. 输出后一定要抽查
至少检查:
总行数是否合理;
金额合计是否对得上;
日期有没有错;
列名有没有统一错;
重复值有没有误删;
summary 表是否合理。
AI 可以帮你省时间,但不能替你承担最终责任。
八、适合直接复制给 Codex 的提示词模板
模板 1:先诊断
请读取 raw_data 文件夹中的 Excel 文件,不要修改任何文件。
请输出一个诊断报告,包括文件数量、sheet 名称、行列数、字段名、缺失值、重复值、可能含义相同但命名不同的字段,以及可能存在格式问题的列。
模板 2:制定清洗方案
请根据诊断报告制定清洗方案。
请说明标准列名、日期处理方式、金额处理方式、重复值判断方式、缺失值处理方式和输出文件结构。
先不要执行。
模板 3:写清洗脚本
请按照确认后的方案写 Python 脚本。
使用 pandas 和 openpyxl。
读取 raw_data 文件夹,输出到 output 文件夹。
不要覆盖原始文件。
同时生成 cleaning_log.txt,记录每一步处理结果。
先解释脚本逻辑,不要直接运行。
模板 4:运行并验收
请运行脚本,并检查输出文件。
请汇报原始总行数、清洗后总行数、删除重复行数、缺失值统计、输出 sheet 列表和需要人工确认的问题。
模板 5:生成汇总表
请基于清洗后的总表,生成 summary sheet。
按月份、部门、类别分别统计记录数、金额总和和平均金额。
请保留原始总表,并输出到新的 Excel 文件。
The End~
夜雨聆风