Python 玩转 Excel 案例【第 1 期】
Python 玩转 Excel 案例【第 1 期】
工作中是不是经常遇到这种场景:领导发来一份全员名单,又发来一份已完成名单,让你手动比对出“谁还没完成”?
今天我们就用一个真实的数据处理案例,教你如何用Python自动识别“未完成记录”,并直接保存回Excel。全程逐行拆解代码,小白也能看懂。
准备工作
在开始之前,我们需要确保环境已经安装了必要的库。今天的案例主要用到 pandas(数据处理)和 openpyxl(Excel写入引擎)。
pip install pandas openpyxl
1. 导入所需模块
首先,我们需要引入工具库。
import pandas as pd
from typing import Optional, Tuple
import logging
from pathlib import Path
-
• import pandas as pd:Pandas是数据处理的核心库,用于读写Excel和操作表格数据。 -
• from typing import Optional, Tuple:导入类型提示,Optional表示参数可为空,Tuple表示函数返回元组,让代码更规范。 -
• import logging:导入日志模块,用于输出带时间戳的运行信息,便于追踪程序状态。 -
• from pathlib import Path:导入路径处理库,智能处理文件路径,兼容不同操作系统。
配置日志:
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)
-
• level=logging.INFO:设置日志级别为INFO,程序运行时所有INFO级别及以上的日志都会显示。 -
• format:定义日志的输出格式,这里设置为“时间 – 级别 – 消息内容”。 -
• logger = logging.getLogger(__name__):创建一个日志记录器实例。
2. 加载Excel工作表
我们写一个函数,专门用来加载Excel中指定的多个工作表。
def load_excel_sheets(file_path: str, sheet_names: list) -> Tuple[pd.DataFrame, ...]:
"""
加载Excel文件中的指定工作表
"""
try:
dfs = []
with pd.ExcelFile(file_path) as xlsx:
for sheet in sheet_names:
df = pd.read_excel(xlsx, sheet_name=sheet)
dfs.append(df)
logger.info(f"成功加载工作表: {sheet}, 记录数: {len(df)}")
return tuple(dfs)
except FileNotFoundError:
logger.error(f"文件不存在: {file_path}")
raise
except Exception as e:
logger.error(f"读取Excel文件失败: {e}")
raise
逐行解释:
-
• def load_excel_sheets(...):定义函数。参数file_path是文件路径,sheet_names是工作表名列表。 -
• -> Tuple[pd.DataFrame, ...]:表示函数返回一个由多个DataFrame组成的元组。 -
• try...except:异常处理机制,防止程序直接崩溃。 -
• dfs = []:创建一个空列表,存放读取进来的每一个表格。 -
• with pd.ExcelFile(file_path) as xlsx::创建Excel文件对象,with语句会自动关闭文件,避免资源泄露。 -
• for sheet in sheet_names::遍历列表中的每个工作表名。用列表是因为我们要同时加载“全部名单”和“已完成名单”两个表,一次性处理更高效。 -
• df = pd.read_excel(xlsx, sheet_name=sheet):读取指定名称的工作表,返回DataFrame。 -
• dfs.append(df):将读取到的表格追加到列表中。 -
• logger.info(...):记录日志,显示哪个表加载成功以及数据条数。 -
• return tuple(dfs):将列表转换成元组返回(元组不可修改,更安全)。 -
• except FileNotFoundError::文件不存在时记录错误并重新抛出异常。 -
• except Exception as e::捕获其他所有类型的错误。
📌 小Tip: 如果你不确定Excel文件里有哪些工作表,可以在Python中先用
pd.ExcelFile读取后,通过.sheet_names属性查看。
3. 核心逻辑:识别未完成记录
这是整个脚本的大脑——通过对比两个名单,找出缺席者。
def identify_uncompleted_records(
df_all: pd.DataFrame,
df_completed: pd.DataFrame,
key_columns: Optional[list] = None
) -> pd.DataFrame:
"""
识别未完成的记录
"""
if key_columns is None:
key_columns = df_all.columns.tolist()
# 确保两个DataFrame有相同的列
if not all(col in df_completed.columns for col in key_columns):
raise ValueError("已完成名单缺少必要的关键列")
# 使用merge进行反连接找出未完成记录
df_uncompleted = df_all.merge(
df_completed[key_columns],
on=key_columns,
how='left',
indicator=True
).query('_merge == "left_only"').drop('_merge', axis=1)
logger.info(f"未完成记录数: {len(df_uncompleted)}")
return df_uncompleted
逐行解释:
-
• key_columns: Optional[list] = None:可选参数,用来作为“主键”对比的列,如果不传则默认为None。 -
• if key_columns is None::如果没有指定对比列,就默认使用全部名单的所有列。 -
• key_columns = df_all.columns.tolist():获取全部名单的列名并转换成列表。 -
• if not all(col in df_completed.columns for col in key_columns)::检查已完成名单是否包含所有必要的列。
这行代码的详细解释:
这是一个数据验证,用来检查“已完成名单”表格是否包含所有必要的列。
拆解来看:
-
1. for col in key_columns:遍历key_columns列表中的每一列(比如['姓名', '部门'])。 -
2. col in df_completed.columns:判断当前列是否存在于“已完成名单”的列名中,返回True或False。 -
3. all(...):将所有的判断结果收集起来,只有全部为True时,all()才返回True。 -
4. if not ...:取反。如果all()返回False(说明有缺失列),就抛出错误。
为什么要这样写?
假设“全部名单”有姓名和部门两列,我们用这两列作为匹配依据去对比“已完成名单”。但如果“已完成名单”里只有姓名没有部门,程序就无法对比了。这行代码就是在提前预防这种错误。
📌 小Tip: 这种写法叫“列表推导式+all()函数”,是Python中非常简洁的数据完整性检查方式。
merge反连接详细解释
这行代码是整个脚本的核心,通过类似SQL的“左连接”找出在“全部名单”但不在“已完成名单”的人。
原始数据:
df_all(全部名单):
+------+----------+
| 姓名 | 部门 |
+------+----------+
| 张明 | 研发中心 |
| 李华 | 产品部 |
| 王芳 | 市场部 |
| 陈强 | 技术部 |
| 刘洋 | 销售部 |
| 赵雷 | 人事部 |
| 孙梅 | 财务部 |
| 周涛 | 行政部 |
| 吴杰 | 研发中心 |
| 郑爽 | 产品部 |
+------+----------+
df_completed(已完成名单):
+------+----------+
| 姓名 | 部门 |
+------+----------+
| 张明 | 研发中心 |
| 李华 | 产品部 |
| 陈强 | 技术部 |
| 刘洋 | 销售部 |
| 赵雷 | 人事部 |
+------+----------+
逐步骤分解:
步骤1:df_completed[key_columns]
选取已完成名单的关键列(姓名和部门):
+------+----------+
| 姓名 | 部门 |
+------+----------+
| 张明 | 研发中心 |
| 李华 | 产品部 |
| 陈强 | 技术部 |
| 刘洋 | 销售部 |
| 赵雷 | 人事部 |
+------+----------+
步骤2:.merge(..., how='left', indicator=True)
将全部名单与上面这个表做左连接,并添加标记列。
indicator=True 是pandas中merge函数的一个参数,它的作用就是“添加标记列”。当设置 indicator=True 时,pandas会自动在合并结果中添加一列,默认列名叫 _merge,用来标记每一行数据的来源。
中间结果(添加了_merge列后):
+------+----------+-----------+---------------+
| 姓名 | 部门 | _merge | 匹配情况 |
+------+----------+-----------+---------------+
| 张明 | 研发中心 | both | 两个表都有 |
| 李华 | 产品部 | both | 两个表都有 |
| 王芳 | 市场部 | left_only | 只在全部名单 |
| 陈强 | 技术部 | both | 两个表都有 |
| 刘洋 | 销售部 | both | 两个表都有 |
| 赵雷 | 人事部 | both | 两个表都有 |
| 孙梅 | 财务部 | left_only | 只在全部名单 |
| 周涛 | 行政部 | left_only | 只在全部名单 |
| 吴杰 | 研发中心 | left_only | 只在全部名单 |
| 郑爽 | 产品部 | left_only | 只在全部名单 |
+------+----------+-----------+---------------+
-
• both:该行在左右两个表中都存在(已完成的人) -
• left_only:该行只在左表(全部名单)中存在(未完成的人)
步骤3:.query('_merge == "left_only"')
筛选出 _merge 列为 left_only 的行,即未完成的人:
+------+----------+-----------+
| 姓名 | 部门 | _merge |
+------+----------+-----------+
| 王芳 | 市场部 | left_only |
| 孙梅 | 财务部 | left_only |
| 周涛 | 行政部 | left_only |
| 吴杰 | 研发中心 | left_only |
| 郑爽 | 产品部 | left_only |
+------+----------+-----------+
步骤4:.drop('_merge', axis=1)
删除辅助列 _merge,得到最终的未完成名单。
-
• axis=0:表示“行”方向,操作的是行 -
• axis=1:表示“列”方向,操作的是列
删除辅助列 _merge,得到最终的未完成名单:
最终结果(df_uncompleted):
+------+----------+
| 姓名 | 部门 |
+------+----------+
| 王芳 | 市场部 |
| 孙梅 | 财务部 |
| 周涛 | 行政部 |
| 吴杰 | 研发中心 |
| 郑爽 | 产品部 |
+------+----------+
-
• logger.info(...):记录找到了多少条未完成记录。 -
• return df_uncompleted:返回筛选出来的未完成记录表格。
📌 小Tip: 如果想看中间结果,可以把这行代码拆开执行:
temp = df_all.merge(df_completed[key_columns], on=key_columns, how='left', indicator=True)
print(temp)
result = temp.query('_merge == "left_only"').drop('_merge', axis=1)
4. 保存结果到Excel
把处理好的数据写回文件。
def save_to_excel(
df: pd.DataFrame,
file_path: str,
sheet_name: str,
if_sheet_exists: str = 'replace'
) -> None:
"""
将DataFrame保存到Excel文件的指定工作表
"""
try:
with pd.ExcelWriter(
file_path,
engine='openpyxl',
mode='a' if Path(file_path).exists() else 'w',
if_sheet_exists=if_sheet_exists
) as writer:
df.to_excel(writer, sheet_name=sheet_name, index=False)
logger.info(f"成功保存到工作表: {sheet_name}")
except Exception as e:
logger.error(f"保存Excel文件失败: {e}")
raise
逐行解释:
-
• def save_to_excel(...):定义保存函数。 -
• if_sheet_exists: str = 'replace':如果Excel里已有同名工作表,默认替换(replace)。 -
• with pd.ExcelWriter(...) as writer::创建Excel写入器。 -
• file_path:要写入的文件路径。 -
• engine='openpyxl':处理.xlsx文件必须用openpyxl引擎。 -
• mode='a' if Path(file_path).exists() else 'w':文件存在就用追加模式(a),不存在就用写入模式(w)创建新文件。 -
• if_sheet_exists=if_sheet_exists:处理同名工作表的策略。 -
• df.to_excel(writer, sheet_name=sheet_name, index=False):将DataFrame写入指定工作表。index=False防止把默认行索引写到Excel里。 -
• logger.info(...):保存成功日志。
5. 主控流程
将上面所有的功能串联起来。
def process_attendance_data(
file_path: str = 'day1.xlsx',
all_sheet: str = '全部名单',
completed_sheet: str = '已完成名单',
uncompleted_sheet: str = '未完成名单'
) -> pd.DataFrame:
"""
主处理函数:识别未完成记录并保存
"""
# 加载数据
df_all, df_completed = load_excel_sheets(
file_path,
[all_sheet, completed_sheet]
)
# 数据验证
if df_all.empty:
raise ValueError("全部名单为空")
# 识别未完成记录
df_uncompleted = identify_uncompleted_records(df_all, df_completed)
# 保存结果
if not df_uncompleted.empty:
save_to_excel(df_uncompleted, file_path, uncompleted_sheet)
else:
logger.info("所有记录均已完成,无需创建未完成名单")
return df_uncompleted
逐行解释:
-
• file_path: str = 'day1.xlsx':设置默认文件路径,调用函数时不传参就默认处理这个文件。 -
• df_all, df_completed = load_excel_sheets(...):调用加载函数,返回的元组直接解包赋值给两个变量。 -
• if df_all.empty::防御性编程,如果全部名单为空就直接报错。 -
• df_uncompleted = identify_uncompleted_records(...):调用核心对比逻辑,得到未完成名单。 -
• if not df_uncompleted.empty::检查未完成名单是否为空。
if not df_uncompleted.empty 是什么意思?
这行代码是在检查“未完成名单”这个表格是否为空。
拆解来看:
-
• df_uncompleted.empty:这是pandas的属性,用来判断DataFrame是否为空。 -
• 如果表格里有数据(行数 > 0),返回 False -
• 如果表格里没有数据(行数 = 0),返回 True -
• not:取反操作符。 -
• True变成False -
• False变成True -
• 组合起来 if not df_uncompleted.empty: -
• 如果 df_uncompleted.empty是False(表格不为空),not False=True,执行if下面的保存操作 -
• 如果 df_uncompleted.empty是True(表格为空),not True=False,执行else打印日志
为什么要这样判断?
如果不加这个判断,当所有人都完成时,程序还是会创建一个空的“未完成名单”工作表,里面只有表头没有数据,看着很奇怪。
6. 程序入口
最后,当直接运行这个.py文件时,执行以下代码。
if __name__ == "__main__":
# 执行主程序
try:
result_df = process_attendance_data()
print("\n未完成名单预览:")
print(result_df.head())
except Exception as e:
logger.error(f"程序执行失败: {e}")
-
• if __name__ == "__main__"::确保当脚本被直接运行时下面的代码才执行;如果被别的文件导入,这部分代码不会运行。 -
• result_df = process_attendance_data():调用主函数,使用默认的文件名和工作表名。 -
• print("\n未完成名单预览:"):打印输出标题。 -
• print(result_df.head()):显示前5行数据,预览结果。 -
• except Exception as e::捕获顶层异常,防止程序闪退。
执行效果预览
运行代码后,控制台输出如下:
2026-02-27 20:00:00 - INFO - 成功加载工作表: 全部名单, 记录数: 10
2026-02-27 20:00:00 - INFO - 成功加载工作表: 已完成名单, 记录数: 5
2026-02-27 20:00:00 - INFO - 未完成记录数: 5
2026-02-27 20:00:01 - INFO - 成功保存到工作表: 未完成名单
未完成名单预览:
+------+----------+
| 姓名 | 部门 |
+------+----------+
| 王芳 | 市场部 |
| 孙梅 | 财务部 |
| 周涛 | 行政部 |
| 吴杰 | 研发中心 |
| 郑爽 | 产品部 |
+------+----------+
此时打开 day1.xlsx 文件,会发现新增了一个名为“未完成名单”的工作表,里面正好是这5条记录。
写在最后
通过这不到50行核心代码,我们实现了一个完整的Excel自动化处理流程:读取 -> 对比 -> 筛选 -> 写入。
这个脚本今天处理的是考勤,明天稍微改一下字段名,就能处理**“订货单vs发货单”、“报名表vs签到表”**等各种场景。
如果你有什么好的建议,欢迎在评论区告诉我,我们明天继续!
📦 资源获取提示
关注「码农自习室」,后台回复关键词 PythonExcel案例,即可获取本文完整代码及配套练习数据集,一起动手掌握高效数据操作的核心技巧!
❤️ 支持我们
如果本文对你有帮助,欢迎点赞 + 关注 + 点亮小红心,你的支持就是我们持续创作的最大动力~
夜雨聆风
