Python 玩转 Excel 案例【第 1 期】-夜雨聆风

Python 玩转 Excel 案例【第 1 期】

工作中是不是经常遇到这种场景：领导发来一份全员名单，又发来一份已完成名单，让你手动比对出“谁还没完成”？

今天我们就用一个真实的数据处理案例，教你如何用Python自动识别“未完成记录”，并直接保存回Excel。全程逐行拆解代码，小白也能看懂。

准备工作

在开始之前，我们需要确保环境已经安装了必要的库。今天的案例主要用到 pandas（数据处理）和 openpyxl（Excel写入引擎）。

pip install pandas openpyxl

1. 导入所需模块

首先，我们需要引入工具库。

import pandas as pd
from typing import Optional, Tuple
import logging
from pathlib import Path

• import pandas as pd ：Pandas是数据处理的核心库，用于读写Excel和操作表格数据。
• from typing import Optional, Tuple ：导入类型提示，Optional表示参数可为空，Tuple表示函数返回元组，让代码更规范。
• import logging ：导入日志模块，用于输出带时间戳的运行信息，便于追踪程序状态。
• from pathlib import Path ：导入路径处理库，智能处理文件路径，兼容不同操作系统。

配置日志：

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

• level=logging.INFO ：设置日志级别为INFO，程序运行时所有INFO级别及以上的日志都会显示。
• format ：定义日志的输出格式，这里设置为“时间 – 级别 – 消息内容”。
• logger = logging.getLogger(__name__) ：创建一个日志记录器实例。

2. 加载Excel工作表

我们写一个函数，专门用来加载Excel中指定的多个工作表。

def load_excel_sheets(file_path: str, sheet_names: list) -> Tuple[pd.DataFrame, ...]:
    """
    加载Excel文件中的指定工作表
    """
    try:
        dfs = []
        with pd.ExcelFile(file_path) as xlsx:
            for sheet in sheet_names:
                df = pd.read_excel(xlsx, sheet_name=sheet)
                dfs.append(df)
                logger.info(f"成功加载工作表: {sheet}, 记录数: {len(df)}")
        return tuple(dfs)
    except FileNotFoundError:
        logger.error(f"文件不存在: {file_path}")
        raise
    except Exception as e:
        logger.error(f"读取Excel文件失败: {e}")
        raise

逐行解释：

• def load_excel_sheets(...) ：定义函数。参数 file_path 是文件路径，sheet_names 是工作表名列表。
• -> Tuple[pd.DataFrame, ...] ：表示函数返回一个由多个DataFrame组成的元组。
• try...except ：异常处理机制，防止程序直接崩溃。
• dfs = [] ：创建一个空列表，存放读取进来的每一个表格。
• with pd.ExcelFile(file_path) as xlsx: ：创建Excel文件对象，with语句会自动关闭文件，避免资源泄露。
• for sheet in sheet_names: ：遍历列表中的每个工作表名。用列表是因为我们要同时加载“全部名单”和“已完成名单”两个表，一次性处理更高效。
• df = pd.read_excel(xlsx, sheet_name=sheet) ：读取指定名称的工作表，返回DataFrame。
• dfs.append(df) ：将读取到的表格追加到列表中。
• logger.info(...) ：记录日志，显示哪个表加载成功以及数据条数。
• return tuple(dfs) ：将列表转换成元组返回（元组不可修改，更安全）。
• except FileNotFoundError: ：文件不存在时记录错误并重新抛出异常。
• except Exception as e: ：捕获其他所有类型的错误。

📌 小Tip： 如果你不确定Excel文件里有哪些工作表，可以在Python中先用 pd.ExcelFile 读取后，通过 .sheet_names 属性查看。

3. 核心逻辑：识别未完成记录

这是整个脚本的大脑——通过对比两个名单，找出缺席者。

def identify_uncompleted_records(
    df_all: pd.DataFrame, 
    df_completed: pd.DataFrame,
    key_columns: Optional[list] = None
) -> pd.DataFrame:
    """
    识别未完成的记录
    """
    if key_columns is None:
        key_columns = df_all.columns.tolist()

    # 确保两个DataFrame有相同的列
    if not all(col in df_completed.columns for col in key_columns):
        raise ValueError("已完成名单缺少必要的关键列")

    # 使用merge进行反连接找出未完成记录
    df_uncompleted = df_all.merge(
        df_completed[key_columns],
        on=key_columns,
        how='left',
        indicator=True
    ).query('_merge == "left_only"').drop('_merge', axis=1)

    logger.info(f"未完成记录数: {len(df_uncompleted)}")
    return df_uncompleted

逐行解释：

• key_columns: Optional[list] = None ：可选参数，用来作为“主键”对比的列，如果不传则默认为None。
• if key_columns is None: ：如果没有指定对比列，就默认使用全部名单的所有列。
• key_columns = df_all.columns.tolist() ：获取全部名单的列名并转换成列表。
• if not all(col in df_completed.columns for col in key_columns): ：检查已完成名单是否包含所有必要的列。

这行代码的详细解释：

这是一个数据验证，用来检查“已完成名单”表格是否包含所有必要的列。

拆解来看：

1. for col in key_columns ：遍历 key_columns 列表中的每一列（比如 ['姓名', '部门']）。
2. col in df_completed.columns ：判断当前列是否存在于“已完成名单”的列名中，返回 True 或 False。
3. all(...) ：将所有的判断结果收集起来，只有全部为 True 时，all() 才返回 True。
4. if not ... ：取反。如果 all() 返回 False（说明有缺失列），就抛出错误。

为什么要这样写？

假设“全部名单”有姓名和部门两列，我们用这两列作为匹配依据去对比“已完成名单”。但如果“已完成名单”里只有姓名没有部门，程序就无法对比了。这行代码就是在提前预防这种错误。

📌 小Tip： 这种写法叫“列表推导式+all()函数”，是Python中非常简洁的数据完整性检查方式。

merge反连接详细解释

这行代码是整个脚本的核心，通过类似SQL的“左连接”找出在“全部名单”但不在“已完成名单”的人。

原始数据：

df_all（全部名单）：

+------+----------+
| 姓名 | 部门     |
+------+----------+
| 张明 | 研发中心 |
| 李华 | 产品部   |
| 王芳 | 市场部   |
| 陈强 | 技术部   |
| 刘洋 | 销售部   |
| 赵雷 | 人事部   |
| 孙梅 | 财务部   |
| 周涛 | 行政部   |
| 吴杰 | 研发中心 |
| 郑爽 | 产品部   |
+------+----------+

df_completed（已完成名单）：

+------+----------+
| 姓名 | 部门     |
+------+----------+
| 张明 | 研发中心 |
| 李华 | 产品部   |
| 陈强 | 技术部   |
| 刘洋 | 销售部   |
| 赵雷 | 人事部   |
+------+----------+

逐步骤分解：

步骤1：df_completed[key_columns]

选取已完成名单的关键列（姓名和部门）：

+------+----------+
| 姓名 | 部门     |
+------+----------+
| 张明 | 研发中心 |
| 李华 | 产品部   |
| 陈强 | 技术部   |
| 刘洋 | 销售部   |
| 赵雷 | 人事部   |
+------+----------+

步骤2：.merge(..., how='left', indicator=True)

将全部名单与上面这个表做左连接，并添加标记列。

indicator=True 是pandas中merge函数的一个参数，它的作用就是“添加标记列”。当设置 indicator=True 时，pandas会自动在合并结果中添加一列，默认列名叫 _merge，用来标记每一行数据的来源。

中间结果（添加了_merge列后）：

+------+----------+-----------+---------------+
| 姓名 | 部门     | _merge    | 匹配情况       |
+------+----------+-----------+---------------+
| 张明 | 研发中心 | both      | 两个表都有     |
| 李华 | 产品部   | both      | 两个表都有     |
| 王芳 | 市场部   | left_only | 只在全部名单   |
| 陈强 | 技术部   | both      | 两个表都有     |
| 刘洋 | 销售部   | both      | 两个表都有     |
| 赵雷 | 人事部   | both      | 两个表都有     |
| 孙梅 | 财务部   | left_only | 只在全部名单   |
| 周涛 | 行政部   | left_only | 只在全部名单   |
| 吴杰 | 研发中心 | left_only | 只在全部名单   |
| 郑爽 | 产品部   | left_only | 只在全部名单   |
+------+----------+-----------+---------------+

• both ：该行在左右两个表中都存在（已完成的人）
• left_only ：该行只在左表（全部名单）中存在（未完成的人）

步骤3：.query('_merge == "left_only"')

筛选出 _merge 列为 left_only 的行，即未完成的人：

+------+----------+-----------+
| 姓名 | 部门     | _merge    |
+------+----------+-----------+
| 王芳 | 市场部   | left_only |
| 孙梅 | 财务部   | left_only |
| 周涛 | 行政部   | left_only |
| 吴杰 | 研发中心 | left_only |
| 郑爽 | 产品部   | left_only |
+------+----------+-----------+

步骤4：.drop('_merge', axis=1)

删除辅助列 _merge，得到最终的未完成名单。

• axis=0 ：表示“行”方向，操作的是行
• axis=1 ：表示“列”方向，操作的是列

删除辅助列 _merge，得到最终的未完成名单：

最终结果（df_uncompleted）：

+------+----------+
| 姓名 | 部门     |
+------+----------+
| 王芳 | 市场部   |
| 孙梅 | 财务部   |
| 周涛 | 行政部   |
| 吴杰 | 研发中心 |
| 郑爽 | 产品部   |
+------+----------+

• logger.info(...) ：记录找到了多少条未完成记录。
• return df_uncompleted ：返回筛选出来的未完成记录表格。

📌 小Tip： 如果想看中间结果，可以把这行代码拆开执行：
temp = df_all.merge(df_completed[key_columns], on=key_columns, how='left', indicator=True)
print(temp)
result = temp.query('_merge == "left_only"').drop('_merge', axis=1)

4. 保存结果到Excel

把处理好的数据写回文件。

def save_to_excel(
    df: pd.DataFrame, 
    file_path: str, 
    sheet_name: str,
    if_sheet_exists: str = 'replace'
) -> None:
    """
    将DataFrame保存到Excel文件的指定工作表
    """
    try:
        with pd.ExcelWriter(
            file_path, 
            engine='openpyxl', 
            mode='a' if Path(file_path).exists() else 'w',
            if_sheet_exists=if_sheet_exists
        ) as writer:
            df.to_excel(writer, sheet_name=sheet_name, index=False)
        logger.info(f"成功保存到工作表: {sheet_name}")
    except Exception as e:
        logger.error(f"保存Excel文件失败: {e}")
        raise

逐行解释：

• def save_to_excel(...) ：定义保存函数。
• if_sheet_exists: str = 'replace' ：如果Excel里已有同名工作表，默认替换（replace）。
• with pd.ExcelWriter(...) as writer: ：创建Excel写入器。

• file_path：要写入的文件路径。
• engine='openpyxl'：处理 .xlsx 文件必须用 openpyxl 引擎。
• mode='a' if Path(file_path).exists() else 'w'：文件存在就用追加模式（a），不存在就用写入模式（w）创建新文件。
• if_sheet_exists=if_sheet_exists：处理同名工作表的策略。

• df.to_excel(writer, sheet_name=sheet_name, index=False) ：将DataFrame写入指定工作表。index=False 防止把默认行索引写到Excel里。
• logger.info(...) ：保存成功日志。

5. 主控流程

将上面所有的功能串联起来。

def process_attendance_data(
    file_path: str = 'day1.xlsx',
    all_sheet: str = '全部名单',
    completed_sheet: str = '已完成名单',
    uncompleted_sheet: str = '未完成名单'
) -> pd.DataFrame:
    """
    主处理函数：识别未完成记录并保存
    """
    # 加载数据
    df_all, df_completed = load_excel_sheets(
        file_path, 
        [all_sheet, completed_sheet]
    )

    # 数据验证
    if df_all.empty:
        raise ValueError("全部名单为空")

    # 识别未完成记录
    df_uncompleted = identify_uncompleted_records(df_all, df_completed)

    # 保存结果
    if not df_uncompleted.empty:
        save_to_excel(df_uncompleted, file_path, uncompleted_sheet)
    else:
        logger.info("所有记录均已完成，无需创建未完成名单")

    return df_uncompleted

逐行解释：

• file_path: str = 'day1.xlsx' ：设置默认文件路径，调用函数时不传参就默认处理这个文件。
• df_all, df_completed = load_excel_sheets(...) ：调用加载函数，返回的元组直接解包赋值给两个变量。
• if df_all.empty: ：防御性编程，如果全部名单为空就直接报错。
• df_uncompleted = identify_uncompleted_records(...) ：调用核心对比逻辑，得到未完成名单。
• if not df_uncompleted.empty: ：检查未完成名单是否为空。

`if not df_uncompleted.empty` 是什么意思？

这行代码是在检查“未完成名单”这个表格是否为空。

拆解来看：

• df_uncompleted.empty ：这是pandas的属性，用来判断DataFrame是否为空。

• 如果表格里有数据（行数 > 0），返回 False
• 如果表格里没有数据（行数 = 0），返回 True

• not ：取反操作符。

• True 变成 False
• False 变成 True

• 组合起来 if not df_uncompleted.empty ：

• 如果 df_uncompleted.empty 是 False（表格不为空），not False = True，执行if下面的保存操作
• 如果 df_uncompleted.empty 是 True（表格为空），not True = False，执行else打印日志

为什么要这样判断？

如果不加这个判断，当所有人都完成时，程序还是会创建一个空的“未完成名单”工作表，里面只有表头没有数据，看着很奇怪。

6. 程序入口

最后，当直接运行这个.py文件时，执行以下代码。

if __name__ == "__main__":
    # 执行主程序
    try:
        result_df = process_attendance_data()
        print("\n未完成名单预览:")
        print(result_df.head())
    except Exception as e:
        logger.error(f"程序执行失败: {e}")

• if __name__ == "__main__": ：确保当脚本被直接运行时下面的代码才执行；如果被别的文件导入，这部分代码不会运行。
• result_df = process_attendance_data() ：调用主函数，使用默认的文件名和工作表名。
• print("\n未完成名单预览:") ：打印输出标题。
• print(result_df.head()) ：显示前5行数据，预览结果。
• except Exception as e: ：捕获顶层异常，防止程序闪退。

执行效果预览

运行代码后，控制台输出如下：

2026-02-27 20:00:00 - INFO - 成功加载工作表: 全部名单, 记录数: 10
2026-02-27 20:00:00 - INFO - 成功加载工作表: 已完成名单, 记录数: 5
2026-02-27 20:00:00 - INFO - 未完成记录数: 5
2026-02-27 20:00:01 - INFO - 成功保存到工作表: 未完成名单

未完成名单预览:
+------+----------+
| 姓名 | 部门     |
+------+----------+
| 王芳 | 市场部   |
| 孙梅 | 财务部   |
| 周涛 | 行政部   |
| 吴杰 | 研发中心 |
| 郑爽 | 产品部   |
+------+----------+

此时打开 day1.xlsx 文件，会发现新增了一个名为“未完成名单”的工作表，里面正好是这5条记录。

写在最后

通过这不到50行核心代码，我们实现了一个完整的Excel自动化处理流程：读取 -> 对比 -> 筛选 -> 写入。

这个脚本今天处理的是考勤，明天稍微改一下字段名，就能处理**“订货单vs发货单”、“报名表vs签到表”**等各种场景。

如果你有什么好的建议，欢迎在评论区告诉我，我们明天继续！

📦 资源获取提示

关注「码农自习室」，后台回复关键词 PythonExcel案例，即可获取本文完整代码及配套练习数据集，一起动手掌握高效数据操作的核心技巧！

❤️ 支持我们

如果本文对你有帮助，欢迎点赞 + 关注 + 点亮小红心，你的支持就是我们持续创作的最大动力～

Python 玩转 Excel 案例【第 1 期】

Python 玩转 Excel 案例【第 1 期】

准备工作

1. 导入所需模块

2. 加载Excel工作表

逐行解释：

3. 核心逻辑：识别未完成记录

逐行解释：

这行代码的详细解释：

merge反连接详细解释

原始数据：

逐步骤分解：

4. 保存结果到Excel

逐行解释：

5. 主控流程

逐行解释：

`if not df_uncompleted.empty` 是什么意思？

6. 程序入口

执行效果预览

写在最后

📦 资源获取提示

❤️ 支持我们

wang

猜你喜欢

评论抢沙发

Python 玩转 Excel 案例【第 1 期】

准备工作

1. 导入所需模块

2. 加载Excel工作表

逐行解释：

3. 核心逻辑：识别未完成记录

逐行解释：

这行代码的详细解释：

merge反连接详细解释

原始数据：

逐步骤分解：

4. 保存结果到Excel

逐行解释：

5. 主控流程

逐行解释：

if not df_uncompleted.empty 是什么意思？

6. 程序入口

执行效果预览

写在最后

📦 资源获取提示

❤️ 支持我们

wang

猜你喜欢

评论 抢沙发

`if not df_uncompleted.empty` 是什么意思？

评论抢沙发