乐于分享
好东西不私藏

Python 玩转 Excel 案例【第 1 期】

Python 玩转 Excel 案例【第 1 期】

Python 玩转 Excel 案例【第 1 期】

工作中是不是经常遇到这种场景:领导发来一份全员名单,又发来一份已完成名单,让你手动比对出“谁还没完成”?

今天我们就用一个真实的数据处理案例,教你如何用Python自动识别“未完成记录”,并直接保存回Excel。全程逐行拆解代码,小白也能看懂。

准备工作

在开始之前,我们需要确保环境已经安装了必要的库。今天的案例主要用到 pandas(数据处理)和 openpyxl(Excel写入引擎)。

pip install pandas openpyxl

1. 导入所需模块

首先,我们需要引入工具库。

import pandas as pd
from
 typing import Optional, Tuple
import
 logging
from
 pathlib import Path
  • • import pandas as pd :Pandas是数据处理的核心库,用于读写Excel和操作表格数据。
  • • from typing import Optional, Tuple :导入类型提示,Optional表示参数可为空,Tuple表示函数返回元组,让代码更规范。
  • • import logging :导入日志模块,用于输出带时间戳的运行信息,便于追踪程序状态。
  • • from pathlib import Path :导入路径处理库,智能处理文件路径,兼容不同操作系统。

配置日志:

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)
  • • level=logging.INFO :设置日志级别为INFO,程序运行时所有INFO级别及以上的日志都会显示。
  • • format :定义日志的输出格式,这里设置为“时间 – 级别 – 消息内容”。
  • • logger = logging.getLogger(__name__) :创建一个日志记录器实例。

2. 加载Excel工作表

我们写一个函数,专门用来加载Excel中指定的多个工作表。

def load_excel_sheets(file_path: str, sheet_names: list) -> Tuple[pd.DataFrame, ...]:
    """
    加载Excel文件中的指定工作表
    """

    try
:
        dfs = []
        with
 pd.ExcelFile(file_path) as xlsx:
            for
 sheet in sheet_names:
                df = pd.read_excel(xlsx, sheet_name=sheet)
                dfs.append(df)
                logger.info(f"成功加载工作表: {sheet}, 记录数: {len(df)}")
        return
 tuple(dfs)
    except
 FileNotFoundError:
        logger.error(f"文件不存在: {file_path}")
        raise

    except
 Exception as e:
        logger.error(f"读取Excel文件失败: {e}")
        raise

逐行解释:

  • • def load_excel_sheets(...) :定义函数。参数 file_path 是文件路径,sheet_names 是工作表名列表。
  • • -> Tuple[pd.DataFrame, ...] :表示函数返回一个由多个DataFrame组成的元组。
  • • try...except :异常处理机制,防止程序直接崩溃。
  • • dfs = [] :创建一个空列表,存放读取进来的每一个表格。
  • • with pd.ExcelFile(file_path) as xlsx: :创建Excel文件对象,with语句会自动关闭文件,避免资源泄露。
  • • for sheet in sheet_names: :遍历列表中的每个工作表名。用列表是因为我们要同时加载“全部名单”和“已完成名单”两个表,一次性处理更高效。
  • • df = pd.read_excel(xlsx, sheet_name=sheet) :读取指定名称的工作表,返回DataFrame。
  • • dfs.append(df) :将读取到的表格追加到列表中。
  • • logger.info(...) :记录日志,显示哪个表加载成功以及数据条数。
  • • return tuple(dfs) :将列表转换成元组返回(元组不可修改,更安全)。
  • • except FileNotFoundError: :文件不存在时记录错误并重新抛出异常。
  • • except Exception as e: :捕获其他所有类型的错误。

📌 小Tip: 如果你不确定Excel文件里有哪些工作表,可以在Python中先用 pd.ExcelFile 读取后,通过 .sheet_names 属性查看。


3. 核心逻辑:识别未完成记录

这是整个脚本的大脑——通过对比两个名单,找出缺席者。

def identify_uncompleted_records(
    df_all: pd.DataFrame, 
    df_completed: pd.DataFrame,
    key_columns: Optional[list] = None
) -> pd.DataFrame:
    """
    识别未完成的记录
    """

    if
 key_columns is None:
        key_columns = df_all.columns.tolist()

    # 确保两个DataFrame有相同的列

    if
 not all(col in df_completed.columns for col in key_columns):
        raise
 ValueError("已完成名单缺少必要的关键列")

    # 使用merge进行反连接找出未完成记录

    df_uncompleted = df_all.merge(
        df_completed[key_columns],
        on=key_columns,
        how='left',
        indicator=True
    ).query('_merge == "left_only"').drop('_merge', axis=1)

    logger.info(f"未完成记录数: {len(df_uncompleted)}")
    return
 df_uncompleted

逐行解释:

  • • key_columns: Optional[list] = None :可选参数,用来作为“主键”对比的列,如果不传则默认为None。
  • • if key_columns is None: :如果没有指定对比列,就默认使用全部名单的所有列。
  • • key_columns = df_all.columns.tolist() :获取全部名单的列名并转换成列表。
  • • if not all(col in df_completed.columns for col in key_columns): :检查已完成名单是否包含所有必要的列。

这行代码的详细解释:

这是一个数据验证,用来检查“已完成名单”表格是否包含所有必要的列。

拆解来看:

  1. 1. for col in key_columns :遍历 key_columns 列表中的每一列(比如 ['姓名', '部门'])。
  2. 2. col in df_completed.columns :判断当前列是否存在于“已完成名单”的列名中,返回 True 或 False
  3. 3. all(...) :将所有的判断结果收集起来,只有全部为 True 时,all() 才返回 True
  4. 4. if not ... :取反。如果 all() 返回 False(说明有缺失列),就抛出错误。

为什么要这样写?

假设“全部名单”有姓名和部门两列,我们用这两列作为匹配依据去对比“已完成名单”。但如果“已完成名单”里只有姓名没有部门,程序就无法对比了。这行代码就是在提前预防这种错误

📌 小Tip: 这种写法叫“列表推导式+all()函数”,是Python中非常简洁的数据完整性检查方式。

merge反连接详细解释

这行代码是整个脚本的核心,通过类似SQL的“左连接”找出在“全部名单”但不在“已完成名单”的人。

原始数据:

df_all(全部名单)

+------+----------+
| 姓名 | 部门     |
+------+----------+
| 张明 | 研发中心 |
| 李华 | 产品部   |
| 王芳 | 市场部   |
| 陈强 | 技术部   |
| 刘洋 | 销售部   |
| 赵雷 | 人事部   |
| 孙梅 | 财务部   |
| 周涛 | 行政部   |
| 吴杰 | 研发中心 |
| 郑爽 | 产品部   |
+------+----------+

df_completed(已完成名单)

+------+----------+
| 姓名 | 部门     |
+------+----------+
| 张明 | 研发中心 |
| 李华 | 产品部   |
| 陈强 | 技术部   |
| 刘洋 | 销售部   |
| 赵雷 | 人事部   |
+------+----------+

逐步骤分解:

步骤1:df_completed[key_columns]

选取已完成名单的关键列(姓名和部门):

+------+----------+
| 姓名 | 部门     |
+------+----------+
| 张明 | 研发中心 |
| 李华 | 产品部   |
| 陈强 | 技术部   |
| 刘洋 | 销售部   |
| 赵雷 | 人事部   |
+------+----------+

步骤2:.merge(..., how='left', indicator=True)

将全部名单与上面这个表做左连接,并添加标记列。

indicator=True 是pandas中merge函数的一个参数,它的作用就是“添加标记列”。当设置 indicator=True 时,pandas会自动在合并结果中添加一列,默认列名叫 _merge,用来标记每一行数据的来源。

中间结果(添加了_merge列后)

+------+----------+-----------+---------------+
| 姓名 | 部门     | _merge    | 匹配情况       |
+------+----------+-----------+---------------+
| 张明 | 研发中心 | both      | 两个表都有     |
| 李华 | 产品部   | both      | 两个表都有     |
| 王芳 | 市场部   | left_only | 只在全部名单   |
| 陈强 | 技术部   | both      | 两个表都有     |
| 刘洋 | 销售部   | both      | 两个表都有     |
| 赵雷 | 人事部   | both      | 两个表都有     |
| 孙梅 | 财务部   | left_only | 只在全部名单   |
| 周涛 | 行政部   | left_only | 只在全部名单   |
| 吴杰 | 研发中心 | left_only | 只在全部名单   |
| 郑爽 | 产品部   | left_only | 只在全部名单   |
+------+----------+-----------+---------------+
  • • both :该行在左右两个表中都存在(已完成的人)
  • • left_only :该行只在左表(全部名单)中存在(未完成的人)

步骤3:.query('_merge == "left_only"')

筛选出 _merge 列为 left_only 的行,即未完成的人:

+------+----------+-----------+
| 姓名 | 部门     | _merge    |
+------+----------+-----------+
| 王芳 | 市场部   | left_only |
| 孙梅 | 财务部   | left_only |
| 周涛 | 行政部   | left_only |
| 吴杰 | 研发中心 | left_only |
| 郑爽 | 产品部   | left_only |
+------+----------+-----------+

步骤4:.drop('_merge', axis=1)

删除辅助列 _merge,得到最终的未完成名单。

  • • axis=0 :表示“行”方向,操作的是行
  • • axis=1 :表示“列”方向,操作的是列

删除辅助列 _merge,得到最终的未完成名单:

最终结果(df_uncompleted)

+------+----------+
| 姓名 | 部门     |
+------+----------+
| 王芳 | 市场部   |
| 孙梅 | 财务部   |
| 周涛 | 行政部   |
| 吴杰 | 研发中心 |
| 郑爽 | 产品部   |
+------+----------+
  • • logger.info(...) :记录找到了多少条未完成记录。
  • • return df_uncompleted :返回筛选出来的未完成记录表格。

📌 小Tip: 如果想看中间结果,可以把这行代码拆开执行:

temp = df_all.merge(df_completed[key_columns], on=key_columns, how='left', indicator=True)
print
(temp)
result = temp.query('_merge == "left_only"').drop('_merge', axis=1)

4. 保存结果到Excel

把处理好的数据写回文件。

def save_to_excel(
    df: pd.DataFrame, 
    file_path: str
    sheet_name: str,
    if_sheet_exists: str = 'replace'
) -> None:
    """
    将DataFrame保存到Excel文件的指定工作表
    """

    try
:
        with
 pd.ExcelWriter(
            file_path, 
            engine='openpyxl'
            mode='a' if Path(file_path).exists() else 'w',
            if_sheet_exists=if_sheet_exists
        ) as writer:
            df.to_excel(writer, sheet_name=sheet_name, index=False)
        logger.info(f"成功保存到工作表: {sheet_name}")
    except
 Exception as e:
        logger.error(f"保存Excel文件失败: {e}")
        raise

逐行解释:

  • • def save_to_excel(...) :定义保存函数。
  • • if_sheet_exists: str = 'replace' :如果Excel里已有同名工作表,默认替换(replace)。
  • • with pd.ExcelWriter(...) as writer: :创建Excel写入器。
    • • file_path:要写入的文件路径。
    • • engine='openpyxl':处理 .xlsx 文件必须用 openpyxl 引擎。
    • • mode='a' if Path(file_path).exists() else 'w':文件存在就用追加模式(a),不存在就用写入模式(w)创建新文件。
    • • if_sheet_exists=if_sheet_exists:处理同名工作表的策略。
  • • df.to_excel(writer, sheet_name=sheet_name, index=False) :将DataFrame写入指定工作表。index=False 防止把默认行索引写到Excel里。
  • • logger.info(...) :保存成功日志。

5. 主控流程

将上面所有的功能串联起来。

def process_attendance_data(
    file_path: str = 'day1.xlsx',
    all_sheet: str = '全部名单',
    completed_sheet: str = '已完成名单',
    uncompleted_sheet: str = '未完成名单'
) -> pd.DataFrame:
    """
    主处理函数:识别未完成记录并保存
    """

    # 加载数据

    df_all, df_completed = load_excel_sheets(
        file_path, 
        [all_sheet, completed_sheet]
    )

    # 数据验证

    if
 df_all.empty:
        raise
 ValueError("全部名单为空")

    # 识别未完成记录

    df_uncompleted = identify_uncompleted_records(df_all, df_completed)

    # 保存结果

    if
 not df_uncompleted.empty:
        save_to_excel(df_uncompleted, file_path, uncompleted_sheet)
    else
:
        logger.info("所有记录均已完成,无需创建未完成名单")

    return
 df_uncompleted

逐行解释:

  • • file_path: str = 'day1.xlsx' :设置默认文件路径,调用函数时不传参就默认处理这个文件。
  • • df_all, df_completed = load_excel_sheets(...) :调用加载函数,返回的元组直接解包赋值给两个变量。
  • • if df_all.empty: :防御性编程,如果全部名单为空就直接报错。
  • • df_uncompleted = identify_uncompleted_records(...) :调用核心对比逻辑,得到未完成名单。
  • • if not df_uncompleted.empty: :检查未完成名单是否为空。

if not df_uncompleted.empty 是什么意思?

这行代码是在检查“未完成名单”这个表格是否为空。

拆解来看:

  • • df_uncompleted.empty :这是pandas的属性,用来判断DataFrame是否为空。
    • • 如果表格里有数据(行数 > 0),返回 False
    • • 如果表格里没有数据(行数 = 0),返回 True
  • • not :取反操作符。
    • • True 变成 False
    • • False 变成 True
  • • 组合起来 if not df_uncompleted.empty :
    • • 如果 df_uncompleted.empty 是 False(表格不为空),not False = True,执行if下面的保存操作
    • • 如果 df_uncompleted.empty 是 True(表格为空),not True = False,执行else打印日志

为什么要这样判断?

如果不加这个判断,当所有人都完成时,程序还是会创建一个空的“未完成名单”工作表,里面只有表头没有数据,看着很奇怪。


6. 程序入口

最后,当直接运行这个.py文件时,执行以下代码。

if __name__ == "__main__":
    # 执行主程序

    try
:
        result_df = process_attendance_data()
        print
("\n未完成名单预览:")
        print
(result_df.head())
    except
 Exception as e:
        logger.error(f"程序执行失败: {e}")
  • • if __name__ == "__main__": :确保当脚本被直接运行时下面的代码才执行;如果被别的文件导入,这部分代码不会运行。
  • • result_df = process_attendance_data() :调用主函数,使用默认的文件名和工作表名。
  • • print("\n未完成名单预览:") :打印输出标题。
  • • print(result_df.head()) :显示前5行数据,预览结果。
  • • except Exception as e: :捕获顶层异常,防止程序闪退。

执行效果预览

运行代码后,控制台输出如下:

2026-02-27 20:00:00 - INFO - 成功加载工作表: 全部名单, 记录数: 10
2026-02-27 20:00:00 - INFO - 成功加载工作表: 已完成名单, 记录数: 5
2026-02-27 20:00:00 - INFO - 未完成记录数: 5
2026-02-27 20:00:01 - INFO - 成功保存到工作表: 未完成名单

未完成名单预览:
+------+----------+
| 姓名 | 部门     |
+------+----------+
| 王芳 | 市场部   |
| 孙梅 | 财务部   |
| 周涛 | 行政部   |
| 吴杰 | 研发中心 |
| 郑爽 | 产品部   |
+------+----------+

此时打开 day1.xlsx 文件,会发现新增了一个名为“未完成名单”的工作表,里面正好是这5条记录。


写在最后

通过这不到50行核心代码,我们实现了一个完整的Excel自动化处理流程:读取 -> 对比 -> 筛选 -> 写入

这个脚本今天处理的是考勤,明天稍微改一下字段名,就能处理**“订货单vs发货单”“报名表vs签到表”**等各种场景。

如果你有什么好的建议,欢迎在评论区告诉我,我们明天继续!


📦 资源获取提示

关注「码农自习室」,后台回复关键词 PythonExcel案例,即可获取本文完整代码及配套练习数据集,一起动手掌握高效数据操作的核心技巧!


❤️ 支持我们

如果本文对你有帮助,欢迎点赞 + 关注 + 点亮小红心,你的支持就是我们持续创作的最大动力~

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » Python 玩转 Excel 案例【第 1 期】

评论 抢沙发

9 + 3 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
×
订阅图标按钮