没想到吧,这个AI Agent能直接操控你的PDF、Word和Excel-夜雨聆风

没想到吧,这个AI Agent能直接操控你的PDF、Word和Excel

事情是这样的。

我一直在用 Hermes Agent 做各种自动化的事情 —— 写代码、查资料、管理服务器。但前两天遇到一个需求，让我突然意识到一件事：大多数AI工具只能「读」文件，不能真正「操控」文件。

我需要批量处理几十个 Word 文档，把里面的表格提取出来转成 Excel，再基于数据生成一份 PDF 报告。常规做法是手动操作，或者写个 Python 脚本。

但我懒。而且我在用的这个 Agent 本来就能写代码、能执行命令 —— 为什么不直接让它干？

试了一下，结果有点超出预期。

它到底能干什么

Hermes Agent 本身不是一个「文档工具」，但它有一整套基础设施，让它能操控几乎所有常见的办公文档格式。

核心思路其实很简单：Agent 会写 Python，会调用命令行工具，然后把这些能力组合成完整的工作流。

具体来说，PDF、Word、Excel、PPT，一个都没落下。

PDF：读、写、改、合并、拆分

PDF 这块是最全的。Hermes 装了两个专门的 skill 来处理：

第一个叫 ocr-and-documents，底层用 PyMuPDF（fitz），专门负责读取和提取。不管是文本 PDF 还是扫描件，它都能处理。

/hermes 说：/ocr-and-documents 帮我读这份合同，提取所有金额相关的条款

甚至可以在 Hermes 里用 /ocr-and-documents 加载这个 skill，然后直接说需求。对于扫描件，它还能调 marker-pdf 做 OCR，中文识别率相当高。

第二个叫 nano-pdf，这个更神奇 —— 用自然语言就能改 PDF 里的文字内容：

nano-pdf edit 合同.pdf 2 "把客户名称从'张三科技'改成'李四集团'"

合并和拆分同样一句话的事：

「把这三个 PDF 合并成一个」「把这个 PDF 的第 5 到第 10 页单独拎出来」

背后就是几行 pymupdf 的 insert_pdf 调用，Agent 自己就能写。

Word：从读取到生成

Word 文档用的是 python-docx。Hermes 的 ocr-and-documents skill 里专门提了：Word 文档要用 python-docx，它解析文档结构比 OCR 强太多了。

读取现有的 docx 文件，提取正文、表格、样式，然后基于读取的内容进行分析、总结、翻译。

也能从头生成：

「帮我根据这个模板，给 20 个客户各生成一份定制化的报价单」

Agent 会读模板 → 读数据 → 循环生成 → 批量导出。我实测过，20 份带表格和格式的 docx，大概两分钟搞定。

更实用的是批量修改：

「把这 50 份 offer 里的入职日期都改成 2026 年 6 月 1 日」

传统做法是逐一打开 → 修改 → 保存 → 关闭。Hermes 的做法是一行 python-docx 循环，几秒跑完。

Excel：数据处理的瑞士军刀

Excel 用的是 openpyxl。目前没有专门的 skill 封装，但 Agent 能自己用 Python 调这个库，效果一样。

读：从表格里读取数据，支持指定 sheet、范围、公式值或公式本身。

写：创建新的工作簿，写入数据，设置样式（字体、颜色、边框、列宽）。

改：批量替换、公式更新、数据清洗。

我最近用的一个场景：

「把这个 CSV 里的销售数据导入 Excel，按月份分组，算出每个月的总额和同比，用条件高亮标出增长超过 20% 的月份」

Agent 读 CSV → openpyxl 创建 workbook → 写入数据 → pandas 做聚合 → 写回公式 → 条件格式。一气呵成。

PPT：不只是读，还能改

PPTX 有个专门的 powerpoint skill，用 python-pptx 封装了一套完整操作。

读幻灯片内容、提取备注、获取 Speaker Notes。然后修改标题、正文、图片。甚至还内置了模板替换、解包编辑再重新打包的工作流。

「把这份 deck 里所有幻灯片标题改成粗体，字体调大一号」

几秒的事。关键是一致性比手动改高得多 —— 不会出现有的标题改了有的漏了。

但真正的能力在于组合

单个格式的操作已经够实用，但 Hermes Agent 真正让我觉得「这是个好东西」的，是它能把这些操作串联起来。

举个例子，我最近跑的一个完整工作流：

从邮件附件下载一份 Excel 报表 → 读取数据做分析 → 生成一份 Word 报告 → 把报告转成 PDF → 通过 Telegram 发到我手机。

全程一句话：

「帮我处理今天的销售报表，生成报告发我微信」

Agent 自己决定怎么读、怎么分析、用什么格式输出、怎么送达。我在旁边喝咖啡看着就好。

这种跨格式的编排能力，比任何单一工具都强。它不是在帮你「编辑文件」，而是在替你「完成工作」。

另一个例子：用 MCP 挂载文件系统服务器后，Agent 可以直接操作远程服务器上的文档。我在 VPS 上跑了一个 server-filesystem，然后在家里对着 Telegram 说：

「把服务器上 /data/reports/ 目录下所有 PDF 合并成一个，压缩后下载到本地」

一步到位。

怎么上手

如果你也想试试，门槛比想象的低。

一条命令安装 Hermes：

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

装好后，需要什么文档功能就加对应的 skill 或 Python 库。两种方式各有侧重：

skill 的好处是开箱即用，加载后直接说需求就行，不需要自己写代码。但 PDF 编辑部分 nano-pdf 只能改文字不能改排版，OCR 功能需要额外装 marker-pdf（约 5GB）。

Word 和 Excel 目前没有封装成 skill，但 Hermes 的 execute_code 可以直接调 python-docx 和 openpyxl，效果一样 —— 只是需要你描述得更具体一些。

装好后，把需求说给 Hermes 听就行。

真的不需要写代码 —— 虽然底层 Agent 确实会写 Python 脚本来完成这些操作，但那是在后台发生的。你只需要告诉它你想做什么。

坦白说

这东西不完美。

有些复杂的格式，比如带大量图片的 PPT、有宏的 Excel、扫描质量极差的 PDF，Agent 处理起来会有偏差。它用的是通用库，不是 Adobe Acrobat 或者 Microsoft Office 的 API。遇到边界情况需要手动介入。

但说实话，日常 90% 的文档处理需求，它都覆盖了。而且随着你用得多，它还会记住你的偏好，下次处理类似任务时更快。

对我来说，最大的价值不是「AI 能编辑 PDF」，而是「我不需要再为这些重复性的文档工作打开电脑了」。

在手机上发条消息，让它去处理。完事了它通知我。

挺爽的。