没想到吧,这个AI Agent能直接操控你的PDF、Word和Excel
事情是这样的。
我一直在用 Hermes Agent 做各种自动化的事情 —— 写代码、查资料、管理服务器。但前两天遇到一个需求,让我突然意识到一件事:大多数AI工具只能「读」文件,不能真正「操控」文件。
我需要批量处理几十个 Word 文档,把里面的表格提取出来转成 Excel,再基于数据生成一份 PDF 报告。常规做法是手动操作,或者写个 Python 脚本。
但我懒。而且我在用的这个 Agent 本来就能写代码、能执行命令 —— 为什么不直接让它干?
试了一下,结果有点超出预期。

它到底能干什么
Hermes Agent 本身不是一个「文档工具」,但它有一整套基础设施,让它能操控几乎所有常见的办公文档格式。
核心思路其实很简单:Agent 会写 Python,会调用命令行工具,然后把这些能力组合成完整的工作流。
具体来说,PDF、Word、Excel、PPT,一个都没落下。
PDF:读、写、改、合并、拆分
PDF 这块是最全的。Hermes 装了两个专门的 skill 来处理:
第一个叫 ocr-and-documents,底层用 PyMuPDF(fitz),专门负责读取和提取。不管是文本 PDF 还是扫描件,它都能处理。
/hermes 说:/ocr-and-documents 帮我读这份合同,提取所有金额相关的条款
甚至可以在 Hermes 里用 /ocr-and-documents 加载这个 skill,然后直接说需求。对于扫描件,它还能调 marker-pdf 做 OCR,中文识别率相当高。
第二个叫 nano-pdf,这个更神奇 —— 用自然语言就能改 PDF 里的文字内容:
nano-pdf edit 合同.pdf 2 "把客户名称从'张三科技'改成'李四集团'"
合并和拆分同样一句话的事:
「把这三个 PDF 合并成一个」「把这个 PDF 的第 5 到第 10 页单独拎出来」
背后就是几行 pymupdf 的 insert_pdf 调用,Agent 自己就能写。
Word:从读取到生成
Word 文档用的是 python-docx。Hermes 的 ocr-and-documents skill 里专门提了:Word 文档要用 python-docx,它解析文档结构比 OCR 强太多了。
读取现有的 docx 文件,提取正文、表格、样式,然后基于读取的内容进行分析、总结、翻译。
也能从头生成:
「帮我根据这个模板,给 20 个客户各生成一份定制化的报价单」
Agent 会读模板 → 读数据 → 循环生成 → 批量导出。我实测过,20 份带表格和格式的 docx,大概两分钟搞定。
更实用的是批量修改:
「把这 50 份 offer 里的入职日期都改成 2026 年 6 月 1 日」
传统做法是逐一打开 → 修改 → 保存 → 关闭。Hermes 的做法是一行 python-docx 循环,几秒跑完。
Excel:数据处理的瑞士军刀
Excel 用的是 openpyxl。目前没有专门的 skill 封装,但 Agent 能自己用 Python 调这个库,效果一样。
读:从表格里读取数据,支持指定 sheet、范围、公式值或公式本身。
写:创建新的工作簿,写入数据,设置样式(字体、颜色、边框、列宽)。
改:批量替换、公式更新、数据清洗。
我最近用的一个场景:
「把这个 CSV 里的销售数据导入 Excel,按月份分组,算出每个月的总额和同比,用条件高亮标出增长超过 20% 的月份」
Agent 读 CSV → openpyxl 创建 workbook → 写入数据 → pandas 做聚合 → 写回公式 → 条件格式。一气呵成。

PPT:不只是读,还能改
PPTX 有个专门的 powerpoint skill,用 python-pptx 封装了一套完整操作。
读幻灯片内容、提取备注、获取 Speaker Notes。然后修改标题、正文、图片。甚至还内置了模板替换、解包编辑再重新打包的工作流。
「把这份 deck 里所有幻灯片标题改成粗体,字体调大一号」
几秒的事。关键是一致性比手动改高得多 —— 不会出现有的标题改了有的漏了。
但真正的能力在于组合
单个格式的操作已经够实用,但 Hermes Agent 真正让我觉得「这是个好东西」的,是它能把这些操作串联起来。
举个例子,我最近跑的一个完整工作流:
从邮件附件下载一份 Excel 报表 → 读取数据做分析 → 生成一份 Word 报告 → 把报告转成 PDF → 通过 Telegram 发到我手机。
全程一句话:
「帮我处理今天的销售报表,生成报告发我微信」
Agent 自己决定怎么读、怎么分析、用什么格式输出、怎么送达。我在旁边喝咖啡看着就好。
这种跨格式的编排能力,比任何单一工具都强。它不是在帮你「编辑文件」,而是在替你「完成工作」。
另一个例子:用 MCP 挂载文件系统服务器后,Agent 可以直接操作远程服务器上的文档。我在 VPS 上跑了一个 server-filesystem,然后在家里对着 Telegram 说:
「把服务器上 /data/reports/ 目录下所有 PDF 合并成一个,压缩后下载到本地」
一步到位。

怎么上手
如果你也想试试,门槛比想象的低。
一条命令安装 Hermes:
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
装好后,需要什么文档功能就加对应的 skill 或 Python 库。两种方式各有侧重:

skill 的好处是开箱即用,加载后直接说需求就行,不需要自己写代码。但 PDF 编辑部分 nano-pdf 只能改文字不能改排版,OCR 功能需要额外装 marker-pdf(约 5GB)。
Word 和 Excel 目前没有封装成 skill,但 Hermes 的 execute_code 可以直接调 python-docx 和 openpyxl,效果一样 —— 只是需要你描述得更具体一些。
装好后,把需求说给 Hermes 听就行。
真的不需要写代码 —— 虽然底层 Agent 确实会写 Python 脚本来完成这些操作,但那是在后台发生的。你只需要告诉它你想做什么。
坦白说
这东西不完美。
有些复杂的格式,比如带大量图片的 PPT、有宏的 Excel、扫描质量极差的 PDF,Agent 处理起来会有偏差。它用的是通用库,不是 Adobe Acrobat 或者 Microsoft Office 的 API。遇到边界情况需要手动介入。
但说实话,日常 90% 的文档处理需求,它都覆盖了。而且随着你用得多,它还会记住你的偏好,下次处理类似任务时更快。
对我来说,最大的价值不是「AI 能编辑 PDF」,而是「我不需要再为这些重复性的文档工作打开电脑了」。
在手机上发条消息,让它去处理。完事了它通知我。
挺爽的。
夜雨聆风