Cursor 3 刚发布,Claude Code 火得不行,但有个更狠的 quietly 完成了——AI Agent 现在能直接操控 Word、Excel、PPT,而且不需要安装 Office。
AI 能写代码、能画图、能剪视频,但一到改 Excel 报表、调 PPT 格式、合并 Word 文档——这些打工人每天干的事,Agent 反而抓瞎了。
不是不会,是没手。
代码有 API,网页有浏览器,但 Office 文档是个黑盒。你让 AI 改个表格里的数据,它要么给你生成一段 Python 代码让你自己跑,要么干脆重新写一份,格式全丢。
GitHub 上 4.7k stars,叫 OfficeCLI。它干了一件特别朴素但特别重要的事:
给 AI Agent 装了一双能直接操作 Office 文档的手。
一、一行代码,Agent 接管 Office
OfficeCLI 的定位很嚣张——"世界上第一个专为 AI Agent 设计的 Office 套件。"
它的用法简单到离谱:
# 创建一个 Excel 文件
officecli create report.xlsx
# AI Agent 直接读写单元格
officecli set /sheet[1]/cell[A1] "Q1营收" --json
officecli set /sheet[1]/cell[B1] "1200万" --json
# 读取并返回结构化数据
officecli query /sheet[1]/table[1] --json
注意这里的关键:它返回的是结构化 JSON。
这意味着 AI Agent 能读懂结果、做判断、继续下一步操作。不是瞎生成一段代码让你复制粘贴,而是真正接管了整个文档操作流。
更狠的是——它不需要安装 Microsoft Office。
单二进制文件,.NET 运行时嵌入,跨平台直接跑。Linux 服务器、Docker 容器、CI/CD 流水线,全部无头自动化。
这一点把我惊到了。
以前想自动处理 Office 文档,要么装一堆依赖,要么买 Office 365 许可证丢服务器上。现在一个 30MB 不到的二进制文件就搞定了。
二、三层架构,AI 怎么"看懂"文档
OfficeCLI 最聪明的地方,是它的三层文档架构。
| L1: view | view textview outline 获取文档大纲,view stats 返回页数/字数/表格数 | |
| L2: DOM | getset/add/remove 像操作网页 DOM 一样操作文档元素 | |
| L3: Raw XML | rawraw-set 直接 XPath 访问 OOXML 底层,兜底一切极端场景 |
举个例子:
你让 Agent 读一份 50 页的 Word 合同。它不会傻到把全文塞给 LLM 浪费 token。
先用 view outline 抓大纲,找到关键章节。
再用 get 精准提取条款文本。
最后用 set 修改对应段落。
全程可控、可审计、可回滚。
还有一个我特别喜欢的功能——view issues。
文档有问题?它直接返回诊断报告和建议修复方案。Agent 可以据此自动修复格式错误、补齐缺失字段。
它不只是给 AI 一双手,还给了一副眼镜。
三、能用上的场景
别光看热闹,说点能落地的。
场景一:日报/周报自动生成
你的数据库/API 每天产数据。写个脚本,OfficeCLI 自动填充 Excel 模板,生成图表,导出 PDF,邮件发给老板。
全程无需打开 Excel。
officecli open template.xlsx --resident
officecli batch update.json
officecli view screenshot --output report.png
场景二:AI 直接改 PPT
你丢给 Agent 一份数据和一个 PPT 模板。它自己完成:
读取模板结构 填充 {{company}}、{{revenue}} 等占位符 插入数据图表 调整配色和字体 导出最终版本
以前这种事,要么手搓半小时,要么花钱请设计师。现在 Agent 几分钟搞定。
场景三:CI/CD 文档自动化
代码提交后,自动:
读取 API 注释生成技术文档 填充 Word 模板 跑 validate检查文档完整性不通过就阻断发布
文档和代码一起版本控制,再也不会出现"代码改了文档没改"的尴尬。
四、但话说回来,Copilot 不是已经做了吗?
Microsoft 365 Copilot 确实能做类似的事,而且和 Office 集成得更深。但有几个现实问题:
第一,贵: Copilot 按用户按月收费,企业级动辄几十上百万。OfficeCLI 是 Apache-2.0 开源,免费。
第二,封闭 :Copilot 只认微软生态。OfficeCLI 可以跑在任何地方——你的服务器、客户的内网、一个树莓派上。
第三,不可编程:Copilot 是聊天界面,你很难把它嵌入到自己的自动化流程里。OfficeCLI 是纯 CLI + JSON,天然适合脚本和 Agent 调用。
当然,Copilot 也有 OfficeCLI 做不到的事。
比如实时协作、云端同步、和企业 AD 的深度集成。如果你已经在微软生态里扎得很深,Copilot 依然是更顺的选择。
我判断:这不是替代关系,是互补。
Copilot 服务的是"坐在 Office 前的人"。OfficeCLI 服务的是"想让 AI 7x24 小时自动处理文档的系统"。
两个赛道。
五、MCP 协议:为什么这件事现在才发生
OfficeCLI 还有一个隐藏亮点——内置 MCP 服务器。
MCP(Model Context Protocol)是 Anthropic 推的开放协议,让 AI Agent 能标准化地调用外部工具。Claude、Cursor、VS Code、LM Studio 都已经支持。
这意味着什么?
你的 Agent 不需要学习 OfficeCLI 的具体命令。它通过 MCP 协议"感知"到:"哦,我现在有一个能操作 Word/Excel/PPT 的工具。"
然后自己决定什么时候用、怎么用。
这才是真正的 Agent 能力——不是人给 AI 写脚本,是 AI 自己找工具、自己组合、自己完成任务。
OfficeCLI 选在 2026 年这个节点爆发,不是偶然。
Cursor 3 发布、Qwen 3.7 Max 主打 Agent 原生、Claude Code 三强争霸——AI 的"大脑"已经足够聪明,现在缺的是"手脚"。
OfficeCLI 就是那双能伸进企业文档里的手。
六、一个被忽视的趋势
聊个稍微深一点的判断。
过去两年,AI 创业的热点一直集中在:
聊天机器人(ChatGPT、Claude) AI 编程(Cursor、GitHub Copilot) AI 生成内容(Midjourney、Sora)
但企业里真正消耗人力的,是大量的文档处理。
财务报表、合同审核、标书制作、数据汇总、PPT 美化……这些工作不性感,但占掉了白领 30%-50% 的时间。
OfficeCLI 代表了一个被忽视的巨大市场:让 AI Agent 接管企业文档工作流。
而且它的技术路线很聪明——不是做一个"AI 版 Office"(那样太重了),而是做一个"Office 的 API 层",让任何 AI 都能调用。
轻、快、准。
未来 6 个月,会有大量 RPA 工具和 Agent 框架集成 OfficeCLI 或类似方案。企业级办公自动化,正在从"录屏脚本"进化到"AI 原生"。
https://github.com/iOfficeAI/OfficeCLI https://officecli.ai
本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前沿技术,免费分享业界实战案例与课程,助力您全面拥抱AIGC。
夜雨聆风