记录 AI 和新工具,如何重写普通人的工作与学习方式
OfficeCLI 值得看,不是因为少写代码,而是让 AI 看见文档
以前用代码处理 Office 文档,最烦的地方不是写代码本身。
是你很难只用一套办法,把 Word、Excel、PowerPoint 都处理顺。做 Word 要想段落、表格、样式;做 Excel 要想公式、单元格、图表;做 PPT 又变成页面、形状、坐标、字体。几份库拼起来,几十行代码只是开始,真正耗时间的是跑起来以后发现版式不对。
最近看到 OfficeCLI,我觉得它值得写,不是因为它说自己能“一条命令替代几十行代码”。
这当然有价值,但还不是最关键的变化。
真正值得看的是,它把 Office 文档变成了 Agent 可以反复操作、反复观察、反复修正的对象。


让 AI 做文档,难点从来不只是生成内容,而是它能不能看见自己把文档做成了什么样。
少写代码只是第一层
OfficeCLI 是 iOfficeAI 开源的 Office 命令行工具,目标是让 AI Agent 能读、改、自动化处理 Word、Excel、PowerPoint。项目 README 里写得很直白:单个二进制文件,不需要安装 Office,不需要额外运行时,并且支持跨平台使用。
如果只看命令层,它确实很诱人。
比如以前用 Python 生成一页 PPT,你可能要引入 python-pptx,创建 presentation,选 layout,拿到 slide,再创建 shape、设置文字、位置、字号,最后保存。OfficeCLI 给出的例子里,同类动作可以变成类似这样的命令:
officecli add deck.pptx / --type slide --prop title="Q4 Report"
一键安装并快速开始:
# 1. 安装(macOS / Linux)curl -fsSL https://raw.githubusercontent.com/iOfficeAI/OfficeCLI/main/install.sh | bash# Windows (PowerShell): irm https://raw.githubusercontent.com/iOfficeAI/OfficeCLI/main/install.ps1 | iex# 2. 创建一个空白 PowerPointofficecli create deck.pptx# 3. 启动实时预览 — 浏览器自动打开 http://localhost:26315officecli watch deck.pptx# 4. 打开另一个终端,添加一页幻灯片 — 浏览器即时刷新officecli add deck.pptx / --type slide --prop title="Hello, World!"
这类简化对开发者当然有用。尤其是那些“偶尔要自动化 Office,但又不想重新熟悉一堆库”的场景,比如批量改报告标题、从数据生成周报、给 PPT 补几页固定结构的内容。
但如果只把它理解成“更短的命令行工具”,就低估了它。
真正变化在反馈回路
人做 PPT 的时候,会一边写一边看。
标题是不是压住了图片。表格是不是超出页面。两段文字是不是挤在一起。一个图表放进去,颜色和页面是否打架。
AI 做文档最容易失败的地方,恰恰在这里。它可以输出一段看起来很完整的指令,也可以生成文件,但如果它看不到最终效果,就只能靠猜。
OfficeCLI 有意思的地方,是把“看见结果”放进了工具链。
项目文档里提到,它内置渲染引擎,可以把 .docx、.xlsx、.pptx 渲染成 HTML 或 PNG;watch 命令会启动本地预览,每次 add、set、remove 之后浏览器自动刷新。
这对普通人有什么用?
假设你让 AI 做一份 12 页汇报。以前你很可能得到一个文件,然后打开 PowerPoint,发现第 5 页标题溢出,第 7 页图表太小,第 10 页两块文字重叠。你再把问题描述给 AI,它再猜着改。
有了渲染和预览,Agent 至少有机会进入另一个流程:先生成,再截图,再检查版式问题,再改一轮。
OfficeCLI 的关键不是让 AI 一次做对,而是让 AI 有机会发现自己哪里做错了。
这一步很小,但对办公自动化很要紧。
为什么它更适合 Agent
传统 Office 自动化工具,大多是给程序员用的。你写脚本,调用库,处理对象模型。
Agent 不一样。它更需要稳定、可读、可纠错的接口。
OfficeCLI 在这方面做了几个明显选择。
第一,命令行入口统一。Word、Excel、PowerPoint 都通过 officecli 处理,创建、读取、查询、修改、删除、移动、校验这些动作有相对一致的命令结构。
第二,支持 JSON 输出。Agent 不必从杂乱终端文本里抠结果,而是可以拿到结构化信息。比如某个元素的路径、属性、错误原因,都能更稳定地被下一步使用。
第三,有路径式访问。文档里的段落、幻灯片、形状、单元格,可以通过类似 /slide[1]/shape[2] 这样的路径定位。对人来说这不一定优雅,但对 Agent 很友好,因为它可以一步步查,再一步步改。
第四,有校验和问题查看。项目文档里提到 validate、view issues,以及错误返回里的建议和有效范围。这些都在帮 Agent 少猜一点。
这也是我觉得它和普通 Office 库不太一样的地方。
普通库解决的是“程序能不能写文件”。OfficeCLI 更像是在解决“Agent 能不能独立完成一段文档工作”。
模板填充才是更现实的用法
不过,我不建议一上来就让 AI 从零做一份“很好看的 PPT”。
这件事听起来酷,但很容易失望。因为真正可交付的 Office 文档,往往不只是内容对,还要符合公司模板、字体、页眉页脚、图表规范和审美习惯。
更现实的起点,是模板填充。
OfficeCLI 支持 merge,可以把 Word、Excel、PowerPoint 里的 {{key}} 占位符替换成 JSON 数据。这个能力看起来朴素,但很适合普通工作流。
比如你先设计好一份客户月报模板。
封面有客户名。第一页有本月摘要。第二页有关键指标。后面是问题列表和下一步计划。
以后每次只要准备一份 JSON 数据,就能批量生成不同客户的报告。AI 可以帮你整理数据、补充说明、检查语气,但版式不用每次重做。
这比“让 AI 每次重新生成一份报告”更稳。
对大多数人来说,AI 做 Office 文档最好的入口,不是凭空创作,而是基于模板批量生产。
普通人怎么试
如果你经常处理 Office 文档,我建议不要从复杂项目开始。
先拿一个低风险文件试三件事。
第一,读。让它把一份现有 PPT 或 Word 文档转成 outline、text 或 JSON,看它能不能把结构读清楚。
第二,改。让它只改一个明确位置,比如把第一页标题换掉,把某个表格新增一行,把 Excel 某个 sheet 增加一列。
第三,看。用 view html、view screenshot 或 watch 看结果,确认它是否真的能进入“改完再检查”的循环。
如果这三步跑顺,再考虑模板填充和批量生成。
需要注意的是,OfficeCLI 再方便,也不是魔法。复杂公司模板、带大量动画的 PPT、精细排版的 Word 长文、公式很多的 Excel,都可能遇到边界。它适合先接那些结构清楚、规则明确、结果可检查的任务。
这也是我更愿意推荐它的原因。
它不是把 Office 工作变成一句口令,而是把 Office 工作拆成 Agent 能接住的动作:读文件,找对象,改属性,渲染,看问题,再修正。
当文档变成这样一段可观察的流程,AI 才不只是会写一段内容,而是真的开始进入你的办公流。
互动区
如果让 AI 先接手一类 Office 工作,你最想交给它的是做 PPT、写 Word 报告,还是批量处理 Excel 表格?
资料参考:
OfficeCLI GitHub README:https://github.com/iOfficeAI/OfficeCLI OfficeCLI Releases:https://github.com/iOfficeAI/OfficeCLI/releases
夜雨聆风