乐于分享
好东西不私藏

AI开始接管WPS和PS

AI开始接管WPS和PS

AI Agent / 开源工具 / 生产力自动化

AI开始接管WPS和PS

AI 不只要会聊天,更要能操作真实软件、交付真实文件。

过去一年,很多人对 AI Agent 的期待,一直停留在“帮我写点东西”“帮我总结网页”“帮我跑一段代码”。但真正有价值的 Agent,不应该只待在浏览器和对话框里。

它应该能进入真实软件,操作真实文件,产出真实成果。

最近 GitHub 上一个开源项目 harness-anything,就把这个方向往前推了一步。它不是又一个聊天机器人,也不是简单套壳大模型,而是把 WPS、Microsoft Office、Photoshop、Illustrator、Zotero 这类传统桌面软件,包装成 AI Agent 可以直接调用的命令行工具。

项目截图:harness-anything 把桌面软件能力封装给 Agent 调用

简单说,以前 Agent 想做一份 PPT,往往只能生成 Markdown、HTML 或者一堆建议;现在它可以直接向 WPS 发命令:新建幻灯片、插入标题、绘制图表、导出 PDF。

这件事的意义,不在于多了几个命令,而在于 AI 开始从“内容生成器”变成“软件操作员”。

一、AI Agent 最大的短板:不会操作老软件

今天很多 Agent 看起来很聪明,但一进入真实办公环境就卡住。

原因很简单:企业和个人的核心工作流,并不都在网页里。大量工作还停留在 Word、Excel、PPT、WPS、Photoshop、Illustrator、Zotero 这些桌面软件中。

这些软件有几十年的历史,功能强大,但界面复杂。人可以用鼠标慢慢点,AI 却很难稳定理解 GUI:按钮位置会变,弹窗会挡住,菜单层级很深,屏幕识别也容易出错。

所以很多所谓 Agent 自动化,最后还是绕回了“让模型写脚本”。但脚本又要针对每个软件单独适配,开发成本很高。

WPS/Office 自动化:文档、表格、PPT 都能被命令驱动

harness-anything 的思路很直接:不让 AI 看界面,而是把软件能力全部变成 CLI。

AI 不需要知道按钮在哪,只要执行命令即可。

二、WPS/Office:把文档、表格、PPT变成命令行资产

项目里最适合普通办公场景的,是 cli-anything-wps。

它通过 Windows COM 接口操控 WPS 或 Microsoft Office,把 Word、Excel、PPT 的常见动作封装成 47 个命令。

Writer 可以插入段落、设置标题、创建列表、插入表格、添加图片、查找替换、调整字体。

Calc 可以读写单元格、批量填充、插入公式、合并单元格、增删工作表。

Impress 可以新建幻灯片、修改文本框、绘制形状、切换背景、应用主题,并导出 PPTX、PDF、HTML、CSV 等格式。

这对 Agent 的价值非常直接。

学术与文献工作流:Zotero 从资料库变成 Agent 工具箱

以前你让 AI 做一份汇报材料,它最多给你一份大纲;现在它可以直接调用 WPS,生成真正可打开、可编辑、可交付的文件。

这一步很关键。因为企业里判断 AI 有没有用,看的不是它说得多漂亮,而是能不能交付一个文件、一个表格、一份报告、一套幻灯片。

三、Zotero:学术工作流也可以被流水线化

另一个值得关注的是 Zotero 模块。

它把文献管理、论文写作、审稿、图表规范、统计分析等学术动作,拆成一组可调用的 Skill。比如检索文献、整理研究假设、生成综述结构、按期刊规范处理图表,甚至调用特定期刊的格式要求。

这类能力看起来小众,但对研究人员非常有价值。

学术写作里,真正耗时间的往往不是“写一句话”,而是检索、整理、筛选、引用、改格式、做图表、查投稿规范。AI 如果只能聊天,帮助有限;但如果能和 Zotero 这种工具打通,就能把重复劳动压缩成流程。

这也说明 Agent 的未来不只是通用助手,而会越来越像行业工作台:办公 Agent、学术 Agent、设计 Agent、财务 Agent、法务 Agent,都需要连接自己领域里的核心软件。

四、Photoshop和Illustrator:设计软件也能被命令驱动

harness-anything 还接入了 Photoshop 和 Illustrator。

设计软件自动化:Illustrator/Photoshop 也能进入流程

Illustrator 模块可以新建文档、管理图层、绘制矩形、椭圆、线条、多边形,添加文字,调整字体、颜色,并导出 PNG、JPEG、SVG、PDF。

Photoshop 模块则可以新建 PSD、修改画布尺寸、处理图层、做选区、裁切旋转、添加文字、套滤镜,并导出 PNG、JPEG、WebP 等格式。

这意味着 Agent 不再只是给设计师“提建议”,而是可以真正参与制作流程。

比如批量处理海报、统一修改尺寸、导出多种格式、生成基础矢量图形、完成水印和裁切。这些工作不一定需要高创造力,却非常消耗时间,正适合交给 Agent。

当然,它还不能替代专业设计师。因为审美判断、品牌一致性、复杂构图仍然需要人来把关。但它可以先吃掉大量机械操作,把设计师从重复点击里解放出来。

五、真正有启发的是JSON驱动PPT

项目里还有一个演示案例:用 JSON 数据自动生成高校招生 PPT。

它把学校信息、图表、图片、表格、时间线、卡片等内容写进 JSON,再由 Python 引擎自动路由到不同的幻灯片元素。最后生成 PPTX 和 PDF。

这套机制比单纯“让 AI 写 PPT”更有价值。

因为它把 PPT 生产拆成了三层:数据层、结构层、渲染层。

数据层负责放内容,结构层决定页面元素,渲染层调用 WPS 生成成品。这样一来,AI 不只是随意生成几页幻灯片,而是在一个可控模板中批量生产标准化材料。

JSON 驱动 PPT:结构化数据直接生成交付材料

对企业来说,这才是真正能落地的 AI 自动化。

销售战报、保险方案书、培训课件、项目周报、经营分析、客户简报,本质上都可以变成“结构化数据 + 模板 + 自动渲染”。

如果这套链路跑通,AI 就不再是写稿助手,而是资料生产线。

六、它的限制也很明显:Windows Only

这个项目目前最大限制,是强依赖 Windows COM。

WPS、Microsoft Office、Adobe 软件的自动化主要走 COM Bridge,所以 Windows 10/11 是基本前提。Mac 和 Linux 用户基本用不了。

另外,Adobe 模块需要本机安装正版 Photoshop 或 Illustrator;WPS 模块也需要安装 WPS Office 或 Microsoft Office。它不是云端 SaaS,而是本地桌面软件自动化框架。

这既是缺点,也是特点。

缺点是部署门槛高;优点是它能接入企业真实环境里那些已经存在的软件资产。很多公司不可能马上把所有流程搬到云端,但可以让 AI 通过本地接口操作现有工具。

这条路线很务实。

七、为什么这个项目值得关注

工具链概览:Agent 从聊天走向执行

harness-anything 的价值,不是它今天支持了多少命令,而是它代表了一种 Agent 落地方式:

  • 不要只让 AI 生成内容,要让 AI 调用工具。
  • 不要只让 AI 打开网页,要让 AI 操作真实软件。
  • 不要只让 AI 给建议,要让 AI 交付文件。

未来两类 Agent 会分化得很明显。

  • 一类是聊天型 Agent,负责回答、陪伴、解释、总结。
  • 另一类是执行型 Agent,负责打开软件、处理文件、生成材料、跑流程、交付结果。

真正能进入企业生产力场景的,大概率是后者。

从这个角度看,harness-anything 不只是一个 GitHub 工具,而是一个信号:AI Agent 正在从“会说”走向“会做”。

而所谓“会做”,不是模型口头承诺自己能完成任务,而是它真的能调用 WPS 生成一份 PPT,调用 Photoshop 导出一张图,调用 Zotero 整理一组文献。

这才是 AI 应用从玩具走向生产工具的分界线。

项目地址:
https://github.com/yb2460/harness-anything

本文基于公开项目与原文信息重构分析。原文:GitHub 又一神器!47 个命令让 AI Agent 直接操控 WPS、PS 和 Illustrator