AI 代理终于能用真实软件了:35K Star 的 CLI-Anything 让桌面应用开口说命令
GUI-to-CLI · 自动生成的命令行接口 · AI 编码代理 · 七阶段流水线 ·
HKUDS/CLI-Anything(35K+ Stars)为任意桌面软件自动生成 Agent
可用的结构化 CLI,让 GIMP、Blender、LibreOffice、OBS
等几十款图形界面工具直接「开口」与 AI 编码代理对话。
AI 代理为什么用不了真实软件
Claude Code、Cursor、OpenClaw、Codex 这类 AI
编码代理正在改变开发者的日常工作。它们擅长读写代码、调用
API、操作数据库,但有一个明显的盲区——桌面图形界面软件。
你的代理能读取 Git 仓库,却无法打开 GIMP 给图片加个水印;
能调用 Amazon S3,却没办法让 Blender 渲染一帧 3D
画面。不是能力不够,而是接口缺失:GUI 软件从设计上就是给
「人眼+鼠标」用的,不是给「token+stdout」用的。
现有填补方案各有短板:
| 方案 | 问题 |
|---|---|
| 截图 + 坐标点击(GUI 自动化) | 像素级脆弱,分辨率、主题变更即失效 |
| 自行封装 REST API | 开发成本高,每款软件重写一遍 |
| 手动编写 CLI 包装 | 工作量大,版本迭代难以同步 |
CLI-Anything 的目标用户非常清晰:一切希望将桌面生产力工具
接入 AI 代理工作流的开发者、运维人员、设计师和内容创作者。
如果你已经使用 Claude Code 管理代码,但还卡在「代理能读代码
却不能操作软件」这一步,这就是你要的工具。
上手与典型用法
CLI-Anything 使用门槛极低,无需安装 SDK 或注册账号。核心
入口是一条斜杠命令:/cli-anything。
第一步:安装插件
以 Claude Code 为例,两条命令即可完成对接:
/plugin marketplace add HKUDS/CLI-Anything
/plugin install cli-anything
Pi Coding Agent、OpenCode、OpenClaw、Codex 等平台各有
对应的安装路径,从复制 extension 文件到拷贝 SKILL.md 均可
在 README 中找到说明。
第二步:生成任意软件的 CLI
将待操控的软件路径或代码仓库传给 /cli-anything:
/cli-anything ./gimp
此命令触发完整的 7 阶段流水线——自动扫描源码、设计命令分组、
用 Click 框架实现 CLI、规划并编写测试、生成文档。数分钟后
即可收获一个可直接安装的 Python 包:
cd gimp/agent-harness && pip install -e .
cli-anything-gimp --help
典型使用场景
1. GIMP 批量图像处理:在 REPL 中输入命令序列,不启动
任何 GUI 即可完成上百张图片的裁剪、调色与导出。
cli-anything-gimp project new --width 1920 -o batch.drawio
cli-anything-gimp layer import -i input/*.png
cli-anything-gimp filter apply --type "brightness-contrast" --args "brightness=20"
cli-anything-gimp export --format png --output ./output/
1. Blender 3D 场景渲染:代理用纯命令搭建场景并输出图片,
配合 preview 实时预览,全程无 GUI 交互。
cli-anything-blender scene create --name "studio"
cli-anything-blender object add --type cube --location 0,0,0
cli-anything-blender render --engine cycles --samples 128 -o frame.png
cli-anything-blender preview snapshot
1. Obsidian 知识库管理:通过 CLI 创建笔记、更新标签、
搜索全文,将知识管理接入 CI/CD 流水线。
cli-anything-obsidian note create --title "Meeting Notes" --tags "work,2026"
cli-anything-obsidian note update --path "2026-05/notes.md" --append "Action items..."
cli-anything-obsidian search --query "CLI-Anything" --format json
迭代完善
首轮生成后,用 refine 子命令继续补齐缺失功能:
/cli-anything:refine ./gimp "添加批量滤镜和脚本支持"
运行多次也不会破坏已有命令,每次都是增量补全。
此外,CLI-Hub 提供了社区贡献的完整 CLI 清单,pip install 后即可直接从命令行浏览和安装。
cli-anything-hub
自动生成的背后:七阶段流水线与双模设计
CLI-Anything 的「自动生成」不是简单套模板,而是一条经过
18 款专业软件验证的完整流水线。
7 阶段自动化流程
| 阶段 | 任务 | 产出 |
|---|---|---|
| ❶ 分析 | 扫描源码,识别后端引擎、数据模型、GUI 动作到 API 的映射 | 架构摘要 |
| ❷ 设计 | 规划命令分组、状态模型、输出格式 | CLI 架构设计 |
| ❸ 实现 | 用 Click 构建 CLI,含 REPL、JSON 输出、undo/redo | Python 包 |
| ❹ 测试计划 | 产出单元测试 + 端到端测试计划 | TEST.md |
| ❺ 测试实现 | 编写并执行完整的测试套件 | 测试代码 |
| ❻ 文档 | 生成 SKILL.md,方便 AI 代理自动查找与使用 | 文档文件 |
| ❼ 发布 | 配置 setup.py,安装到 PATH | 可分发包 |
架构的核心原则:与真实软件集成,而非模拟
多数 GUI 软件的后端已有 CLI 能力。Blender 有 bpy 脚本,
LibreOffice 有 headless PDF 转制,Audacity 有 sox。CLI-
Anything 的生成器会直接识别并调用这些底层接口,生成有效的
项目文件、再委托真实软件完成渲染导出。
图片处理不走截图,音频处理不走回放,CAD 输出不走
RPA——每一条命令都调用真实后端。
双模交互是点睛之笔
每个生成的 CLI 都支持两种模式:
• 有状态 REPL:启动后进入交互界面,支持命令历史、进度条、
彩色输出、session 持久化 + undo/redo。适合代理做多步操作。
• 无状态子命令:一次性执行后退出。--json
标志让输出是结构化数据,代理直接消费。
这种设计让同一个 CLI 既能用于探索式交互,又能嵌入脚本流水线。
创新点在哪儿?
对比社区中已有的单应用 CLI 脚本,CLI-Anything 的独特之处是
「生成器而非适配器」。它不替每个软件手写 CLI,而是给出一种
方法论 + 插件,由 AI 代理自己完成「分析->生成->测试」的闭环。
新软件加入时,现有代码库作为参考语料,持续降低生成门槛。
此外,SKILL.md 的自动生成为「代理发现工具」铺平了路。安装
CLI 后 AI 代理通过读取 SKILL.md 即可掌握用法,无需人类编写
使用手册。CLI-Hub 的 meta-skill 让代理可以自主搜索并安装
需要的 CLI。
代价是第一次生成耗时较长(完整 7 阶段需数分钟),但第二次
使用已安装的 CLI 时零延迟。
落地场景与更广泛的想象空间
即刻可落地的场景
文档自动化是投入产出比最高的方向。如果你的团队用 LibreOffice
或 OnlyOffice 撰写合同、标书、报告,通过 CLI-Anything
生成的 cli-anything-libreoffice 可以让代理自动完成模板填充
-> PDF 导出 -> 邮件分发,整个过程不到 20 秒。没有 GUI
虚拟器、没有像素坐标,只有命令流水线。
设计稿自动化审阅是另一个高价值场景。产品团队在 Draw.io 上
画架构图,设计师用 Figma/Sketch 出稿——现有 CI
系统无法介入这些「只看图、不讲接口」的工具。装上 CLI 后,
代理可以打开文件、导出 PNG、与上一版本做 diff,全部写进
GitHub Action。
更广阔的空间
当「任意软件都有 CLI」成为现实,AI 代理的能力边界就不再
受限于「是否有 API」。一个代理可以同时操控 GIMP 修图、
Blender 建模、FreeCAD 出工程图、OBS 推流——全部用
同一个编排逻辑。开发者只需要写出「做什么」,而不需要管
「怎么操作软件」。
目前 CLI-Anything 已产出 60+ CLI 适配器,含 2,280 个全量
通过的测试。支持 Claude Code、Pi、OpenClaw、Codex 等
主流 AI 编码平台。项目在发布不到两个月内收获 35K+
Stars,验证了社区的真实需求。
CLI-Anything 不是要「给软件加个壳」,而是要让 AI 代理
拥有与人类同等的软件操作能力——不是模仿点击,而是使用与
真实后端相同的接口。这正是「Agent-Native」的含义。
夜雨聆风