让 AI 操控任何软件的终极方案

AI Agent 越来越强了,但有个尴尬的现实:它依然很难真正「操控」你电脑上的软件。
目前的方案主要靠「看截图 + 模拟点击」—— 但不稳定、容易跑偏、换个主题颜色就可能翻车。Claude Code 能写代码,但让它帮你 P 个图、剪个视频、渲染个 3D 模型?基本抓瞎。
最近香港大学数据科学实验室(HKUDS)搞的开源项目 CLI-Anything 正是为了解决这一痛点。目前已经在 GitHub 上收获 40k+ star。
一、 把 GUI 变成 CLI
CLI-Anything 是一个旨在将各类传统的图形界面(GUI)、或后端软件转化为适合 AI Agent 操作的命令行接口(CLI)的工具。

通过它,诸如 Claude Code、OpenClaw 等 AI Agent 不再需要依赖不稳定的“看截图点击”进行 UI 自动化,而是可以通过标准的命令行指令,直接指挥 Blender 渲染 3D 场景、指挥 LibreOffice 处理文档、甚至指挥专业游戏引擎或调试工具。
二、 原理不复杂
CLI-Anything 的核心是一条全自动的 7 阶段流水线。给它一个 GitHub 仓库链接或本地源码路径,它就能自动跑完:
-
🔍 分析 — 扫描源码,把 GUI 操作映射到 API -
📐 设计 — 规划命令分组、输出格式 -
🔨 实现 — 生成标准 Click CLI,带 REPL、JSON 输出、撤销/重做 -
📋 规划测试 — 生成测试计划 -
🧪 编写测试 — 自动实现测试套件 -
📝 文档 — 输出完整使用文档 -
📦 发布 — 生成 setup.py,一键安装到 PATH
跑完这套流水线,一个原本只能鼠标点点点的软件,就变成了 AI 能用命令行精准调用的工具。整个过程不需要你写一行胶水代码。
三、配套齐全
光有生成能力还不够。CLI-Anything 还配套做了一个 CLI-Hub 平台 —— 相当于 AI 工具的应用商店,目前已有 80 多个开箱即用的软件转换壳:包括 3D 建模(Blender、FreeCAD)、图像影音(GIMP、Audacity、Kdenlive)、办公效能(LibreOffice、Zotero、Calibre)以及各大云端 Web API 等。

四、 安装与使用
CLI-Anything 针对“使用者”和“开发者(想要创造新 CLI 的人)”提供了不同的轻量化路径:

作为使用者
如果你想直接使用社区已经做好的 80+ 款专业工具,可以使用其官方包管理器:
# Step 1: 安装中央包管理器pip install cli-anything-hub# Step 2: 浏览或搜索你需要的工具(如图像处理软件 GIMP)cli-hub search gimp# Step 3: 一键安装(请确保系统本地也安装了对应的实体软件,如 apt install gimp)cli-hub install gimp# Step 4: 启动使用cli-hub launch gimp
对于 AI Agent ,只需一句话赋予其 CLI-Hub 的自主寻路技能:
npx skills add HKUDS/CLI-Anything --skill cli-hub-meta-skill -g -y
随后你只需提示它:“请在 CLI-Hub 中查找合适的 CLI 软件并完成以下任务:将某段音频剪辑并进行降噪处理”,AI 就会自己去下载并调用工具。
作为开发者
如果你手里有一个开源项目或者公司内部的大后端,想要让 AI 帮它生一个 CLI 工具,以 Claude Code 为例:
# Step 1: 在你的 AI 编码助手中添加 CLI-Anything 市场/plugin marketplace add HKUDS/CLI-Anything# Step 2: 安装插件/plugin install cli-anything# Step 3: 一键对目标源码仓库运行 7 阶段流水线/cli-anything ./your-project-source
流水线跑完后,进入生成的 your-project/agent-harness 目录,执行 pip install -e .,属于你的 Agent-Native 命令行工具就正式诞生了。
你可以直接输入工具名进入有状态的交互式 REPL 模式(支持 Undo/Redo 状态回滚),也可以通过一行命令让 AI 直接获取 JSON:
your-cli-command --json project info --id 101
四、实际效果如何
来看几个真实演示。
AI 用 Draw.io 的 CLI 绘制 HTTPS 握手流程图:

AI 用 FreeCAD 的 CLI 组装一台火星探测车:

AI 用 Blender 渲染硬表面轨道中继无人机:

今天的大部分软件都是服务于人类,但未来必然会有越来越多软件需要同时服务于 AI。但是针对已有软件的 CLI 化仍是当前阶段一种比较务实的解法:不强求底层软件为了 AI 而去重构,而是利用 AI 自身的能力,把过去几十年来人类积累的、庞大的传统软件资产,低成本、全自动地打包成了 AI 听得懂、调得稳的“乐高积木”,这或许正是未来“智能体原生”软件生态演进的一条必经之路。
如果这篇文章对你有启发,欢迎点赞、在看、转发,也欢迎在评论区留下你的看法。
夜雨聆风