乐于分享
好东西不私藏

40K Star,AI Agent 最大的瓶颈是"不会操作软件",这个项目直接把所有变成命令行可控

40K Star,AI Agent 最大的瓶颈是"不会操作软件",这个项目直接把所有变成命令行可控

40K Star,AI Agent 最大的瓶颈是”不会操作软件”,这个项目直接把所有软件变成命令行可控

上周我在做一个自动化任务,需要让 AI Agent 操作 Figma 导出设计稿里的图标。结果发现一个问题:主流的 AI Agent 框架几乎都没法直接操作桌面软件。它们能调用 API、能跑代码、能读写文件,但你让它打开 Figma 点几个按钮?做不到。

这就是现在 AI Agent 面临的一个很实际的瓶颈——大量的专业软件没有 API,只有图形界面。AI 看得懂代码,但不会点鼠标。

CLI-Anything 解决的就是这个问题。

▲ CLI-Anything

先说它是什么

CLI-Anything 是一个自动给任意软件生成命令行接口的工具。你给它一个软件,它分析这个软件的功能,然后自动生成一套 CLI 命令,让你可以通过终端直接操控这个软件。

GitHub 地址:HKUDS/CLI-Anything,40K+ Star,Python 项目。

为什么这很重要?因为 AI Agent 天然擅长操作命令行——输入命令、读取输出、根据输出决定下一步。但它们不擅长操作 GUI。所以把软件”翻译”成命令行接口,等于给 AI Agent 打开了操控所有软件的大门。

怎么装

# 安装 CLI-Anything Hub
pip install cli-anything-hub

# 基本用法——给某个软件生成 CLI 接口
cli-anything generate --app "Figma"

# 使用生成的 CLI
figma-cli export --format svg --output ./icons

# 通过 Hub 搜索已有接口
cli-anything search "Photoshop"
cli-anything install photoshop-cli

它是怎么做到的

一开始我也不太理解,一个软件没有 API,你怎么给它生成命令行接口?

CLI-Anything 用了一个 7 阶段的全自动流水线:

  1. 1. 软件分析 — 自动识别目标软件的功能模块和操作入口
  2. 2. 操作映射 — 把图形界面的操作映射成命令行参数结构
  3. 3. 脚本生成 — 自动生成 Python 或 Shell 脚本来执行操作
  4. 4. 测试验证 — 自动测试生成的命令是否正确(项目内置了 2330+ 测试用例)
  5. 5. 文档生成 — 为每个命令生成使用文档
  6. 6. 打包发布 — 把生成的 CLI 打包成可安装的模块
  7. 7. 持续维护 — 软件更新后自动适配

说白了,它相当于帮你写了一个”翻译层”——把你对终端说的话翻译成对图形界面操作的指令。你不需要懂这个软件的内部结构,它自己会去分析。

几个我觉得设计得很聪明的点

CLI-Hub 包管理器。 这是最实用的设计。你不需要每次都自己生成接口,社区已经为大量常用软件生成了现成的 CLI 接口,通过 Hub 直接安装就行。就像 npm 装包一样简单。

7 阶段全自动。 从分析到发布全自动化,不需要人工干预。这意味着即使你用的是一个很冷门的软件,也能自动生成接口。

2330+ 测试覆盖。 自动生成的东西最怕不靠谱。项目内置了大量测试用例来验证生成的命令是否正确,不会出现”命令跑着跑着把软件搞崩了”的情况。

多平台兼容。 生成的 CLI 接口支持 Windows、macOS、Linux。不挑系统,在哪里都能用。

实际用下来最好的场景

AI Agent 集成。 这是它最大的价值。把各种软件的 CLI 接口接入你的 AI Agent 工作流,Agent 就能操控这些软件了。比如让 Agent 自动从设计软件导出素材、从编辑软件渲染视频、从建模软件导出模型。

批量操作。 需要对某个软件做重复操作时,用命令行写个脚本比手动点快太多。比如批量导出 100 张图片的不同尺寸版本,手动得点一下午。

自动化流水线。 在 CI/CD 中集成各种设计、编辑软件的操作。设计师提交设计稿,自动触发导出、压缩、上传流程。

无头服务器操作。 服务器上没装图形界面,但又需要操作某个只有 GUI 的软件。有了 CLI 接口就不需要装虚拟显示器了。

你最希望哪个软件能变成命令行可控的?Figma?Notion?评论区说说你最想操作的软件

适合谁

  • AI Agent 开发者,需要让 Agent 操控各种软件
  • 自动化工程师,需要把图形界面软件纳入自动化流程
  • DevOps,需要在无头服务器上操作 GUI 软件
  • 效率工具爱好者,想把常用软件的操作变成命令行脚本

不适合什么?软件本身已经提供了完善的命令行接口或 API 的情况。Git、Docker 这些不需要 CLI-Anything,它们本身就支持命令行操作。

觉得有用的话,点个赞再看,每天一个开源神器推荐 📌

雷达持续扫描中,有想了解的工具随时留言。

— 龙珠雷达持续扫描中 —