摘要:港大HKUDS实验室开源的CLI-Anything项目,号称"一行命令让任意软件变成AI Agent原生工具",GitHub狂揽3.4万Star。它究竟是Agent时代的"万能适配器",还是又一个"概念大于实用"的网红项目?本文结合社区实测反馈,带你深度拆解它的真实能力与隐形成本。
一、3.4万Star的"魔法":它到底做了什么?
如果你关注AI Agent领域,最近一定被这个项目刷屏过——CLI-Anything,香港大学数据智能实验室(HKUDS)开源的一个自动化框架。
它的核心卖点非常抓人:
"/cli-anything ./gimp"——只需一行命令,就能给任意有源代码的软件,自动生成一套完整的命令行接口(CLI)。
这意味着什么?GIMP、Blender、Audacity、LibreOffice、OBS Studio……这些传统桌面软件,原本只能靠人类手动点击GUI操作,现在理论上可以被AI Agent直接调用,像调用API一样精确控制。
项目官网的口号也很燃:"Today's Software Serves Humans. Tomorrow's Users will be Agents."(今天的软件服务人类,明天的用户将是Agent。)
目前它已经覆盖了40+款软件,生成了超过2,280个测试用例,官方宣称100%通过率。GitHub上3.4万颗Star、3.4k次Fork,社区活跃度确实惊人。
二、七阶段流水线:从源码到CLI的全自动魔法
CLI-Anything的真正技术亮点,在于它的七阶段全自动流水线。当你输入那行命令后,背后的AI Agent会依次执行:
| 阶段 | 动作 | 说明 |
|---|---|---|
| 1. 分析 | 扫描源码 | 把GUI操作映射到内部API |
| 2. 设计 | 架构CLI | 规划命令分组、状态模型、输出格式 |
| 3. 实现 | 构建CLI | 用Click框架生成REPL、JSON输出、撤销重做 |
| 4. 规划测试 | 生成TEST.md | 设计单元测试+E2E测试方案 |
| 5. 编写测试 | 实现测试套件 | 覆盖核心功能路径 |
| 6. 文档 | 更新结果 | 写入测试结果,生成SKILL.md |
| 7. 发布 | 打包安装 | 生成setup.py,安装到PATH |
整个过程无需人工干预,完全由AI Agent自主完成。而且每次运行都是"增量式"的——你可以反复执行 /refine 来扩展覆盖范围,不会破坏已有成果。
这种设计思路非常聪明。它不是在"替代"原有软件,而是在软件外面包一层结构化的命令接口。生成的CLI会输出合法的工程文件(如ODF文档、MLT视频项目、SVG矢量图),然后交给真实软件去渲染。用项目自己的话说:"不做替代品,只做结构化接口。"
三、实测验证:11款软件、1508个测试全绿
官方给出的成绩单确实亮眼。已验证的软件覆盖图像编辑、3D建模、音频制作、视频剪辑、办公套件、直播推流等多个领域:
| 软件 | 领域 | 测试数 | 后端技术 |
|---|---|---|---|
| GIMP | 图像编辑 | 107 | Pillow + GEGL/Script-Fu |
| Blender | 3D建模 | 208 | bpy Python脚本 |
| Inkscape | 矢量图形 | 202 | 直接SVG/XML操作 |
| Audacity | 音频制作 | 161 | Python wave + sox |
| LibreOffice | 办公套件 | 158 | ODF生成 + 无头LO |
| OBS Studio | 直播录制 | 153 | JSON场景 + obs-websocket |
| Kdenlive | 视频剪辑 | 155 | MLT XML + melt渲染器 |
1,508个测试全部通过,这个数字本身就说明项目团队在技术严谨性上下了真功夫。他们不是做一个Demo就发出来,而是真正跑通了从代码分析到测试验证的完整闭环。
四、达人实测反馈:理想与现实的差距
然而,Star数高不等于上手即用。结合社区多位开发者的实测反馈,CLI-Anything的隐形成本也逐渐浮出水面。
1. 强模型依赖:你的API账单可能会很刺激
项目官方文档明确承认:需要前沿级大模型才能保证可靠性,如Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.4这个级别。
这意味着什么?如果你用本地小模型或者便宜的API,生成的CLI质量会大幅下降,甚至无法通过测试。有开发者反馈,用Claude Sonnet跑一轮完整的七阶段流水线,Token消耗量相当可观。对于个人开发者来说,这绝不是"免费午餐"。
2. 源码依赖:闭源软件基本无缘
CLI-Anything的前提是"分析源代码"。对于开源软件(如GIMP、Blender)它游刃有余,但对于闭源商业软件,生成质量会"显著下降"。
Adobe Photoshop、Figma、Notion这些主流生产力工具,要么没有源码,要么API文档不完整,CLI-Anything目前基本无能为力。这也解释了为什么它的覆盖列表里,大多是开源桌面软件。
3. 需要迭代优化:一次运行≠生产可用
官方文档有一句很诚实的提示:
"单次运行不一定完整覆盖,通常需要多次 /refine 达到生产级水平。"
也就是说,那行"/cli-anything ./gimp"只是起点。你可能需要反复执行refine、手动调整、补充测试,才能真正把生成的CLI用到生产环境。对于追求"一键搞定"的用户来说,这个预期管理很重要。
4. 平台支持不均衡:Claude Code是"亲儿子"
CLI-Anything目前对Claude Code的支持最完善,以官方插件形式托管。其他平台如OpenCode、Codex、OpenClaw等,要么是"实验性"支持,要么需要手动复制文件配置。
如果你不是Claude Code用户,上手门槛会明显更高。
五、个人观点:它解决了真问题,但还没到"万能"的程度
CLI-Anything的出现,恰好踩中了一个真实的行业痛点。
当前AI Agent操作软件,主要有两条路线:
API/MCP调用:可靠、快速,但覆盖率不足,很多软件根本没有开放API GUI自动化(Computer Use):通用性强,但速度慢、耗资源、点击准确率不稳定
CLI-Anything走的是第三条路:让软件自己长出CLI接口。这既不是等厂商开放API,也不是让AI去"看屏幕点鼠标",而是从根本上改变软件的交互形态——让每一款软件都具备"Agent原生"的能力。
这个方向,我非常认同。
人大林衍凯教授在一个访谈中说过:"大模型智能体的出现,正在倒逼传统软件向'AI原生'的设计方向演进。"CLI-Anything正是这种倒逼下的产物。它不是在等软件厂商觉醒,而是直接用AI的力量,给现有软件"打补丁"。
但我也必须泼一点冷水。
CLI-Anything目前更像是一个研究原型,而非成熟产品。它的价值在于验证了一个重要假设:"AI可以自动将GUI软件转化为CLI接口"。但距离"任意软件、一键可用"的愿景,还有很长的路要走。
真正的挑战在于:
复杂软件的状态管理(如视频剪辑中的时间轴、图层关系)能否被CLI精确表达? 闭源软件的逆向工程能否突破源码依赖的瓶颈? 生成CLI的可维护性——当原软件更新版本后,自动生成的CLI如何同步升级?
这些问题,目前还没有完美答案。
六、适合谁?不适合谁?
适合尝试的人群:
已经使用Claude Code、OpenClaw等Agent框架的开发者 需要批量自动化处理开源创意软件(GIMP、Blender、Audacity)的用户 对AI Agent基础设施感兴趣的技术研究者
暂时不适合的人群:
想"一键搞定Adobe全家桶"的设计师(闭源不支持) 预算有限的个人用户(强模型依赖=高API成本) 追求开箱即用、不愿折腾的轻度用户
七、结语:Agent时代的"翻译官"
CLI-Anything最打动我的,不是它的技术细节,而是它的愿景。
它试图回答一个根本性问题:在Agent即将成为"软件主要用户"的时代,如何让存量软件不被淘汰?
答案不是推倒重来,而是做一个翻译官——把GUI的视觉语言,翻译成Agent能理解的命令语言。
这个翻译官目前还不够聪明、不够便宜、也不够通用。但它证明了一件事:这条路是走得通的。
也许再过一两年,当端侧模型能力追上云端、当自动化生成的CLI质量足够稳定,我们会看到更多软件以这种方式"Agent化"。到那时候,CLI-Anything可能就是那个"第一个吃螃蟹"的历史性项目。
Star它,值得。但all in它,还早。
参考来源
GitHub: HKUDS/CLI-Anything CLI-Hub: https://clianything.cc/[1] 腾讯云开发者社区《CLI-Anything: 让所有软件都能被Agent驱动》 36氪《OpenClaw如早期Linux,真正竞争才刚开始》
引用链接
[1]https://clianything.cc/
夜雨聆风