一条命令,让AI操控所有软件:CLI-Anything深度解析
一条命令,让AI操控所有软件:CLI-Anything深度解析
当AI能直接”驾驶”真实软件时,才是真正的自动化时代。
你有没有想过:为什么AI写代码很强,但要让它帮你剪辑视频、修图、做PPT,却总是差点意思?
核心原因是——AI没有”手”。它能理解你要什么,但无法操作那些图形界面软件。
而今天要介绍的这个项目,就是要给AI一双”手”。
一、什么是CLI-Anything?
CLI-Anything 是香港大学数据智能实验室(HKUDS)的开源项目,GitHub Star数已达 24,470。
一句话定义:
把任何有源代码的软件,自动转换成AI Agent可以直接操控的命令行工具。
不是重新造轮子,而是给现有软件加一个”AI遥控器”。
背后的团队不简单
HKUDS由黄超助理教授领导,Google Scholar引用16,700+。这个实验室出品过:
-
LightRAG(30,274⭐) -
nanobot(35,671⭐) -
DeepTutor(10,823⭐) -
RAG-Anything(14,530⭐)
持续在更新推进,不是那种”一锤子买卖”的团队。
二、它是怎么做到的?
项目核心是一个7阶段自动化流水线,定义在36KB的HARNESS.md文档中。
核心原则:调用真实软件,不是重新实现
这是CLI-Anything和其他方案最大的区别:
|
|
|
|
|---|---|---|
| 传统RPA |
|
|
| 自己重写 |
|
|
| CLI-Anything |
|
|
举个例子:
你要让AI用GIMP给图片加滤镜,CLI-Anything会:
-
生成合法的.xcf项目文件 -
调用真实的GIMP进行渲染 -
导出最终结果
不是用Pillow写个简化版滤镜,而是真正的GIMP。
7个阶段干了什么?
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(linePhase 1: 代码库分析↓ 扫描源代码,找后端引擎、API映射、数据模型Phase 2: CLI架构设计↓ 设计REPL交互、命令分组、JSON输出Phase 3: 实现↓ 写Python Click代码,包装真实软件Phase 4: 测试规划↓ 写TEST.md,规划测试清单Phase 5: 测试实现↓ 四层测试:单元→E2E原生→真实后端→CLI子进程Phase 6: 测试文档化↓ 记录测试结果到TEST.mdPhase 6.5: SKILL.md生成↓ 自动生成AI可发现的技能定义Phase 7: PyPI发布→ 独立安装,互不冲突
关键设计模式:
ounter(lineounter(lineounter(lineounter(lineounter(line# 后端包装器模式def convert_odf_to(odf_path, output_format, output_path=None):lo = find_libreoffice() # 找不到就报错,附带安装说明subprocess.run([lo, "--headless", "--convert-to", output_format, ...])return {"output": final_path, "format": output_format}
软件是硬依赖,没有真实软件CLI就毫无意义。
三、实测数据:比MCP强多少?
项目方做了基准测试(Scalekit基准,75次运行,Claude Sonnet 4):
|
|
|
|
|---|---|---|
| Token成本 |
|
10-32倍更贵 |
| 可靠性 | 100% |
|
| 根因 |
|
|
但也有反面数据:Patrick Kelly在LinkedIn报告,复杂多步骤任务中CLI比MCP多消耗2.4倍tokens。
结论:
-
简单/中等任务 → CLI完胜 -
复杂多步骤任务 → 看情况,可能CLI需要多轮交互
四、21款软件已支持
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
总计约2,040个测试(测试数量在不同文档中有出入)
五、7大Agent框架已集成
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2026-03-17上线的CLI-Hub:
-
中央注册中心:https://hkuds.github.io/CLI-Anything/ -
浏览、搜索、一键pip安装任何CLI -
Meta-skill让Agent自主发现/安装CLI
六、这个项目的硬核之处
1. 36KB的HARNESS.md不是PPT
这是真正的方法论文档,包含:
-
独占文件锁机制(防止并发写入损坏) -
后端包装器模式代码 -
四层测试架构 -
输出验证(魔数检查、像素分析、音频RMS) -
时间码精度处理(非整数帧率累积误差)
2. “不信任exit code 0”
测试永远不只看返回码,而是:
-
验证文件魔数(PNG头、ZIP结构) -
像素分析(图片真的渲染了吗?) -
音频RMS(音频真的处理了吗?) -
持续时间验证
3. No Graceful Degradation
软件缺失时测试失败,不是跳过。这提高了门槛,但也保证了质量。
七、坑在哪?说点真话
1. “一条命令”承诺 vs 现实
Issue #154指出:新应用的默认CLI命令少、正确性不高。
README也承认”可能需要迭代优化”。核心卖点的实际体验可能低于预期。
2. 强依赖真实软件
每个目标软件都必须安装。对CI/CD和云环境是挑战。
3. 无学术论文
缺乏同行评审的技术论文,难以评估其方法论的学术贡献。
4. 测试数据不一致
四个不同的测试数量(1,508 / 1,839 / 1,858 / 1,917),文档维护可能跟不上代码迭代。
5. 许可证不一致
README badge显示MIT,实际仓库使用Apache-2.0。细节错误,但影响信任度。
八、适用场景判断
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
九、与竞品对比
CLI-Anything vs 传统RPA
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
CLI-Anything vs MCP
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
十、总结:这是真突破还是营销包装?
我的判断:真突破,但不完美。
真突破的证据:
-
36KB的HARNESS.md — 实打实的方法论,不是PPT工程 -
“调用真实软件”的坚持 — 正确的架构选择 -
AI原生设计 — --json输出、REPL模式、SKILL.md发现机制 -
工程严谨性 — 四层测试、输出验证、独占文件锁 -
生态整合 — 7个Agent框架已集成
不完美的证据:
-
Issue #154 — “一条命令”实际体验可能不如宣传 -
强依赖真实软件 — 使用门槛高 -
无学术论文 — 缺乏同行评审 -
测试数据不一致 — 文档维护问题
最终建议:
-
如果你在做AI Agent自动化工作流,值得深入研究 -
如果你需要快速验证概念,先用MCP可能更快 -
如果你是企业级应用,建议等生态更成熟
这不是银弹,但方向是对的。
当AI能真正”驾驶”软件,而不是”模仿”软件时,才是真正的自动化时代。
参考资源:
-
GitHub仓库 -
CLI-Hub中央注册中心 -
HARNESS.md核心文档
作者:老谢

夜雨聆风