乐于分享
好东西不私藏

一条命令,让AI操控所有软件:CLI-Anything深度解析

一条命令,让AI操控所有软件:CLI-Anything深度解析

一条命令,让AI操控所有软件:CLI-Anything深度解析

当AI能直接”驾驶”真实软件时,才是真正的自动化时代。

你有没有想过:为什么AI写代码很强,但要让它帮你剪辑视频、修图、做PPT,却总是差点意思?

核心原因是——AI没有”手”。它能理解你要什么,但无法操作那些图形界面软件。

而今天要介绍的这个项目,就是要给AI一双”手”。

一、什么是CLI-Anything?

CLI-Anything 是香港大学数据智能实验室(HKUDS)的开源项目,GitHub Star数已达 24,470

一句话定义:

把任何有源代码的软件,自动转换成AI Agent可以直接操控的命令行工具。

不是重新造轮子,而是给现有软件加一个”AI遥控器”

背后的团队不简单

HKUDS由黄超助理教授领导,Google Scholar引用16,700+。这个实验室出品过:

  • LightRAG(30,274⭐)
  • nanobot(35,671⭐)
  • DeepTutor(10,823⭐)
  • RAG-Anything(14,530⭐)

持续在更新推进,不是那种”一锤子买卖”的团队。

二、它是怎么做到的?

项目核心是一个7阶段自动化流水线,定义在36KB的HARNESS.md文档中。

核心原则:调用真实软件,不是重新实现

这是CLI-Anything和其他方案最大的区别:

方案
做法是什么
问题在哪
传统RPA
模拟鼠标点击
UI一变就挂
自己重写
用Python重写GIMP
功能永远跟不上
CLI-Anything
生成项目文件 → 调用真实软件渲染
✅ 稳定且完整

举个例子:

你要让AI用GIMP给图片加滤镜,CLI-Anything会:

  1. 生成合法的.xcf项目文件
  2. 调用真实的GIMP进行渲染
  3. 导出最终结果

不是用Pillow写个简化版滤镜,而是真正的GIMP

7个阶段干了什么?

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(linePhase 1: 代码库分析   ↓ 扫描源代码,找后端引擎、API映射、数据模型Phase 2: CLI架构设计   ↓ 设计REPL交互、命令分组、JSON输出Phase 3: 实现   ↓ 写Python Click代码,包装真实软件Phase 4: 测试规划   ↓ 写TEST.md,规划测试清单Phase 5: 测试实现   ↓ 四层测试:单元→E2E原生→真实后端→CLI子进程Phase 6: 测试文档化   ↓ 记录测试结果到TEST.mdPhase 6.5: SKILL.md生成   ↓ 自动生成AI可发现的技能定义Phase 7: PyPI发布   → 独立安装,互不冲突

关键设计模式:

ounter(lineounter(lineounter(lineounter(lineounter(line# 后端包装器模式def convert_odf_to(odf_path, output_format, output_path=None):    lo = find_libreoffice()  # 找不到就报错,附带安装说明    subprocess.run([lo, "--headless", "--convert-to", output_format, ...])    return {"output": final_path, "format": output_format}

软件是硬依赖,没有真实软件CLI就毫无意义。

三、实测数据:比MCP强多少?

项目方做了基准测试(Scalekit基准,75次运行,Claude Sonnet 4):

指标
CLI
MCP
Token成本
基准
10-32倍更贵
可靠性 100%
72%
根因
精简命令接口
Schema膨胀(如GitHub MCP=43个工具)

但也有反面数据:Patrick Kelly在LinkedIn报告,复杂多步骤任务中CLI比MCP多消耗2.4倍tokens

结论:

  • 简单/中等任务 → CLI完胜
  • 复杂多步骤任务 → 看情况,可能CLI需要多轮交互

四、21款软件已支持

软件
测试数
类型
GIMP
107
图像编辑
Blender
208
3D建模/渲染
Inkscape
202
矢量图形
Audacity
161
音频编辑
LibreOffice
158
办公套件
OBS Studio
153
直播/录制
Kdenlive
155
视频编辑
Shotcut
154
视频编辑
Draw.io
138
流程图
ComfyUI
70
AI图像生成
Ollama
98
本地LLM

总计约2,040个测试(测试数量在不同文档中有出入)

五、7大Agent框架已集成

框架
集成方式
状态
Claude Code
插件市场(4个斜杠命令)
✅ 已上线
OpenCode
5个斜杠命令 + HARNESS.md
✅ 已上线
Goose
CLI Provider
✅ 已上线
OpenClaw
原生SKILL.md
✅ 已上线
Codex
捆绑技能 + 安装脚本
✅ 已上线
GitHub Copilot CLI
插件安装
✅ 已上线
Cursor
🔜 即将推出

2026-03-17上线的CLI-Hub:

  • 中央注册中心:https://hkuds.github.io/CLI-Anything/
  • 浏览、搜索、一键pip安装任何CLI
  • Meta-skill让Agent自主发现/安装CLI

六、这个项目的硬核之处

1. 36KB的HARNESS.md不是PPT

这是真正的方法论文档,包含:

  • 独占文件锁机制(防止并发写入损坏)
  • 后端包装器模式代码
  • 四层测试架构
  • 输出验证(魔数检查、像素分析、音频RMS)
  • 时间码精度处理(非整数帧率累积误差)

2. “不信任exit code 0”

测试永远不只看返回码,而是:

  • 验证文件魔数(PNG头、ZIP结构)
  • 像素分析(图片真的渲染了吗?)
  • 音频RMS(音频真的处理了吗?)
  • 持续时间验证

3. No Graceful Degradation

软件缺失时测试失败,不是跳过。这提高了门槛,但也保证了质量。

七、坑在哪?说点真话

1. “一条命令”承诺 vs 现实

Issue #154指出新应用的默认CLI命令少、正确性不高

README也承认”可能需要迭代优化”。核心卖点的实际体验可能低于预期。

2. 强依赖真实软件

每个目标软件都必须安装。对CI/CD和云环境是挑战。

3. 无学术论文

缺乏同行评审的技术论文,难以评估其方法论的学术贡献。

4. 测试数据不一致

四个不同的测试数量(1,508 / 1,839 / 1,858 / 1,917),文档维护可能跟不上代码迭代。

5. 许可证不一致

README badge显示MIT,实际仓库使用Apache-2.0。细节错误,但影响信任度。

八、适用场景判断

场景
适用性
已有源代码的成熟GUI应用
✅ 最佳场景
AI Agent自动化工作流
✅ 核心目标场景
编译型闭源软件
⚠️ 有限支持
纯API服务
❌ 不在范围内
需要100%功能覆盖
⚠️ 需要迭代优化
资源受限环境
❌ 需要安装目标软件

九、与竞品对比

CLI-Anything vs 传统RPA

维度
CLI-Anything
传统RPA
稳定性
高(直接调用后端API)
低(依赖UI位置)
速度
快(无GUI渲染)
慢(需要GUI交互)
AI友好度
高(JSON输出、REPL)
低(需要视觉理解)
维护成本
低(后端API相对稳定)
高(UI变化频繁)

CLI-Anything vs MCP

维度
CLI-Anything
MCP
Token效率
高(精简命令)
低(Schema膨胀)
可靠性
100%(基准)
72%(基准)
通用性
需要每个软件单独构建
一个协议适配多软件
设置成本
高(需要源代码+真实软件)
低(如果MCP已存在)

十、总结:这是真突破还是营销包装?

我的判断:真突破,但不完美。

真突破的证据:

  1. 36KB的HARNESS.md — 实打实的方法论,不是PPT工程
  2. “调用真实软件”的坚持 — 正确的架构选择
  3. AI原生设计 — --json输出、REPL模式、SKILL.md发现机制
  4. 工程严谨性 — 四层测试、输出验证、独占文件锁
  5. 生态整合 — 7个Agent框架已集成

不完美的证据:

  1. Issue #154 — “一条命令”实际体验可能不如宣传
  2. 强依赖真实软件 — 使用门槛高
  3. 无学术论文 — 缺乏同行评审
  4. 测试数据不一致 — 文档维护问题

最终建议:

  • 如果你在做AI Agent自动化工作流,值得深入研究
  • 如果你需要快速验证概念,先用MCP可能更快
  • 如果你是企业级应用,建议等生态更成熟

这不是银弹,但方向是对的。

当AI能真正”驾驶”软件,而不是”模仿”软件时,才是真正的自动化时代。


参考资源:

  • GitHub仓库
  • CLI-Hub中央注册中心
  • HARNESS.md核心文档

作者:老谢