乐于分享
好东西不私藏

港大一个开源项目火了:AI 直接接管你的软件,不用写一行代码

港大一个开源项目火了:AI 直接接管你的软件,不用写一行代码

最近港大开源了一个项目,在 GitHub 上的增长速度有点吓人。

4 天破 1.5 万 Star,连续霸占 Trending 榜单一周多。连硅谷的开发者都在激烈讨论这东西能干啥。

为什么这么火?

原因很直白:它做了一件听起来很魔幻的事——一条命令,让任何软件瞬间变成 AI Agent 可以直接操控的工具。

不需要你手写 API、不需要浏览器自动化、不需要复杂的集成方案。把源码一扔,系统自动扫描、自动生成、自动测试,全程无感。

当 AI Agent 拿到这套工具后,它能直接通过命令行调用软件的任何功能,一切都是结构化的、可预测的、完全可编程的。

这对整个 AI 生态意味着什么?我们来好好掰扯掰扯。


AI 时代的软件该长什么样?

你想象一下这个场景:

李明今天需要完成一个复杂的视频编辑任务——剪辑 20 个视频片段、加入文字、调色、加音乐、最后导出成 4 种格式。

以前他得:打开 Shotcut,鼠标点点点、拖拖拖,手工操作两个小时。

现在呢?他对着 Claude Code 说一句话:

“帮我把下载的这 20 个视频片段剪辑到 3 分钟,加入公司 logo,调成统一色调,然后分别导出成 MP4、WebM、MOV 和 GIF 四种格式。”

Claude Code 接到指令,自动调用 Shotcut 的 CLI 接口,一步步完成所有操作,几分钟内全部搞定,甚至还能边做边告诉你进度。

这听起来像科幻,但现在已经成了现实。

这就是 CLI-Anything 想要改变的世界。


一个叫 CLI-Anything 的项目,凭什么这么猛?

先从名字看,它很谦虚——就是把「任何东西」变成命令行工具而已。

但背后的体系设计,才是真正让人瞪眼的地方。

它是怎么工作的?

整个流程是一条自动化流水线,分为 7 个阶段:

第 1 阶段:代码深度扫描AI 接收到你上传的源码,不是简单地读一遍,而是进行多维度的语义分析——理解核心功能模块、核心 API、数据流、执行逻辑。就像一个资深工程师在快速过一遍代码库。

第 2 阶段:命令架构设计根据扫描结果,AI 自动规划出一套合理的命令行结构。不是随意生成,而是遵循 Unix 哲学——每个命令职责单一、清晰、可组合。

第 3 阶段:CLI 实现自动生成可执行的命令行程序。这不是个壳,而是真正连接到软件后端的完整实现。

第 4-5 阶段:测试规划和自动化测试AI 自动设计测试用例,然后真的跑这些用例。到目前为止已经通过了 1839 个测试,100% 通过率

第 6-7 阶段:文档生成和打包发布自动生成 README、使用文档,打成可安装的包。

整个过程,你什么都不用干。真的就是丢个源码,喝杯咖啡,回来就完事了。

已经支持了多少软件?

目前已经适配了 16 个真实的、各领域领头羊级别的软件:

  • 3D 建模
    :Blender(全球 3D 设计师的标配)
  • 办公套件
    :LibreOffice(开源办公的旗舰)
  • 视频剪辑
    :Kdenlive、Shotcut(专业级非线性编辑软件)
  • 在线工具
    :Draw.io(全球最流行的流程图工具)、NotebookLLM(Google 的 AI 笔记本)
  • 开发运维
    :Jenkins、GitLab、Grafana(DevOps 三驾马车)
  • 协作工具
    :Zoom、幕布

这些都不是玩具项目,每一个都是真实生产环境中被百万级用户使用的软件。

而且关键是——所有的命令调用都走的是真实的软件后端。

不是模拟,不是 Mock。比如:

  • GIMP 修图直接调用 GEGL 脚本引擎
  • Blender 渲染直接使用 bpy 接口
  • LibreOffice PDF 导出用的是原生 headless 模式

换句话说,任何在 UI 上能做的事,通过 CLI 一样能做到,甚至更快。


怎么用?两个命令搞定

最简单的场景,以 Claude Code(Anthropic 推出的 AI 编程助手)为例:

# 第一步:添加插件源
/plugin marketplace add HKUDS/CLI-Anything

# 第二步:安装插件
/plugin install cli-anything

然后对 Claude Code 说一句:

/cli-anything:cli-anything ./libreoffice

它会自动执行上面说的 7 阶段流程。等进度条走完,LibreOffice 就已经变成一个 AI 可以操控的工具了。

还可以直接给 GitHub 仓库地址,不用提前下载:

/cli-anything:cli-anything https://github.com/C4illin/ConvertX

生成完之后安装:

cd ConvertX/agent-harness && pip install -e .

验证一下:

cli-anything-convertx --help

就能看到所有可用命令了。

然后你就可以对 Agent 说:”帮我把这 50 个 TIFF 文件转成 PNG”,它会自动调用这个工具完成转换。


为什么大厂和学术界都在这样做?

这里有个很关键的洞察。

CLI-Anything 的项目 README 顶部有一句话,我觉得值得好好品一品:

「Today’s Software Serves Humans. Tomorrow’s Users will be Agents.」

翻译过来就是:「现在的软件是为人设计的。以后,用户可能不是人,而是 AI Agent。」

这句话乍一听有点吓人,但细想想其实是必然的发展方向。

为什么 CLI 是最好的 Agent 接口?

想象 Agent 和软件交互有几种方式:

方式 1:GUI 自动化让 Agent 识别按钮、输入框、菜单项,像人一样去点击和拖拽。听起来不错,但实际上是噩梦——稍微改个界面位置,整个自动化流程就崩溃了。而且 LLM 的视觉理解能力再强也有天花板,经常会点错。

方式 2:调用私有 API每个软件都单独开发一套 API。理想状态下很完美,但现实中 99% 的企业级软件根本没有公开 API,你得靠逆向工程。投入巨大,维护成本爆炸。

方式 3:命令行接口文本命令天然匹配 LLM 的能力范围。输入是自然语言翻译成的文本指令,输出可以格式化成结构化数据(比如 JSON)。--help 自动提供文档,Agent 自己就能发现功能。没有歧义,没有视觉识别问题,就是最纯粹的信息交互。

CLI 是三种方案中最稳定、最可靠、最易维护的。

所以你看:

  • 谷歌
     上个月刚开源了 Google Workspace CLI,把 Gmail、Drive、Calendar 的所有功能都通过命令行暴露出来
  • 港大 HKUDS 团队
     现在开源了 CLI-Anything,直接把这个概念推向通用化——任何软件都能自动转换

这两个案例都指向同一个方向:行业在主动给 AI Agent 建立基础设施。

这意味着什么?

短期内:开发者的工作流会被彻底改变。不是「我用工具」,而是「我让 Agent 用工具」。

中期内:软件的设计哲学会改变。不再只问「用户界面怎么设计最美观」,而是「怎么设计让 Agent 最容易理解」。

长期内:这可能会改变整个商业软件的生态。那些能最好地与 AI 集成的工具会获得巨大的竞争优势。


真实场景:想象一下这些用法

场景 1:自动化内容制作

你有一个自媒体账号,每周要发 7 篇文章、14 张配图、3 段视频。

用 Claude Code + CLI-Anything:

告诉它主题列表,它自动调用 LibreOffice 生成文档模板、调用 GIMP 生成配图、调用 Shotcut 剪辑视频。一个晚上所有内容全部完成,质量反而更一致。

场景 2:跨应用数据流

财务团队需要每天从 Jenkins 拉构建数据,整理成 Grafana 仪表板,然后导出成 PDF 报告发送出去。

现在:让 Agent 每天自动执行这个完整流程。不需要写 Python 脚本,不需要 Cron 任务,就是一条指令。

场景 3:大规模数据处理

你有 10,000 个设计文件(Draw.io 格式),需要批量转换成不同格式、批量调整尺寸、批量添加水印。

手工操作?不现实。

写脚本?复杂。

现在:对 Agent 说一句话,它直接调用 CLI-Anything 生成的接口,并行处理全部文件。完成时间从几天降到几分钟。


还有什么值得关注的细节?

1. JSON 输出天生支持

每个命令都支持 --json 参数。当 Agent 调用命令时,不是看文本输出,而是拿到结构化的 JSON 数据,直接解析。

这意味着 Agent 能理解返回值,能根据结果判断下一步操作,能构建更复杂的工作流。

2. 动态扩展能力

如果觉得生成的 CLI 功能不够全,还可以运行 refine 命令,让 AI 继续分析源码、补充更多功能。

版本迭代不需要从头再来,只需要增量更新。

3. 支持主流 Agent 平台

Claude Code、OpenClaw、Cursor、Codex、OpenCode——业界所有一线的 AI 编程工具都支持。

这不是某一家的私产,而是开放生态。


为什么 4 天 1.5 万 Star?

说实话,这个热度有点超出预期。但仔细想想也合理:

  1. 时机对了
    :AI Agent 的时代刚刚开始,这个工具直接解决了 Agent 集成软件的核心痛点
  2. 通用性强
    :不是某个领域的专用工具,而是「任何软件都能用」
  3. 完全自动化
    :降低了使用门槛,不需要深厚的编程功底
  4. 有真实数据支撑
    :不是概念验证,已经支持 16 个主流软件,测试通过率 100%
  5. 代表了趋势
    :大厂(Google)和学术界(港大)都在往这个方向努力

最后的思考

有个很有意思的问题:如果 Agent 可以调用任何软件,那开发者的角色会不会被削弱?

我觉得不会。反而会强化。

因为不是所有需求都能通过现有软件的 CLI 组合解决。有些时候你还是需要定制开发。但门槛会降低——AI 可以帮你生成初稿,你来审核和优化,而不是从零开始手写。

这更像是生产力的放大,而不是替代。

还有,这项技术最深层的意义在于:它承认了 AI Agent 这个新的用户类别的存在,并开始为它服务。

以前软件是为人设计。现在开始有一些行业领导者主动给 Agent 开门。

这是个不可逆的趋势。

十年后回头看,CLI-Anything 和 Google Workspace CLI 这样的项目,可能会被视为 AI 工具化时代的标志性产品——就像 App Store 之于移动时代、GitHub 之于开源时代一样。


开源地址: https://github.com/HKUDS/CLI-Anything

有兴趣的朋友可以去 Star 一下,这个项目确实值得关注。

下一个时代,不是 Agent 接管人的工作,而是人和 Agent 的分工会被重新定义。

而 CLI-Anything,就是这场重新定义的基础设施。