港大一个开源项目火了:AI 直接接管你的软件,不用写一行代码-夜雨聆风

港大一个开源项目火了:AI 直接接管你的软件,不用写一行代码

最近港大开源了一个项目，在 GitHub 上的增长速度有点吓人。

4 天破 1.5 万 Star，连续霸占 Trending 榜单一周多。连硅谷的开发者都在激烈讨论这东西能干啥。

为什么这么火？

原因很直白：它做了一件听起来很魔幻的事——一条命令，让任何软件瞬间变成 AI Agent 可以直接操控的工具。

不需要你手写 API、不需要浏览器自动化、不需要复杂的集成方案。把源码一扔，系统自动扫描、自动生成、自动测试，全程无感。

当 AI Agent 拿到这套工具后，它能直接通过命令行调用软件的任何功能，一切都是结构化的、可预测的、完全可编程的。

这对整个 AI 生态意味着什么？我们来好好掰扯掰扯。

AI 时代的软件该长什么样？

你想象一下这个场景：

李明今天需要完成一个复杂的视频编辑任务——剪辑 20 个视频片段、加入文字、调色、加音乐、最后导出成 4 种格式。

以前他得：打开 Shotcut，鼠标点点点、拖拖拖，手工操作两个小时。

现在呢？他对着 Claude Code 说一句话：

“帮我把下载的这 20 个视频片段剪辑到 3 分钟，加入公司 logo，调成统一色调，然后分别导出成 MP4、WebM、MOV 和 GIF 四种格式。”

Claude Code 接到指令，自动调用 Shotcut 的 CLI 接口，一步步完成所有操作，几分钟内全部搞定，甚至还能边做边告诉你进度。

这听起来像科幻，但现在已经成了现实。

这就是 CLI-Anything 想要改变的世界。

一个叫 CLI-Anything 的项目，凭什么这么猛？

先从名字看，它很谦虚——就是把「任何东西」变成命令行工具而已。

但背后的体系设计，才是真正让人瞪眼的地方。

它是怎么工作的？

整个流程是一条自动化流水线，分为 7 个阶段：

第 1 阶段：代码深度扫描AI 接收到你上传的源码，不是简单地读一遍，而是进行多维度的语义分析——理解核心功能模块、核心 API、数据流、执行逻辑。就像一个资深工程师在快速过一遍代码库。

第 2 阶段：命令架构设计根据扫描结果，AI 自动规划出一套合理的命令行结构。不是随意生成，而是遵循 Unix 哲学——每个命令职责单一、清晰、可组合。

第 3 阶段：CLI 实现自动生成可执行的命令行程序。这不是个壳，而是真正连接到软件后端的完整实现。

第 4-5 阶段：测试规划和自动化测试AI 自动设计测试用例，然后真的跑这些用例。到目前为止已经通过了 1839 个测试，100% 通过率。

第 6-7 阶段：文档生成和打包发布自动生成 README、使用文档，打成可安装的包。

整个过程，你什么都不用干。真的就是丢个源码，喝杯咖啡，回来就完事了。

已经支持了多少软件？

目前已经适配了 16 个真实的、各领域领头羊级别的软件：

3D 建模

：Blender（全球 3D 设计师的标配）
办公套件

：LibreOffice（开源办公的旗舰）
视频剪辑

：Kdenlive、Shotcut（专业级非线性编辑软件）
在线工具

：Draw.io（全球最流行的流程图工具）、NotebookLLM（Google 的 AI 笔记本）
开发运维

：Jenkins、GitLab、Grafana（DevOps 三驾马车）
协作工具

：Zoom、幕布

这些都不是玩具项目，每一个都是真实生产环境中被百万级用户使用的软件。

而且关键是——所有的命令调用都走的是真实的软件后端。

不是模拟，不是 Mock。比如：

GIMP 修图直接调用 GEGL 脚本引擎
Blender 渲染直接使用 bpy 接口
LibreOffice PDF 导出用的是原生 headless 模式

换句话说，任何在 UI 上能做的事，通过 CLI 一样能做到，甚至更快。

怎么用？两个命令搞定

最简单的场景，以 Claude Code（Anthropic 推出的 AI 编程助手）为例：

# 第一步：添加插件源
/plugin marketplace add HKUDS/CLI-Anything

# 第二步：安装插件
/plugin install cli-anything

然后对 Claude Code 说一句：

/cli-anything:cli-anything ./libreoffice

它会自动执行上面说的 7 阶段流程。等进度条走完，LibreOffice 就已经变成一个 AI 可以操控的工具了。

还可以直接给 GitHub 仓库地址，不用提前下载：

/cli-anything:cli-anything https://github.com/C4illin/ConvertX

生成完之后安装：

cd ConvertX/agent-harness && pip install -e .

验证一下：

cli-anything-convertx --help

就能看到所有可用命令了。

然后你就可以对 Agent 说：”帮我把这 50 个 TIFF 文件转成 PNG”，它会自动调用这个工具完成转换。

为什么大厂和学术界都在这样做？

这里有个很关键的洞察。

CLI-Anything 的项目 README 顶部有一句话，我觉得值得好好品一品：

「Today’s Software Serves Humans. Tomorrow’s Users will be Agents.」

翻译过来就是：「现在的软件是为人设计的。以后，用户可能不是人，而是 AI Agent。」

这句话乍一听有点吓人，但细想想其实是必然的发展方向。

为什么 CLI 是最好的 Agent 接口？

想象 Agent 和软件交互有几种方式：

方式 1：GUI 自动化让 Agent 识别按钮、输入框、菜单项，像人一样去点击和拖拽。听起来不错，但实际上是噩梦——稍微改个界面位置，整个自动化流程就崩溃了。而且 LLM 的视觉理解能力再强也有天花板，经常会点错。

方式 2：调用私有 API每个软件都单独开发一套 API。理想状态下很完美，但现实中 99% 的企业级软件根本没有公开 API，你得靠逆向工程。投入巨大，维护成本爆炸。

方式 3：命令行接口文本命令天然匹配 LLM 的能力范围。输入是自然语言翻译成的文本指令，输出可以格式化成结构化数据（比如 JSON）。--help 自动提供文档，Agent 自己就能发现功能。没有歧义，没有视觉识别问题，就是最纯粹的信息交互。

CLI 是三种方案中最稳定、最可靠、最易维护的。

所以你看：

谷歌

上个月刚开源了 Google Workspace CLI，把 Gmail、Drive、Calendar 的所有功能都通过命令行暴露出来
港大 HKUDS 团队

现在开源了 CLI-Anything，直接把这个概念推向通用化——任何软件都能自动转换

这两个案例都指向同一个方向：行业在主动给 AI Agent 建立基础设施。

这意味着什么？

短期内：开发者的工作流会被彻底改变。不是「我用工具」，而是「我让 Agent 用工具」。

中期内：软件的设计哲学会改变。不再只问「用户界面怎么设计最美观」，而是「怎么设计让 Agent 最容易理解」。

长期内：这可能会改变整个商业软件的生态。那些能最好地与 AI 集成的工具会获得巨大的竞争优势。

真实场景：想象一下这些用法

场景 1：自动化内容制作

你有一个自媒体账号，每周要发 7 篇文章、14 张配图、3 段视频。

用 Claude Code + CLI-Anything：

告诉它主题列表，它自动调用 LibreOffice 生成文档模板、调用 GIMP 生成配图、调用 Shotcut 剪辑视频。一个晚上所有内容全部完成，质量反而更一致。

场景 2：跨应用数据流

财务团队需要每天从 Jenkins 拉构建数据，整理成 Grafana 仪表板，然后导出成 PDF 报告发送出去。

现在：让 Agent 每天自动执行这个完整流程。不需要写 Python 脚本，不需要 Cron 任务，就是一条指令。

场景 3：大规模数据处理

你有 10,000 个设计文件（Draw.io 格式），需要批量转换成不同格式、批量调整尺寸、批量添加水印。

手工操作？不现实。

写脚本？复杂。

现在：对 Agent 说一句话，它直接调用 CLI-Anything 生成的接口，并行处理全部文件。完成时间从几天降到几分钟。

还有什么值得关注的细节？

1. JSON 输出天生支持

每个命令都支持 --json 参数。当 Agent 调用命令时，不是看文本输出，而是拿到结构化的 JSON 数据，直接解析。

这意味着 Agent 能理解返回值，能根据结果判断下一步操作，能构建更复杂的工作流。

2. 动态扩展能力

如果觉得生成的 CLI 功能不够全，还可以运行 refine 命令，让 AI 继续分析源码、补充更多功能。

版本迭代不需要从头再来，只需要增量更新。

3. 支持主流 Agent 平台

Claude Code、OpenClaw、Cursor、Codex、OpenCode——业界所有一线的 AI 编程工具都支持。

这不是某一家的私产，而是开放生态。

为什么 4 天 1.5 万 Star？

说实话，这个热度有点超出预期。但仔细想想也合理：

时机对了

：AI Agent 的时代刚刚开始，这个工具直接解决了 Agent 集成软件的核心痛点
通用性强

：不是某个领域的专用工具，而是「任何软件都能用」
完全自动化

：降低了使用门槛，不需要深厚的编程功底
有真实数据支撑

：不是概念验证，已经支持 16 个主流软件，测试通过率 100%
代表了趋势

：大厂（Google）和学术界（港大）都在往这个方向努力

最后的思考

有个很有意思的问题：如果 Agent 可以调用任何软件，那开发者的角色会不会被削弱？

我觉得不会。反而会强化。

因为不是所有需求都能通过现有软件的 CLI 组合解决。有些时候你还是需要定制开发。但门槛会降低——AI 可以帮你生成初稿，你来审核和优化，而不是从零开始手写。

这更像是生产力的放大，而不是替代。

还有，这项技术最深层的意义在于：它承认了 AI Agent 这个新的用户类别的存在，并开始为它服务。

以前软件是为人设计。现在开始有一些行业领导者主动给 Agent 开门。

这是个不可逆的趋势。

十年后回头看，CLI-Anything 和 Google Workspace CLI 这样的项目，可能会被视为 AI 工具化时代的标志性产品——就像 App Store 之于移动时代、GitHub 之于开源时代一样。

开源地址： https://github.com/HKUDS/CLI-Anything

有兴趣的朋友可以去 Star 一下，这个项目确实值得关注。

下一个时代，不是 Agent 接管人的工作，而是人和 Agent 的分工会被重新定义。

而 CLI-Anything，就是这场重新定义的基础设施。