港大一个开源项目火了:AI 直接接管你的软件,不用写一行代码
最近港大开源了一个项目,在 GitHub 上的增长速度有点吓人。
4 天破 1.5 万 Star,连续霸占 Trending 榜单一周多。连硅谷的开发者都在激烈讨论这东西能干啥。
为什么这么火?
原因很直白:它做了一件听起来很魔幻的事——一条命令,让任何软件瞬间变成 AI Agent 可以直接操控的工具。
不需要你手写 API、不需要浏览器自动化、不需要复杂的集成方案。把源码一扔,系统自动扫描、自动生成、自动测试,全程无感。
当 AI Agent 拿到这套工具后,它能直接通过命令行调用软件的任何功能,一切都是结构化的、可预测的、完全可编程的。
这对整个 AI 生态意味着什么?我们来好好掰扯掰扯。
AI 时代的软件该长什么样?
你想象一下这个场景:
李明今天需要完成一个复杂的视频编辑任务——剪辑 20 个视频片段、加入文字、调色、加音乐、最后导出成 4 种格式。
以前他得:打开 Shotcut,鼠标点点点、拖拖拖,手工操作两个小时。
现在呢?他对着 Claude Code 说一句话:
“帮我把下载的这 20 个视频片段剪辑到 3 分钟,加入公司 logo,调成统一色调,然后分别导出成 MP4、WebM、MOV 和 GIF 四种格式。”
Claude Code 接到指令,自动调用 Shotcut 的 CLI 接口,一步步完成所有操作,几分钟内全部搞定,甚至还能边做边告诉你进度。
这听起来像科幻,但现在已经成了现实。
这就是 CLI-Anything 想要改变的世界。
一个叫 CLI-Anything 的项目,凭什么这么猛?
先从名字看,它很谦虚——就是把「任何东西」变成命令行工具而已。
但背后的体系设计,才是真正让人瞪眼的地方。
它是怎么工作的?
整个流程是一条自动化流水线,分为 7 个阶段:
第 1 阶段:代码深度扫描AI 接收到你上传的源码,不是简单地读一遍,而是进行多维度的语义分析——理解核心功能模块、核心 API、数据流、执行逻辑。就像一个资深工程师在快速过一遍代码库。
第 2 阶段:命令架构设计根据扫描结果,AI 自动规划出一套合理的命令行结构。不是随意生成,而是遵循 Unix 哲学——每个命令职责单一、清晰、可组合。
第 3 阶段:CLI 实现自动生成可执行的命令行程序。这不是个壳,而是真正连接到软件后端的完整实现。
第 4-5 阶段:测试规划和自动化测试AI 自动设计测试用例,然后真的跑这些用例。到目前为止已经通过了 1839 个测试,100% 通过率。
第 6-7 阶段:文档生成和打包发布自动生成 README、使用文档,打成可安装的包。
整个过程,你什么都不用干。真的就是丢个源码,喝杯咖啡,回来就完事了。
已经支持了多少软件?
目前已经适配了 16 个真实的、各领域领头羊级别的软件:
- 3D 建模
:Blender(全球 3D 设计师的标配) - 办公套件
:LibreOffice(开源办公的旗舰) - 视频剪辑
:Kdenlive、Shotcut(专业级非线性编辑软件) - 在线工具
:Draw.io(全球最流行的流程图工具)、NotebookLLM(Google 的 AI 笔记本) - 开发运维
:Jenkins、GitLab、Grafana(DevOps 三驾马车) - 协作工具
:Zoom、幕布
这些都不是玩具项目,每一个都是真实生产环境中被百万级用户使用的软件。
而且关键是——所有的命令调用都走的是真实的软件后端。
不是模拟,不是 Mock。比如:
-
GIMP 修图直接调用 GEGL 脚本引擎 -
Blender 渲染直接使用 bpy 接口 -
LibreOffice PDF 导出用的是原生 headless 模式
换句话说,任何在 UI 上能做的事,通过 CLI 一样能做到,甚至更快。
怎么用?两个命令搞定
最简单的场景,以 Claude Code(Anthropic 推出的 AI 编程助手)为例:
# 第一步:添加插件源
/plugin marketplace add HKUDS/CLI-Anything
# 第二步:安装插件
/plugin install cli-anything
然后对 Claude Code 说一句:
/cli-anything:cli-anything ./libreoffice
它会自动执行上面说的 7 阶段流程。等进度条走完,LibreOffice 就已经变成一个 AI 可以操控的工具了。
还可以直接给 GitHub 仓库地址,不用提前下载:
/cli-anything:cli-anything https://github.com/C4illin/ConvertX
生成完之后安装:
cd ConvertX/agent-harness && pip install -e .
验证一下:
cli-anything-convertx --help
就能看到所有可用命令了。
然后你就可以对 Agent 说:”帮我把这 50 个 TIFF 文件转成 PNG”,它会自动调用这个工具完成转换。
为什么大厂和学术界都在这样做?
这里有个很关键的洞察。
CLI-Anything 的项目 README 顶部有一句话,我觉得值得好好品一品:
「Today’s Software Serves Humans. Tomorrow’s Users will be Agents.」
翻译过来就是:「现在的软件是为人设计的。以后,用户可能不是人,而是 AI Agent。」
这句话乍一听有点吓人,但细想想其实是必然的发展方向。
为什么 CLI 是最好的 Agent 接口?
想象 Agent 和软件交互有几种方式:
方式 1:GUI 自动化让 Agent 识别按钮、输入框、菜单项,像人一样去点击和拖拽。听起来不错,但实际上是噩梦——稍微改个界面位置,整个自动化流程就崩溃了。而且 LLM 的视觉理解能力再强也有天花板,经常会点错。
方式 2:调用私有 API每个软件都单独开发一套 API。理想状态下很完美,但现实中 99% 的企业级软件根本没有公开 API,你得靠逆向工程。投入巨大,维护成本爆炸。
方式 3:命令行接口文本命令天然匹配 LLM 的能力范围。输入是自然语言翻译成的文本指令,输出可以格式化成结构化数据(比如 JSON)。--help 自动提供文档,Agent 自己就能发现功能。没有歧义,没有视觉识别问题,就是最纯粹的信息交互。
CLI 是三种方案中最稳定、最可靠、最易维护的。
所以你看:
- 谷歌
上个月刚开源了 Google Workspace CLI,把 Gmail、Drive、Calendar 的所有功能都通过命令行暴露出来 - 港大 HKUDS 团队
现在开源了 CLI-Anything,直接把这个概念推向通用化——任何软件都能自动转换
这两个案例都指向同一个方向:行业在主动给 AI Agent 建立基础设施。
这意味着什么?
短期内:开发者的工作流会被彻底改变。不是「我用工具」,而是「我让 Agent 用工具」。
中期内:软件的设计哲学会改变。不再只问「用户界面怎么设计最美观」,而是「怎么设计让 Agent 最容易理解」。
长期内:这可能会改变整个商业软件的生态。那些能最好地与 AI 集成的工具会获得巨大的竞争优势。
真实场景:想象一下这些用法
场景 1:自动化内容制作
你有一个自媒体账号,每周要发 7 篇文章、14 张配图、3 段视频。
用 Claude Code + CLI-Anything:
告诉它主题列表,它自动调用 LibreOffice 生成文档模板、调用 GIMP 生成配图、调用 Shotcut 剪辑视频。一个晚上所有内容全部完成,质量反而更一致。
场景 2:跨应用数据流
财务团队需要每天从 Jenkins 拉构建数据,整理成 Grafana 仪表板,然后导出成 PDF 报告发送出去。
现在:让 Agent 每天自动执行这个完整流程。不需要写 Python 脚本,不需要 Cron 任务,就是一条指令。
场景 3:大规模数据处理
你有 10,000 个设计文件(Draw.io 格式),需要批量转换成不同格式、批量调整尺寸、批量添加水印。
手工操作?不现实。
写脚本?复杂。
现在:对 Agent 说一句话,它直接调用 CLI-Anything 生成的接口,并行处理全部文件。完成时间从几天降到几分钟。
还有什么值得关注的细节?
1. JSON 输出天生支持
每个命令都支持 --json 参数。当 Agent 调用命令时,不是看文本输出,而是拿到结构化的 JSON 数据,直接解析。
这意味着 Agent 能理解返回值,能根据结果判断下一步操作,能构建更复杂的工作流。
2. 动态扩展能力
如果觉得生成的 CLI 功能不够全,还可以运行 refine 命令,让 AI 继续分析源码、补充更多功能。
版本迭代不需要从头再来,只需要增量更新。
3. 支持主流 Agent 平台
Claude Code、OpenClaw、Cursor、Codex、OpenCode——业界所有一线的 AI 编程工具都支持。
这不是某一家的私产,而是开放生态。
为什么 4 天 1.5 万 Star?
说实话,这个热度有点超出预期。但仔细想想也合理:
- 时机对了
:AI Agent 的时代刚刚开始,这个工具直接解决了 Agent 集成软件的核心痛点 - 通用性强
:不是某个领域的专用工具,而是「任何软件都能用」 - 完全自动化
:降低了使用门槛,不需要深厚的编程功底 - 有真实数据支撑
:不是概念验证,已经支持 16 个主流软件,测试通过率 100% - 代表了趋势
:大厂(Google)和学术界(港大)都在往这个方向努力
最后的思考
有个很有意思的问题:如果 Agent 可以调用任何软件,那开发者的角色会不会被削弱?
我觉得不会。反而会强化。
因为不是所有需求都能通过现有软件的 CLI 组合解决。有些时候你还是需要定制开发。但门槛会降低——AI 可以帮你生成初稿,你来审核和优化,而不是从零开始手写。
这更像是生产力的放大,而不是替代。
还有,这项技术最深层的意义在于:它承认了 AI Agent 这个新的用户类别的存在,并开始为它服务。
以前软件是为人设计。现在开始有一些行业领导者主动给 Agent 开门。
这是个不可逆的趋势。
十年后回头看,CLI-Anything 和 Google Workspace CLI 这样的项目,可能会被视为 AI 工具化时代的标志性产品——就像 App Store 之于移动时代、GitHub 之于开源时代一样。
开源地址: https://github.com/HKUDS/CLI-Anything
有兴趣的朋友可以去 Star 一下,这个项目确实值得关注。
下一个时代,不是 Agent 接管人的工作,而是人和 Agent 的分工会被重新定义。
而 CLI-Anything,就是这场重新定义的基础设施。

夜雨聆风