Agent怎么用真实软件,这个项目是个新思路
Agent怎么用真实软件,这个项目是个新思路
45天32K star。港大HKUDS的项目,叫CLI-Anything。
做Agent的人迟早撞上一堵墙:Agent很聪明,但用不了真工具。GIMP没有API,Blender没有接口,LibreOffice没有SDK。你让它调个色阶、渲染个场景,它跟你大眼瞪小眼。
之前几条路——截图模拟点击,生产环境脆得跟纸一样;等官方出API,大部分软件永远不会出;自己手搓wrapper,覆盖不了10%还得维护。
CLI-Anything换了个思路:让AI读源码,自动把GUI操作翻译成命令行。7阶段管线跑完,出来一个能直接pip install的CLI工具。不是截图模拟,不是阉割版重写,是直接调用真实后端。
测试这块挺认真,四层验证,LibreOffice导出PDF要检查magic bytes,Blender渲染完要验证像素。没装真实软件测试就fail不是skip。
好话说完了。说问题。
管线本身烧钱。7阶段全靠LLM跑,烧的是最贵的模型的token。一个中等软件跑下来几十美元,refine两三轮直接翻倍。软件大版本更新还得重跑。
源码分析有天花板。GUI软件的代码不是给机器理解的,”调色阶”在GIMP源码里可能散落在三个不同模块。闭源软件更别想了——Adobe全家桶才是用户最想让Agent操控的,偏偏管线最无能为力。
35+软件覆盖看着多,但深度呢?GIMP 107个测试跟实际能力比5%都悬。refine可以扩展,但”往哪扩展”还是得人判断,只是把编码自动化了。
CLI范式本身也有限制。命令行适合”做一件事返回结果”,但视频剪辑需要实时预览、逐帧调整,用CLI一个个调效率低一到两个数量级。状态管理靠project JSON模拟,不是真正的undo。
但最让我兴奋的不是wrapper本身,是Meta-Skill。Agent读完一个SKILL.md,自己发现、安装、使用工具。不需要人手动配置。如果走通了,比wrapper的价值大一个量级。
今天你用 Agent 得提前给它配好工具,每个工具手动接入。但如果 Agent 能自己在一个注册表里发现、评估、安装需要的能力呢?这不是工具了,这是 Agent 自己长出能力的机制。
这个项目不完美,但它在”Agent怎么跟真实世界交互”这个问题上给了一个能跑的、诚实的答案。tradeoff标得清楚,没藏着掖着。
建议认真看一遍。不是为了用它,是为了理解这个思路。接下来一年这个话题只会越来越重要。
项目地址:https://github.com/HKUDS/CLI-Anything
#AI #AIAgent #人工智能 #科技 #编程 #独立开发者 #AI工具 #Claude #开源项目 #深度分析
夜雨聆风