乐于分享
好东西不私藏

Agent怎么用真实软件,这个项目是个新思路

Agent怎么用真实软件,这个项目是个新思路

Agent怎么用真实软件,这个项目是个新思路

45天32K star。港大HKUDS的项目,叫CLI-Anything。

做Agent的人迟早撞上一堵墙:Agent很聪明,但用不了真工具。GIMP没有API,Blender没有接口,LibreOffice没有SDK。你让它调个色阶、渲染个场景,它跟你大眼瞪小眼。

之前几条路——截图模拟点击,生产环境脆得跟纸一样;等官方出API,大部分软件永远不会出;自己手搓wrapper,覆盖不了10%还得维护。

CLI-Anything换了个思路:让AI读源码,自动把GUI操作翻译成命令行。7阶段管线跑完,出来一个能直接pip install的CLI工具。不是截图模拟,不是阉割版重写,是直接调用真实后端。

测试这块挺认真,四层验证,LibreOffice导出PDF要检查magic bytes,Blender渲染完要验证像素。没装真实软件测试就fail不是skip。

好话说完了。说问题。

管线本身烧钱。7阶段全靠LLM跑,烧的是最贵的模型的token。一个中等软件跑下来几十美元,refine两三轮直接翻倍。软件大版本更新还得重跑。

源码分析有天花板。GUI软件的代码不是给机器理解的,”调色阶”在GIMP源码里可能散落在三个不同模块。闭源软件更别想了——Adobe全家桶才是用户最想让Agent操控的,偏偏管线最无能为力。

35+软件覆盖看着多,但深度呢?GIMP 107个测试跟实际能力比5%都悬。refine可以扩展,但”往哪扩展”还是得人判断,只是把编码自动化了。

CLI范式本身也有限制。命令行适合”做一件事返回结果”,但视频剪辑需要实时预览、逐帧调整,用CLI一个个调效率低一到两个数量级。状态管理靠project JSON模拟,不是真正的undo。

但最让我兴奋的不是wrapper本身,是Meta-Skill。Agent读完一个SKILL.md,自己发现、安装、使用工具。不需要人手动配置。如果走通了,比wrapper的价值大一个量级。

今天你用 Agent 得提前给它配好工具,每个工具手动接入。但如果 Agent 能自己在一个注册表里发现、评估、安装需要的能力呢?这不是工具了,这是 Agent 自己长出能力的机制。

这个项目不完美,但它在”Agent怎么跟真实世界交互”这个问题上给了一个能跑的、诚实的答案。tradeoff标得清楚,没藏着掖着。

建议认真看一遍。不是为了用它,是为了理解这个思路。接下来一年这个话题只会越来越重要。

项目地址:https://github.com/HKUDS/CLI-Anything

#AI #AIAgent #人工智能 #科技 #编程 #独立开发者 #AI工具 #Claude #开源项目 #深度分析

微信扫一扫赞赏作者喜欢作者

写的不错,支持下吧~

    正在加载…
      正在加载…
      名称已清空
      微信扫一扫赞赏作者

      喜欢作者其它金额
      作品
      暂无作品
      喜欢作者
      其它金额
      其它金额
      赞赏金额
      ¥
      最低赞赏 ¥0
      1
      2
      3
      4
      5
      6
      7
      8
      9
      0
      .
      作者提示: 个人观点,仅供参考
      北京,39分钟前,