说真的,你在公司最烦的活是什么?
我猜,十个人里有八个会说:读微信消息、整理报销单、查支付宝账单、把网页上的数据手动抄到Excel里。这些事,说大不大,说小不小,但加起来,一天能吃掉你两三个小时。
我最近发现了一个工具,说出来你可能不信:它能帮你做这些事,而且用的次数越多,它就越懂你,做得越快。今天要说的这个,叫 GenericAgent,GitHub 今日新增了 845 颗星,背后藏着一种很特别的设计哲学。
📄 项目来源 · GitHub Trending · 2026-04-18
⭐ 今日新增 845 Stars · 核心代码约 3000 行
🔗 项目地址:https://github.com/lsdefine/GenericAgent
场景一:查支付宝支出,手动 vs AI自动
先说一件我上周真实干过的事。
老板让我整理上个月公司几个账号的支付宝支出大概分布——就是看看哪几类花销占比最高。我当时第一反应是打开支付宝 App,一个一个账号切换,点「我的」→「账单」→「统计」,导出数据,再手动填进表格。
结果你猜怎么着?
光是登录、切换账号、截图、复制粘贴,就折腾了快四十分钟。这四十分钟,我盯着屏幕,眼睛都酸了,最后交出来的表格还差点填错行。
🤖 如果用 GenericAgent 呢?
我只需要打开它的对话界面,跟它说:
「帮我查一下上个月支付宝的支出分类汇总,截图保存到桌面。」
它就自己去打开浏览器、登录支付宝网页版、进入账单页面、截图、保存。全程你不用碰键盘。
而且它不只会查账单——它还能控制终端、读写本地文件、模拟键盘鼠标操作,也就是说,只要是电脑上你能手动完成的事,理论上它都能帮你自动跑一遍。
场景二:重复任务,第一次 vs 第三次
好,你说查账单这事确实有用,但每次都要重新说一遍,岂不是也很麻烦?
这才是 GenericAgent 最让我服气的点。
它有一个「技能库」机制。每当你让它完成一个新任务,它会把这次执行的完整路径「结晶」成一个可复用的技能,保存到本地。下次你遇到类似的事,直接调用就行。
我来给你算一笔账:
第 1 次
完整理解意图 → 控制浏览器 → 截图 → 保存,全套跑一遍,消耗 100% token
第 2 次
识别到技能库已有,跳过探索,直接跑最优路径,消耗降至 33%
第 3 次+
完全复用技能路径,稳定在 16% token,节省约 6 倍
换句话说:你让它干的事越多,它就越「懂」怎么干,越干越便宜。
一个月下来,你让它处理 20 次任务,累计 token 消耗可能只是「每次从零摸索」的 30%。这不是省电,这是真的在给 AI 提效。
而这一切的背后,核心代码只有大约 3000 行。
3000行代码的设计哲学:不预装,而是进化
3000 行代码是什么概念?
一个中等规模的 App,随随便便就几十万行代码。3000 行,在正经工程里连一个功能模块都填不满。
但 GenericAgent 的逻辑完全不一样:它不预装任何具体技能,而是给你一个「能学会技能」的能力。
每一次你让它完成任务,它就在学。每学一次,就把自己的技能库扩充一点。它不是出厂就什么都会,而是用着用着,什么都会了。这种思路有一个专门的词,叫「自进化」。
🏆 机器之心报道 · 百万级技能库开放
机器之心专门报道过这个项目,提到他们还开放了一个百万级的技能库,任何人都可以把自己跑通的自动化流程上传,供别人复用。也就是说,你遇到的某个问题,可能已经有人帮你跑通过一次了,直接拿来用就行。
更有意思的是,这个工具的作者,从头到尾没有自己打开过终端。所有的代码实现,全是 GenericAgent 自己写的。
这不是段子,这是作者自己在项目文档里写的原话。
支持的模型也很全:Claude、Gemini、Kimi、MiniMax,这些主流模型都可以接入,你想用哪个就接哪个,没有平台绑定。
三步安装,今晚就能用
说再多不如装一个试试。以下是安装步骤,亲测可用,全程大概十分钟。
1安装 GenericAgent
打开终端(Mac 按 Command+空格,搜「终端」;Windows 按 Win+R,输入 cmd),输入以下命令:
pip install generic-agent
如果提示没有 pip,先去 python.org 下载安装包即可。
2配置模型
GenericAgent 支持多种模型,推荐用 Kimi 或 MiniMax。注册后拿到 API Key,在项目根目录新建一个 .env 文件,写入以下内容:
OPENAI_API_KEY=你的API密钥 OPENAI_BASE_URL=https://api.moonshot.cn/v1
保存后,运行 generic-agent 即可启动对话界面。
3用技能库加速重复任务
完成一个任务后,跟它说「把这个流程保存为技能,起名叫XX」。下次遇到类似的事,直接说「用 XX 技能来处理这个」,它就跳过了探索,直接跑最优路径。
就这么简单。没有命令行,没有配置文件,没有技术门槛。
两条踩坑提醒
⚠️ 第一条:默认模型可能会选错
第一次启动时,如果不指定模型,它有时候会用 OpenAI 的默认接口,国内用户可能连不上。遇到跑不起来的情况,第一时间检查 .env 里的 BASE_URL 是不是对。
⚠️ 第二条:别人的技能流程没有经过审核
技能库里从社区复用的流程,跑之前先在本地测试一遍,尤其是涉及账号登录、数据导出的操作,别一上来就在正式环境里全速跑。
🎯 今天就做一件事
打开 GitHub,搜「GenericAgent」,点进项目主页,看一眼 Star 数和 README。
你会发现,这不像是一个程序员写出来的项目,更像是 AI 自己给自己搭建的工作台。
看完之后,花三分钟装一下,用一句话让它帮你做一件你今天本来要手动做的事。哪怕只是让它帮你查一下明天的天气保存到桌面,也算开了个头。
💡 你会发现,用过的次数越多,它就越像你自己的专属助手。
夜雨聆风