清华开源 AI Agent 框架,一个会“做梦”、能省钱的 Agent

随着 AI Agent 越来越强，让 AI 并行做事场景越多越多。

简单 AI 对话产品，已不太能满足多项目长程复杂任务的管理需求。

于是，出现了类Trello任务看板的AI Agent任务分配管理产品，如Multica。

最近体验了清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的项目：PilotDeck

PilotDeck 也想解决类似痛点，但产品形态上有很大不同。

甚至他们设计了更全面的框架方案：

•用模型路由（Routing）根据任务难度自动换模型省钱

•用任务和定时任务（Plans & Cron Jobs）解决 Agent 持续运行问题

•用白盒记忆管理（Memory）和 WorkSpace 隔离解决记忆丢失或混乱问题

•支持上传本地Skill文件夹，给 Agent 添加日常工作流

下面结合实战开发，顺带介绍框架特点。

开发画家风格图鉴网站

一直对GPT-image-2很感兴趣，但自知艺术素养不够。

偶然看到一个整理了 1260 个艺术家名字的Github仓库。

但仓库中只有艺术家名字，人毕竟是视觉动物，我看到“葛饰北斋”，根本不知道是什么风格，很不直观。

于是想，能不能用同一套生图提示词，风格换成不同艺术家名字，这样生成的图片就能看清不同艺术家风格差异。

输入提示词：

经过多轮对话后，第一版就开发好了。

开发时需要一些Skill，都通过当前项目 WorkSpace 右上角的 Skills 入口安装。

支持从Clawhub安装，也支持上传本地文件夹安装（点击Import folder）。

然后持续对话打磨，最终网站如下：

https://artist-style-gallery.vercel.app/

功能介绍演示：

已关注

关注

重播分享赞

视频详情

关联 Github 持续迭代

网站开发不是一次性，经常要迭代修 Bug，优化产品体验。

建议创建项目时就关联已有的Github仓库，自己仓库填写 Token 后能直接推送。

比如，我发现上面开发的画家风格网页加载速度不够快。

于是让 PilotDeck Agent 阅读源码，提出网速和交互的改进建议：

让它修复性能和交互问题。

AI 加了回到顶部，只显示收藏等，对体验很有帮助。

这里要夸下Vercel，和Github绑定后，每次修改推送，网站会自动重建更新。

如果你也想一键部署，开源地址：

https://github.com/joeseesun/qiaomu-artist-style

多项目并行开发，定时执行

可以充分发挥 PilotDeck 的 WorkSpace 优势：独立文件系统、独立 Skill、白盒记忆管理和定时计划和任务。

每次创建 Project 时，都可以关联到一个 Github 地址，填写 Token 就能远程管理迭代。

比如我新建了一个最近开源的项目：

然后同样 PilotDeck Agent 分析项目存在的问题：

问题不少，让它拆成多个子任务，定时自动运行修复。

在右上角的 Away-On 菜单->Plans & Cron Jobs，查看管理这些子开发任务。

点了下执行，等我吃完午饭。

发现所有Bug都修好了，还生成了一个改动报告。

PilotDeck 项目设计解读

WorkSpace 不是文件夹

PilotDeck 的核心设计是 WorkSpace，但和其他产品里的「工作区」不一样。

拿 Codex 举例，我会创建很多项目文件夹。

一般类似 IDE 里的 WorkSpace，是编辑器里打开的一个文件夹，想要独立记忆和独立Skill，都需写入指定的Markdown文件。

而PilotDeck 的 WorkSpace，是一个三层结构项目舱：

① 专属文件系统

每个项目都有能访问、可操做的范围限定，AI 生成的文件自动标识区分。项目 A 的 Agent 不会去动项目 B 的文件。

② 专属记忆

分两种记忆，项目记忆（Project Memory）和个人记忆（Feedback Memory）。

项目记忆记录项目目标、进度、限制；个人记忆记录你的个人偏好和具体要求。

两种记忆都围绕项目读写，不会影响其他项目。

③ 专属技能

Skill 应用商店里的工具，可以一键安装到对应的 WorkSpace。

技能随任务增长自动沉淀，支持跨舱共享，也支持舱内专属。

这三层结构加在一起，实现：Agent 不只是在帮你做事，它真的「活」在这个项目里。

项目的目标是什么，进展到哪一步，你喜欢什么风格，哪些文件重要，都很清楚。

记忆白盒化

PilotDeck 的做法叫记忆白盒化。

怎么理解呢？

就是你能查看不同 WorkSpace中的所有 Memory，比如某条记忆条目，什么时候写入的、来自哪个项目。

可以追溯来源，甚至可修改。

PilotDeck 有一个叫「Dream」（做梦）的机制。

Anthropic 的 Claude 也有类似做法。

就是让 AI 在空闲时段（通常是深夜）自动回顾、整理、优化自身的记忆与经验。

类似人类睡眠时大脑整理记忆的过程。

记忆白盒化价值不只是「更透明」，而是「可修正」。

AI 记错了，能找到错在哪，改掉继续往前走。

省钱路由

用 AI Agent 跑复杂任务，很贵。

PilotDeck 内置了智能路由。

核心逻辑是：自动识别任务难度，按难度匹配模型，用合适的模型做合适的任务。

简单任务走价格低的子 Agent，复杂任务才调用能力强的主模型。

成本全透明，每个 WorkSpace 独立算账。

第一个项目简单，省了26美元，第二个复杂，只在计划阶段省了3美元。

也可以选是否开启智能路由，不强制。

有钱当然可以肆无忌惮 😂

主动做事的Agent

多数 Agent 工作模式还是「你问我答」，本质还是被动响应的工具。

PilotDeck 的 Always-on 设计很酷。

Agent 不需要等你触发，它会主动发现值得做的事，主动确认，主动推进，主动把成果落地为文件，主动汇报进展。

两种形式：

一种是 Cron Job 定时任务自动执行。

另一种有意思，让 Agent 自主发现任务。

哪怕你睡觉了，Agent也会自己判断什么值得做，搞定后跟你主动汇报。

与其他Agent区别

官方仓库给的这张图很清晰，不赘述。

写在后面

PilotDeck 目前已开源：

Github开源地址

https://github.com/OpenBMB/PilotDeck

官方网站链接

https://pilotdeck.openbmb.cn/

有几件事值得体验：

建两个 WorkSpace，分别跑两个不同风格的任务。 看记忆是否真的隔离，是否会串台。

同样的任务，开路由和不开路由各跑一次，对比账单。

设置一个 Always-on 任务，然后去做别的事。

看 Agent 在没有主动触发的情况下，能推进到什么程度，产出是否可用。

Agent 时代的生产力竞争，最终比的不是谁用了更贵的模型，而是谁把工作流设计得更合理，让每一分算力都用在刀刃上。