随着 AI Agent 越来越强,让 AI 并行做事场景越多越多。
简单 AI 对话产品,已不太能满足多项目长程复杂任务的管理需求。
于是,出现了类Trello任务看板的AI Agent任务分配管理产品,如Multica。

最近体验了清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的项目:PilotDeck
PilotDeck 也想解决类似痛点,但产品形态上有很大不同。
甚至他们设计了更全面的框架方案:

下面结合实战开发,顺带介绍框架特点。
开发画家风格图鉴网站

一直对GPT-image-2很感兴趣,但自知艺术素养不够。
偶然看到一个整理了 1260 个艺术家名字的Github仓库。
但仓库中只有艺术家名字,人毕竟是视觉动物,我看到“葛饰北斋”,根本不知道是什么风格,很不直观。
于是想,能不能用同一套生图提示词,风格换成不同艺术家名字,这样生成的图片就能看清不同艺术家风格差异。
输入提示词:

经过多轮对话后,第一版就开发好了。
开发时需要一些Skill,都通过当前项目 WorkSpace 右上角的 Skills 入口安装。
支持从Clawhub安装,也支持上传本地文件夹安装(点击Import folder)。

然后持续对话打磨,最终网站如下:
https://artist-style-gallery.vercel.app/
功能介绍演示:
关联 Github 持续迭代
网站开发不是一次性,经常要迭代修 Bug,优化产品体验。
建议创建项目时就关联已有的Github仓库,自己仓库填写 Token 后能直接推送。
比如,我发现上面开发的画家风格网页加载速度不够快。
于是让 PilotDeck Agent 阅读源码,提出网速和交互的改进建议:

让它修复性能和交互问题。

AI 加了回到顶部,只显示收藏等,对体验很有帮助。

这里要夸下Vercel,和Github绑定后,每次修改推送,网站会自动重建更新。
如果你也想一键部署,开源地址:
https://github.com/joeseesun/qiaomu-artist-style
多项目并行开发,定时执行
可以充分发挥 PilotDeck 的 WorkSpace 优势:独立文件系统、独立 Skill、白盒记忆管理和定时计划和任务。
每次创建 Project 时,都可以关联到一个 Github 地址,填写 Token 就能远程管理迭代。
比如我新建了一个最近开源的项目:

然后同样 PilotDeck Agent 分析项目存在的问题:

问题不少,让它拆成多个子任务,定时自动运行修复。

在右上角的 Away-On 菜单->Plans & Cron Jobs,查看管理这些子开发任务。

点了下执行,等我吃完午饭。
发现所有Bug都修好了,还生成了一个改动报告。

PilotDeck 项目设计解读
WorkSpace 不是文件夹
PilotDeck 的核心设计是 WorkSpace,但和其他产品里的「工作区」不一样。
拿 Codex 举例,我会创建很多项目文件夹。

一般类似 IDE 里的 WorkSpace,是编辑器里打开的一个文件夹,想要独立记忆和独立Skill,都需写入指定的Markdown文件。
而PilotDeck 的 WorkSpace,是一个三层结构项目舱:
① 专属文件系统
每个项目都有能访问、可操做的范围限定,AI 生成的文件自动标识区分。项目 A 的 Agent 不会去动项目 B 的文件。
② 专属记忆
分两种记忆,项目记忆(Project Memory)和个人记忆(Feedback Memory)。
项目记忆记录项目目标、进度、限制;个人记忆记录你的个人偏好和具体要求。
两种记忆都围绕项目读写,不会影响其他项目。
③ 专属技能
Skill 应用商店里的工具,可以一键安装到对应的 WorkSpace。
技能随任务增长自动沉淀,支持跨舱共享,也支持舱内专属。
这三层结构加在一起,实现:Agent 不只是在帮你做事,它真的「活」在这个项目里。
项目的目标是什么,进展到哪一步,你喜欢什么风格,哪些文件重要,都很清楚。
记忆白盒化
PilotDeck 的做法叫记忆白盒化。
怎么理解呢?
就是你能查看不同 WorkSpace中的所有 Memory,比如某条记忆条目,什么时候写入的、来自哪个项目。

可以追溯来源,甚至可修改。
PilotDeck 有一个叫「Dream」(做梦)的机制。
Anthropic 的 Claude 也有类似做法。

就是让 AI 在空闲时段(通常是深夜)自动回顾、整理、优化自身的记忆与经验。
类似人类睡眠时大脑整理记忆的过程。
记忆白盒化价值不只是「更透明」,而是「可修正」。
AI 记错了,能找到错在哪,改掉继续往前走。
省钱路由
用 AI Agent 跑复杂任务,很贵。
PilotDeck 内置了智能路由。
核心逻辑是:自动识别任务难度,按难度匹配模型,用合适的模型做合适的任务。
简单任务走价格低的子 Agent,复杂任务才调用能力强的主模型。
成本全透明,每个 WorkSpace 独立算账。

第一个项目简单,省了26美元,第二个复杂,只在计划阶段省了3美元。
也可以选是否开启智能路由,不强制。
有钱当然可以肆无忌惮 😂
主动做事的Agent
多数 Agent 工作模式还是「你问我答」,本质还是被动响应的工具。
PilotDeck 的 Always-on 设计很酷。
Agent 不需要等你触发,它会主动发现值得做的事,主动确认,主动推进,主动把成果落地为文件,主动汇报进展。
两种形式:
一种是 Cron Job 定时任务自动执行。
另一种有意思,让 Agent 自主发现任务。
哪怕你睡觉了,Agent也会自己判断什么值得做,搞定后跟你主动汇报。
与其他Agent区别
官方仓库给的这张图很清晰,不赘述。

写在后面
PilotDeck 目前已开源:
Github开源地址
有几件事值得体验:
建两个 WorkSpace,分别跑两个不同风格的任务。 看记忆是否真的隔离,是否会串台。
同样的任务,开路由和不开路由各跑一次,对比账单。
设置一个 Always-on 任务,然后去做别的事。
看 Agent 在没有主动触发的情况下,能推进到什么程度,产出是否可用。
Agent 时代的生产力竞争,最终比的不是谁用了更贵的模型,而是谁把工作流设计得更合理,让每一分算力都用在刀刃上。
夜雨聆风