我第一次看 PilotDeck 的 README,脑子里冒出来的不是“又一个 Agent 平台”。
AI 不再挤在聊天框里,而是开始分工位干活。
而是一间办公室。
每个 AI 都有自己的工位、文件柜、记忆抽屉和任务看板。
人不再坐在聊天框前,一句一句催它回答。
人更像推开门的主管:看看谁在写报告,谁在查资料,谁又把隔壁项目的记忆拿错了。
这才是这件事有意思的地方。
过去两年,我们把 AI 当聊天对象。
接下来,很多人可能会开始把 AI 当一个会长期干活的员工。
而员工不能只住在聊天框里。
它不是聊天框,是 WorkSpace
PilotDeck 是 OpenBMB/PilotDeck 这个开源项目。GitHub 页面显示,它的定位是 Task-oriented AI Agent productivity platform,也就是面向任务的 AI Agent 生产力平台。
项目 README 里写得更直接:它由清华大学 THUNLP、ModelBest、OpenBMB 和 AI9Stars 联合开发并开源,核心概念不是 Chat,而是 WorkSpace。
这句话翻成人话,就是:
每个项目都应该有自己的房间。
A 项目的文件、记忆、技能,不应该跑到 B 项目里串门。你让 AI 写公众号,它别突然拿电商客服的语气来写;你让它做代码项目,它也别把上一篇文章的风格记进去。
这正是很多人用 AI 的真实痛点。
不是 AI 不聪明。
是它太容易把上下文搅成一锅粥。
今天你让它写方案,明天让它改代码,后天让它做数据表。表面上都是“帮我完成任务”,实际每个任务的语气、资料、约束、验收标准都不一样。
聊天框的麻烦在于:它很像一张大桌子。
什么文件都往上堆。
堆到最后,你自己也不知道它到底记住了什么。
PilotDeck 想做的,是给每个任务开一个独立办公室。
文件放在这个办公室里,记忆也放在这个办公室里,能用的技能也跟着这个办公室长出来。
这听起来没有“十倍效率”那么刺激。
但真正长期用 AI 干活的人都知道,这比一句神奇提示词重要得多。
真正麻烦的是记忆
很多 Agent 产品都在讲记忆。
记忆不能再黑箱:它记错了,你得能打开抽屉改掉。
但记忆有个危险点:如果你看不见它,记错了反而更麻烦。
比如你上个月告诉 AI:“这个客户喜欢轻松一点的表达。”
结果它偷偷把这条记忆用到了另一个严肃报告里。
你只会看到输出变怪,却不知道根因在哪里。
PilotDeck 在 README 里把这个问题叫做 White-box Memory,白盒记忆。
它强调的不是“我能记住你”,而是“我记住了什么、什么时候记的、属于哪个 WorkSpace、能不能改、能不能删、能不能回滚”。
这就像员工不是在脑子里乱记小本本,而是把工作记录放进透明文件柜。
错了,你能打开抽屉看。
不该记的,你能删。
关键规则,你能钉住。
甚至 README 里还提到一个 Dream Mode,在空闲窗口整理记忆,并支持一键回滚到之前状态。
这个设计很重要。
因为 Agent 越像员工,记忆就越不能黑箱。
人类员工记错了,你可以当面问。
AI 记错了,如果系统不给你看,你只能重新开一个聊天窗口,假装一切没有发生。
这不是生产力。
这是失忆式返工。
还有一个很现实的问题:钱
Agent 真跑起来,最大的问题不只是会不会干活。
让贵模型只干难活,便宜模型处理杂活,Agent 才跑得起。
还有花多少钱。
一个聊天机器人,贵一点你还能忍。
一个会后台跑任务、会调用工具、会读文件、会写报告的 Agent,如果每一步都用最贵模型,账单很快就会变成惊吓。
PilotDeck 的第三个卖点是 Smart Routing。
简单说,就是不要让旗舰模型干所有脏活累活。
复杂规划、关键判断,交给更强的模型。
改格式、整理资料、轻量摘要,交给便宜模型。
这更像真实公司里分工:老板不应该亲自贴发票,实习生也不应该拍板战略。
README 里给了两个很有意思的数字。
一个是小红书风格的社媒运营任务:开启 Smart Routing 后,成本是 2.83 美元;关闭后,全部走更贵模型,成本是 12.58 美元。
另一个是 7 个复杂任务测试:Sonnet 4.6 + MiniMax-M2.7 的主从路由组合,得分 70.6,成本 3.15 美元;单独用 Claude Sonnet 4.6,得分 69.1,成本 18.36 美元。
这些数字当然要看测试条件,不能直接当成所有场景都省这么多。
但方向很清楚:
如果 Agent 要从“聊天玩具”变成“长期劳动力”,成本调度会变成基础设施。
不会省 token 的 Agent,就像不会控成本的团队。
刚开始看起来很能干。
月底一看账单,老板想把灯关了。
问题来了:人离开以后,它还能不能继续干?
这是 PilotDeck 最像“办公室”的地方。
人离开以后,Agent 还在整理文件、写报告、交付结果。
README 里还有一个能力叫 Always-on。
它不是让 AI 秒回一句话,而是让它在你离开键盘以后继续推进工作:发现候选任务,跑长期监控,最后把结果落成磁盘上的文件,再给你一份总结报告。
这个点很容易被低估。
因为普通人现在用 AI,默认动作还是:
我问。
它答。
我再问。
它再答。
这其实还是客服模式。
真正的工作不是这样。
你给一个人安排任务,不会每 30 秒问他一句“做到哪了”。你希望他能自己查资料、整理文件、遇到问题汇报、完成后把东西放在指定位置。
Agent 也一样。
如果它永远只能等你下一句提示词,它就不是员工。
它只是一个很会说话的输入框。
Always-on 的意义在这里:让 AI 从“即时回答”往“异步交付”走一步。
这一步不花哨,但很关键。
因为人的注意力才是最贵的成本。
普通人该怎么看这件事
这类项目表面上离普通用户有点远。
又是 WorkSpace,又是 MCP,又是模型路由,又是后台执行。
但它透露出来的趋势很简单:
以后用 AI,可能不会只比谁会写提示词。
而是比谁能搭一个小型工作系统。
比如一个做自媒体的人,不是开一个聊天框让 AI 写文章,而是开几个 WorkSpace:
一个专门做选题。
一个专门查事实。
一个专门存自己的口吻和历史文章。
一个专门做图片和排版。
它们互不污染,又能在需要时协作。
再比如一个小老板,不是让 AI 临时写几句客服话术,而是让它长期盯订单、整理欠款、生成跟进记录、把每天的异常汇总成文件。
这时候,AI 的价值就不只是“回答得聪明”。
而是“能不能被管理”。
能不能分房间。
能不能查记忆。
能不能控成本。
能不能在人不盯着的时候继续干活。
这也是为什么 PilotDeck 这种项目值得看。
它不一定马上变成普通人的日常工具。
但它把一个方向摆出来了:
AI 的主战场,正在从聊天框,搬进办公室。
别把它理解成万能员工
当然,别误会。
开源一个 Agent 工作区,不等于明天所有人都能躺着收成果。
这类系统真正跑起来,仍然会遇到很多麻烦:模型不稳定、任务拆不好、工具权限复杂、长期记忆可能出错、后台任务也可能越跑越偏。
所以最好的理解不是“AI 替你上班”。
而是:
你需要开始学习怎么给 AI 安排工作。
以前,高手和普通人的差距在于谁会提问。
接下来,差距可能在于谁会建工作区、写规则、设权限、查记忆、看成本、做验收。
聊天框不会消失。
但聊天框会越来越不够用。
因为一个真正能干活的 Agent,不只需要一句提示词。
它需要一个位置。
需要边界。
需要记忆。
需要预算。
也需要一个能随时把它叫停的人。
这就是 PilotDeck 这类项目最有意思的信号:
AI 员工时代最先到来的,可能不是员工。
而是办公室。
参考资料:
OpenBMB/PilotDeck GitHub 仓库 PilotDeck README 与官方文档
夜雨聆风