清华团队开源“AI员工办公室”:聊天框,快装不下Agent了

我第一次看 PilotDeck 的 README，脑子里冒出来的不是“又一个 Agent 平台”。

AI 不再挤在聊天框里，而是开始分工位干活。

而是一间办公室。

每个 AI 都有自己的工位、文件柜、记忆抽屉和任务看板。

人不再坐在聊天框前，一句一句催它回答。

人更像推开门的主管：看看谁在写报告，谁在查资料，谁又把隔壁项目的记忆拿错了。

这才是这件事有意思的地方。

过去两年，我们把 AI 当聊天对象。

接下来，很多人可能会开始把 AI 当一个会长期干活的员工。

而员工不能只住在聊天框里。

它不是聊天框，是 WorkSpace

PilotDeck 是 OpenBMB/PilotDeck 这个开源项目。GitHub 页面显示，它的定位是 Task-oriented AI Agent productivity platform，也就是面向任务的 AI Agent 生产力平台。

项目 README 里写得更直接：它由清华大学 THUNLP、ModelBest、OpenBMB 和 AI9Stars 联合开发并开源，核心概念不是 Chat，而是 WorkSpace。

这句话翻成人话，就是：

每个项目都应该有自己的房间。

A 项目的文件、记忆、技能，不应该跑到 B 项目里串门。你让 AI 写公众号，它别突然拿电商客服的语气来写；你让它做代码项目，它也别把上一篇文章的风格记进去。

这正是很多人用 AI 的真实痛点。

不是 AI 不聪明。

是它太容易把上下文搅成一锅粥。

今天你让它写方案，明天让它改代码，后天让它做数据表。表面上都是“帮我完成任务”，实际每个任务的语气、资料、约束、验收标准都不一样。

聊天框的麻烦在于：它很像一张大桌子。

什么文件都往上堆。

堆到最后，你自己也不知道它到底记住了什么。

PilotDeck 想做的，是给每个任务开一个独立办公室。

文件放在这个办公室里，记忆也放在这个办公室里，能用的技能也跟着这个办公室长出来。

这听起来没有“十倍效率”那么刺激。

但真正长期用 AI 干活的人都知道，这比一句神奇提示词重要得多。

真正麻烦的是记忆

很多 Agent 产品都在讲记忆。

记忆不能再黑箱：它记错了，你得能打开抽屉改掉。

但记忆有个危险点：如果你看不见它，记错了反而更麻烦。

比如你上个月告诉 AI：“这个客户喜欢轻松一点的表达。”

结果它偷偷把这条记忆用到了另一个严肃报告里。

你只会看到输出变怪，却不知道根因在哪里。

PilotDeck 在 README 里把这个问题叫做 White-box Memory，白盒记忆。

它强调的不是“我能记住你”，而是“我记住了什么、什么时候记的、属于哪个 WorkSpace、能不能改、能不能删、能不能回滚”。

这就像员工不是在脑子里乱记小本本，而是把工作记录放进透明文件柜。

错了，你能打开抽屉看。

不该记的，你能删。

关键规则，你能钉住。

甚至 README 里还提到一个 Dream Mode，在空闲窗口整理记忆，并支持一键回滚到之前状态。

这个设计很重要。

因为 Agent 越像员工，记忆就越不能黑箱。

人类员工记错了，你可以当面问。

AI 记错了，如果系统不给你看，你只能重新开一个聊天窗口，假装一切没有发生。

这不是生产力。

这是失忆式返工。

还有一个很现实的问题：钱

Agent 真跑起来，最大的问题不只是会不会干活。

让贵模型只干难活，便宜模型处理杂活，Agent 才跑得起。

还有花多少钱。

一个聊天机器人，贵一点你还能忍。

一个会后台跑任务、会调用工具、会读文件、会写报告的 Agent，如果每一步都用最贵模型，账单很快就会变成惊吓。

PilotDeck 的第三个卖点是 Smart Routing。

简单说，就是不要让旗舰模型干所有脏活累活。

复杂规划、关键判断，交给更强的模型。

改格式、整理资料、轻量摘要，交给便宜模型。

这更像真实公司里分工：老板不应该亲自贴发票，实习生也不应该拍板战略。

README 里给了两个很有意思的数字。

一个是小红书风格的社媒运营任务：开启 Smart Routing 后，成本是 2.83 美元；关闭后，全部走更贵模型，成本是 12.58 美元。

另一个是 7 个复杂任务测试：Sonnet 4.6 + MiniMax-M2.7 的主从路由组合，得分 70.6，成本 3.15 美元；单独用 Claude Sonnet 4.6，得分 69.1，成本 18.36 美元。

这些数字当然要看测试条件，不能直接当成所有场景都省这么多。

但方向很清楚：

如果 Agent 要从“聊天玩具”变成“长期劳动力”，成本调度会变成基础设施。

不会省 token 的 Agent，就像不会控成本的团队。

刚开始看起来很能干。

月底一看账单，老板想把灯关了。

问题来了：人离开以后，它还能不能继续干？

这是 PilotDeck 最像“办公室”的地方。

人离开以后，Agent 还在整理文件、写报告、交付结果。

README 里还有一个能力叫 Always-on。

它不是让 AI 秒回一句话，而是让它在你离开键盘以后继续推进工作：发现候选任务，跑长期监控，最后把结果落成磁盘上的文件，再给你一份总结报告。

这个点很容易被低估。

因为普通人现在用 AI，默认动作还是：

我问。

它答。

我再问。

它再答。

这其实还是客服模式。

真正的工作不是这样。

你给一个人安排任务，不会每 30 秒问他一句“做到哪了”。你希望他能自己查资料、整理文件、遇到问题汇报、完成后把东西放在指定位置。

Agent 也一样。

如果它永远只能等你下一句提示词，它就不是员工。

它只是一个很会说话的输入框。

Always-on 的意义在这里：让 AI 从“即时回答”往“异步交付”走一步。

这一步不花哨，但很关键。

因为人的注意力才是最贵的成本。

普通人该怎么看这件事

这类项目表面上离普通用户有点远。

又是 WorkSpace，又是 MCP，又是模型路由，又是后台执行。

但它透露出来的趋势很简单：

以后用 AI，可能不会只比谁会写提示词。

而是比谁能搭一个小型工作系统。

比如一个做自媒体的人，不是开一个聊天框让 AI 写文章，而是开几个 WorkSpace：

一个专门做选题。

一个专门查事实。

一个专门存自己的口吻和历史文章。

一个专门做图片和排版。

它们互不污染，又能在需要时协作。

再比如一个小老板，不是让 AI 临时写几句客服话术，而是让它长期盯订单、整理欠款、生成跟进记录、把每天的异常汇总成文件。

这时候，AI 的价值就不只是“回答得聪明”。

而是“能不能被管理”。

能不能分房间。

能不能查记忆。

能不能控成本。

能不能在人不盯着的时候继续干活。

这也是为什么 PilotDeck 这种项目值得看。

它不一定马上变成普通人的日常工具。

但它把一个方向摆出来了：

AI 的主战场，正在从聊天框，搬进办公室。

别把它理解成万能员工

当然，别误会。

开源一个 Agent 工作区，不等于明天所有人都能躺着收成果。

这类系统真正跑起来，仍然会遇到很多麻烦：模型不稳定、任务拆不好、工具权限复杂、长期记忆可能出错、后台任务也可能越跑越偏。

所以最好的理解不是“AI 替你上班”。

而是：

你需要开始学习怎么给 AI 安排工作。

以前，高手和普通人的差距在于谁会提问。

接下来，差距可能在于谁会建工作区、写规则、设权限、查记忆、看成本、做验收。

聊天框不会消失。

但聊天框会越来越不够用。

因为一个真正能干活的 Agent，不只需要一句提示词。

它需要一个位置。

需要边界。

需要记忆。

需要预算。

也需要一个能随时把它叫停的人。

这就是 PilotDeck 这类项目最有意思的信号：

AI 员工时代最先到来的，可能不是员工。

而是办公室。

参考资料：

OpenBMB/PilotDeck GitHub 仓库
PilotDeck README 与官方文档