清华开源了个新工具,让你一个人指挥一整支AI团队

点击下方卡片关注"东哥说AI"，持续分享AI编程实战经验和好玩AI项目。

用AI干活的人，大概都碰过这种事：同时让它处理两个项目，A项目的排版要求莫名其妙出现在B项目的文档里；Token花了一堆，账单拉出来看半天也不知道哪笔钱对应哪个任务；更头疼的是AI"记性"出了问题，你想纠正，却根本不知道它到底记了些什么。

问题出在哪？其实不怪模型。市面上大部分AI工具骨子里还是个聊天框，你发一句它回一句，走开它就停了。拿来聊天问答没问题，但真要拿它当生产力工具使，就会觉得差点意思。

最近，清华大学THUNLP实验室联合面壁智能、OpenBMB和AI9Stars开源了一个叫PilotDeck的项目（文末点击阅读原文获取项目地址）。他们想做的事情说大不大说小不小：给AI一个"工位"，让它正经干活。

每个项目一间"办公室"

PilotDeck里有个概念叫WorkSpace，中文叫"工作舱"。

你可以把它想象成给每个项目单独配了一间办公室，里面有独立的文件柜、记事本和工具箱。比如你同时在搞一份行业白皮书和一个小游戏，PilotDeck会给它们各开一间办公室，白皮书的AI只待在自己那间里，小游戏的AI也只管自己那边的事，互不打扰。

不只是文件和对话隔离。每个工作舱还有自己的进度记录和技能库，随着你用得越多，这个工作舱就越懂你这个项目。这种设计听上去挺基础的，但你回忆一下自己用过的AI工具，有几个真做到了项目级别的隔离？

AI说它"记住了"你的偏好，听着挺好。但它到底记了什么、记对没有，你完全摸不着头脑。等到哪天它把给产品说明书写的严谨措辞搬到了你的公众号推文里，你除了抓狂重开对话，没什么别的办法。

PilotDeck把记忆列表直接摆在你面前：什么时候记的、属于哪个项目，都列得清清楚楚。发现不对的直接改，不用从头来过。它还有个"Dream模式"，AI闲下来的时候会自己整理归纳记忆。怕它越理越乱？整理完可以一键回滚，所以也不用太担心。

改个标题和写份研报，需要的脑力完全不同。PilotDeck会自动判断任务难度，把简单的活分给轻量模型，复杂的才调用高端模型。有点像项目经理分配任务，不是什么事都让最贵的人去干。

效果怎么样？根据官方给出的数据，在社交媒体内容生成场景下，成本能省将近70%。复杂任务上的表现更有意思：用"强弱搭配"的方案，花了约1/6的钱，效果评分反而比全程用最贵模型还高一些。对于经常用AI干活的人来说，这个功能光是算账就很吸引人。

这个功能我个人觉得挺实用。你安排一个任务下去，然后去忙别的甚至下班走人，AI会自己在后台继续推进。它会主动发现还有哪些事没做完，自己推进、自己把成果存成文件。你回来看的时候，进展已经摆在那了。

这意味着你可以同时让好几个AI各干各的，不用守着一个对话框等回复。一个人管一支团队，这话虽然有点夸张，但方向确实是这个方向。

PilotDeck上已经跑通了不少场景。有人用它做带图表排版的行业白皮书，有人让它从零做一个能直接玩的小游戏，它甚至能同时跑两个完全不同类型的任务：一边做奶茶店模拟经营游戏，一边做AI公司融资数据的可视化大屏，两边各跑各的，最后都交了活。

有个案例挺有意思：有人让它做个网站，它写完代码后自己打开浏览器预览、截图检查，发现导航和主视觉区域文字重叠，自己去定位问题修了，然后继续检查、继续修。这套工作流走下来，已经很像一个初级前端工程师在干活了。

PilotDeck在GitHub上完全开源，macOS和Linux一行命令就能装好，也支持Docker部署。支持接入OpenAI、Anthropic、DeepSeek、通义千问、Kimi、MiniMax等主流大模型，原生支持MCP协议，社区里的技能插件可以直接安装使用。

如果你也想试试用AI真正帮你干活是什么体验，可以去试试看。项目地址和官网都放在评论区了。