点击下方卡片关注"东哥说AI",持续分享AI编程实战经验和好玩AI项目。
用AI干活的人,大概都碰过这种事:同时让它处理两个项目,A项目的排版要求莫名其妙出现在B项目的文档里;Token花了一堆,账单拉出来看半天也不知道哪笔钱对应哪个任务;更头疼的是AI"记性"出了问题,你想纠正,却根本不知道它到底记了些什么。
问题出在哪?其实不怪模型。市面上大部分AI工具骨子里还是个聊天框,你发一句它回一句,走开它就停了。拿来聊天问答没问题,但真要拿它当生产力工具使,就会觉得差点意思。
最近,清华大学THUNLP实验室联合面壁智能、OpenBMB和AI9Stars开源了一个叫PilotDeck的项目(文末点击阅读原文获取项目地址)。他们想做的事情说大不大说小不小:给AI一个"工位",让它正经干活。
每个项目一间"办公室"
PilotDeck里有个概念叫WorkSpace,中文叫"工作舱"。
你可以把它想象成给每个项目单独配了一间办公室,里面有独立的文件柜、记事本和工具箱。比如你同时在搞一份行业白皮书和一个小游戏,PilotDeck会给它们各开一间办公室,白皮书的AI只待在自己那间里,小游戏的AI也只管自己那边的事,互不打扰。
不只是文件和对话隔离。每个工作舱还有自己的进度记录和技能库,随着你用得越多,这个工作舱就越懂你这个项目。这种设计听上去挺基础的,但你回忆一下自己用过的AI工具,有几个真做到了项目级别的隔离?

几个值得一提的功能
记忆摊开来看
AI说它"记住了"你的偏好,听着挺好。但它到底记了什么、记对没有,你完全摸不着头脑。等到哪天它把给产品说明书写的严谨措辞搬到了你的公众号推文里,你除了抓狂重开对话,没什么别的办法。
PilotDeck把记忆列表直接摆在你面前:什么时候记的、属于哪个项目,都列得清清楚楚。发现不对的直接改,不用从头来过。它还有个"Dream模式",AI闲下来的时候会自己整理归纳记忆。怕它越理越乱?整理完可以一键回滚,所以也不用太担心。
小活用便宜的模型,大活才上贵的
改个标题和写份研报,需要的脑力完全不同。PilotDeck会自动判断任务难度,把简单的活分给轻量模型,复杂的才调用高端模型。有点像项目经理分配任务,不是什么事都让最贵的人去干。
效果怎么样?根据官方给出的数据,在社交媒体内容生成场景下,成本能省将近70%。复杂任务上的表现更有意思:用"强弱搭配"的方案,花了约1/6的钱,效果评分反而比全程用最贵模型还高一些。对于经常用AI干活的人来说,这个功能光是算账就很吸引人。

你走了它还在干
这个功能我个人觉得挺实用。你安排一个任务下去,然后去忙别的甚至下班走人,AI会自己在后台继续推进。它会主动发现还有哪些事没做完,自己推进、自己把成果存成文件。你回来看的时候,进展已经摆在那了。
这意味着你可以同时让好几个AI各干各的,不用守着一个对话框等回复。一个人管一支团队,这话虽然有点夸张,但方向确实是这个方向。
实际能干些什么
PilotDeck上已经跑通了不少场景。有人用它做带图表排版的行业白皮书,有人让它从零做一个能直接玩的小游戏,它甚至能同时跑两个完全不同类型的任务:一边做奶茶店模拟经营游戏,一边做AI公司融资数据的可视化大屏,两边各跑各的,最后都交了活。
有个案例挺有意思:有人让它做个网站,它写完代码后自己打开浏览器预览、截图检查,发现导航和主视觉区域文字重叠,自己去定位问题修了,然后继续检查、继续修。这套工作流走下来,已经很像一个初级前端工程师在干活了。

怎么上手
PilotDeck在GitHub上完全开源,macOS和Linux一行命令就能装好,也支持Docker部署。支持接入OpenAI、Anthropic、DeepSeek、通义千问、Kimi、MiniMax等主流大模型,原生支持MCP协议,社区里的技能插件可以直接安装使用。
如果你也想试试用AI真正帮你干活是什么体验,可以去试试看。项目地址和官网都放在评论区了。
夜雨聆风