这周在刷arXiv的时候,微软研究院Jianfeng Gao团队的一篇论文直接把我看精神了。标题平平无奇——《Synthetic Computers at Scale for Long-Horizon Productivity Simulation》——但内容讲的是他们一口气造了1000台合成计算机,让Agent在上面跑了8个多小时、2000多轮任务。简单说,就是给Agent搭了一个完全虚拟的"真实世界办公室",让它在里面像真人一样干活、犯错、长记性。
说实话,这个想法之前 MIT 发布简单的 AI 小镇时候我就希望有人能做了,但真看到有人把它做到这种规模,还是有点震撼。论文是4月30号才丢到arXiv上的(preview版本),现在解读的人还不多,今天就跟大家聊聊这套东西到底怎么回事,以及我为什么觉得它可能改变Agent研究的玩法。
Agent练不出生产力,根子在"环境"太假
虽然对 AI 的评测已经发展好几年了, 评测体系也有很多种, 但现在的Agent评测,大多数仍然像是"给大学生做小学题"。你扔给它一个干净的任务描述、一张截图,它点几下就算"完成任务"了。但真实的工作场景是什么?你的桌面乱糟糟的,文件夹层级是你三年攒下来的,项目文档里藏着只有你自己懂的缩写,协作者昨天刚在Slack上改了需求——这些上下文才是生产力的土壤。
问题是,这种环境根本没法大规模收集。让100个人把真实电脑交出来做训练数据?隐私、成本、标注难度,全都是坎。所以微软这帮人换了个思路:既然真实环境拿不到,那就从人设(persona)出发,造一套出来。
论文里说得很直白:"Current benchmarks lack realistic user-specific computer environments." 说白了就是——现在的评测环境太干净了,跟真实办公根本不是一回事。
这套系统怎么运转?像搭积木一样搭出一台"有故事的电脑"
整个流程分成四步,有意思的是它从人到文件系统的推导逻辑:
1. 扩展人设:先定义一个persona,比如"某中型科技公司的产品经理,工作3年,喜欢把竞品分析存在Dropbox里"。 2. 生成用户画像:基于人设进一步细化——ta平时用什么软件、跟哪些人协作、项目周期多长。 3. 规划文件系统:根据画像设计文件夹层级、项目结构。论文里说平均每台电脑有约112个文件、30个目录。 4. 填充真实内容:不只是空文件夹,里面是真的有DOCX、XLSX、PPTX,而且内容跟人设一致。比如那个产品经理的文件夹里可能真有竞品分析表格和会议纪要的草稿。
造完环境之后,好戏才开场。系统用了一个双Agent架构:
• Setup Agent:根据用户画像和电脑内容,给"用户"设计一个个性化的生产力目标。这个目标通常需要"约一个月的人类工作量"才能完成。 • Work Agent:扮演这个用户,开始干活。它要浏览文件系统、跟模拟出来的协作者沟通、写文档、改表格,一步步把目标搞定。
最终的结果是:1,000台合成电脑,每台跑平均8.59小时(Agent运行时间),跨越2,272个turns,中间还要跟平均5.5个模拟协作者来回沟通31次。这个颗粒度,跟现有的Agent评测完全不在一个量级上。
效果怎么样?7个百分点的提升,但更要命的是跨任务转移
论文里的数字我得给大家理一理,有些还是preliminary的(论文自己标的),先别当结论看。
在域内测试(100台没见过的合成电脑)上,用另外900台电脑里提取出来的"经验技能"(occupation-specific skills)去增强Agent,表现从61.6%提升到68.6%,涨了7个百分点。而且83%的测试电脑上,技能增强版的Agent都比原版强。
更有意思的是域外评估。他们在GDPVal benchmark上测了——这是个真实世界的生产力任务集,220个任务,平均每个才31 turns、17分钟,跟论文里2000+ turns的模拟完全不是一个量级。结果技能增强版Agent在Claude Sonnet设置下赢了105个、输了67个,p值0.002,统计上显著。这个信号说明:在合成环境里学到的东西,真能搬到外面去用。
另外还有个扩展性曲线:用10台电脑提取技能,胜率64%;加到50台涨到75%;900台涨到83%。说白了就是——数据量越大,挖出来的经验越靠谱。
两种声音的碰撞:学术界造世界 vs 创业者造工具
这套东西出来,各方的反应其实挺有意思的。我做了个简单的对比:
两种路线没有谁对谁错。论文在做的是证明这条路走得通、能规模化;创业者在想的是怎么把这套逻辑产品化、卖给企业。有个HN评论我觉得很到位:"I think agents of all types are going to follow a similar path to self-driving cars: first 80% comes in a big boom, and the last 20% comes over a decade of training and simulations."(各种Agent可能都会走自动驾驶的老路:前80%一蹴而就,后20%要磨十年训练和模拟。)
当然,论文的数据虽然很漂亮,但有几个地方我觉得得打个问号,不能全盘照收:
1. 这是preview版本。论文自己写了"work in progress",实验结果是preliminary的,后续完整版可能有变动。特别是"扩展到数十亿用户世界"这种话,目前只是理论推演,没验证。 2. 域内外差距太大。GDPVal任务平均31 turns,论文模拟是2272 turns,这个鸿沟怎么弥合,论文没有深入讨论。短任务能transfer,超长任务呢?不确定。 3. 模型单一。实验主要用Claude Sonnet/Opus跑的,没测GPT-5.5或者其他模型,结果的普适性存疑。 4. 开源只是样本。HuggingFace上放了100台电脑,完整1000台会不会放、什么时候放,不知道。
读完论文,我的感受是——Agent研究终于有一个像样的"训练场"了。
之前我们训练Agent,就像在操场上教开车:场地平坦、没有行人、红绿灯是固定的。但真实世界是什么?是晚高峰的国贸桥,是下雨天看不清线的乡道,是突然冲出来的外卖电动车。微软这套合成计算机,说白了就是把训练场从操场搬进了一个可控的、但足够复杂的城市模型里。
我觉得这件事的价值至少有三层:
第一层是数据。以前合成数据大多是文本对文本,现在是"环境+任务+交互+反馈"四位一体,丰富度完全不在一个级别。
第二层是学习方法。论文里提出的"经验项提取"和"职业特定技能",其实是在摸索Agent怎么像人一样"长记性"。人类工作三年,靠的不是背了多少操作手册,而是攒了一大堆"上次这么做搞砸了"的隐性知识。这套系统在尝试让Agent也能攒这种知识。
第三层是研究范式。如果这条路走通了,未来Agent研究可能不再是"在干净benchmark上刷分",而是"在模拟世界里泡够时间、攒够经验、再出来接客"。这个转变,可能会像AlphaGo从监督学习转向自我对弈一样关键。
当然,论文只是开了个头。1000台电脑、8小时模拟,听着很大,但跟真实世界比还是九牛一毛。而且计算成本是个实打实的坎——按论文的规模,跑一次全流程的费用我估计不低。但方向我觉得是对的:Agent要真正能干长程的复杂工作,必须让它在一个足够真实的环境里,犯足够多的错、攒足够多的经验。
现在HuggingFace上已经有100台合成电脑可以下载玩了,MIT License。如果你在做Agent相关的研究或者产品,我建议去摸摸看——哪怕只是翻翻那500份回顾报告,也能感受到这套东西的分量。
参考arXiv论文 arXiv:2604.28181(2026-04-30提交,preview版本)。注意部分实验数据标注为preliminary,最终结论以论文正式版为准。
夜雨聆风