从问答到交办,微软把多模型协作塞进了 Office

摘要

微软在 2026 年 3 月 30 日把 Copilot Cowork 与 Researcher 的多模型机制一并推向更广用户。真正值得关注的不是模型参数，而是办公软件开始把“提问、执行、复核”合成一条流程，白领的工作颗粒度和协作方式都会被迫重排。

正文

这两天我看微软这轮 Copilot 更新，最强烈的感受不是“模型又升级了”，而是另一件事：办公室软件终于开始认真接管工作流，而不只是接管聊天框了。

先看最直白的部分。微软 3 月 30 日更新的 Copilot Cowork 支持页写得很清楚，它能在 Microsoft 365 里代你执行任务，包括发邮件、排会议、生成文档、在 Teams 里发消息、管理 OneDrive 和 SharePoint 文件、做深度研究，甚至还能把一些固定动作设成周期性运行。换句话说，以前你要在 Outlook、Teams、Word、Excel、PowerPoint 之间来回切，现在微软想把这件事压缩成一句话的交办。

这不是小修小补。

如果你做过稍微复杂一点的知识工作，就知道真正耗时的从来不是“写一句提示词”，而是后面的碎活：整理上下文、拉资料、对齐会议、补材料、催进度、最后再检查有没有发错人。微软 3 月 9 日那篇官方博客里举的例子也很典型：整理一周日程、准备客户会议材料、生成 briefing、同步团队后续。说白了，Cowork 瞄准的不是你的灵感时刻，而是你每天最琐碎、最容易被打断、却又最占时间的那一层劳动。

这个流程里我更在意的是它的执行方式。微软的描述不是“我给你一个答案”，而是“我先把任务拆成计划，在后台持续推进，中间设置检查点，必要时来问你，要改什么、要不要暂停、哪些动作需要批准”。这就很不一样了。AI 从一个会说话的助手，变成了一个有待办列表、有中间状态、还能回头找你确认的流程执行器。

真正更关键的变化，发生在 Researcher。

微软同一天发布的技术博客提到，Researcher 新加了两套多模型能力：Critique 和 Council。Critique 的逻辑是把“生成”和“评审”拆开，一个模型负责规划、检索、起草，另一个模型负责审稿、挑错、补强结构。微软直接点名，这里会组合使用 Anthropic 和 OpenAI 的模型。另一套 Council 更像模型评审会：Anthropic 和 OpenAI 的模型各写一份完整报告，再由裁判模型总结它们在哪些地方一致、哪些地方分歧、各自漏掉了什么。

这背后其实藏着一个很现实的判断：一个模型已经不够了。

过去一段时间，大家追着问“哪个模型最强”。但到了企业办公场景，这个问题开始失真。用户真正需要的，不是某个模型在基准测试里多拿了几分，而是它能不能在公司权限、文件系统、沟通软件和审核流程里稳定干活。微软现在给出的答案很明确：与其赌一个万能模型，不如把不同模型编排成一条可复核的流程。

这点非常像现实公司的组织结构。一个人先写，一个人复核，必要时再拉一个人对照意见。以前这是团队协作逻辑；现在，微软把它产品化了。

冲击也就在这里。

很多白领岗位过去的价值，并不来自“最终决策”，而是来自中间那段把信息变成行动的手工劳动。比如：把分散的邮件变成老板能看的简报，把客户会前资料补齐，把会议纪要改成推进清单，把几份行业材料汇成一页判断。这些事情单看都不复杂，但它们构成了大量办公室工作的日常密度。现在 Cowork 和 Researcher 一起上，最先被压缩的恰恰就是这一层。

这也是为什么我觉得，这轮更新比很多“新模型发布”更值得警惕。模型换代带来的通常是能力边际提升；工作流产品化带来的，则是岗位边界被重新切分。以前一个能干的同事，价值在于他能把零散需求接住，再把事情推进到能交付。以后越来越多这类工作，会先被默认交给系统。人留下来的部分，更像是提要求、设边界、做批准、承担结果。

你会发现，焦虑感也因此变了。

过去大家担心的是“AI 会不会直接替代我”；现在更现实的问题是，“我负责的那部分流程，会不会先被 AI 抽走”。如果你的工作主要是搜集、归纳、转写、整理、同步、催办，那风险已经不是很远的未来，而是产品经理和 IT 部门一旦放开权限，你的很多动作就会被系统默认接管。不是因为 AI 突然有了人的判断力，而是因为这些动作本来就足够结构化，足够适合被交办。

当然，这件事还远没有到“全面成熟”的程度。微软自己也写得很谨慎：Cowork 目前主要在 Frontier 早期访问计划里，先从美国和英文环境开始；Researcher 里对 Claude 的支持也还要看管理员是否放开，以及组织是否完成分阶段接入。换句话说，它现在更像一个企业版预演，而不是彻底普及的终局。

但方向已经非常清楚了。

接下来 AI 办公产品的竞争，重点不会只是模型排行榜，而是谁能把四件事接起来：上下文权限、跨应用执行、结果复核、长期记忆。谁先把这四件事打通，谁就更像下一代办公系统的操作层。到那个阶段，用户买的不是“会聊天的 AI”，而是“能把组织里一部分工作稳定跑起来的 AI”。

这也是我对这轮微软更新最核心的判断：它不是在给 Copilot 加几个炫酷功能，而是在提前训练用户接受一种新的工作方式。以后你和 AI 的关系，不再主要是“我问你答”，而更像“我交办，你执行，我们一起复核”。

很多人还把这当成功能新闻看。我不太这么看。

这更像是办公室工作流的一次预告片，而且预告片已经够具体了。能发什么邮件，能改什么日程，能调哪些文件，谁来审，谁来批，微软都开始一条条写进产品说明里了。通常到了这一步，变化就不是概念，而是时间问题。