— 一粒黑子 · 落子AI新世界 —
腾讯10+年程序员 | AI工具实战派
【AI热点】你的Office被两个AI接管了:GPT写稿Claude审稿,微软默认开启「多模型协作」时代
昨天晚上刷到一条新闻,差点从椅子上弹起来——微软给365 Copilot做了个大更新,你的Word、PPT、Excel里的AI助手,现在不止一个"大脑"在工作了。GPT负责执笔写初稿,Claude负责逐条审查挑毛病,活脱脱一个AI编辑部。作为一个写了十来年代码的老程序员,我第一反应是:这不就是AI界的Code Review嘛!
🏢 一、微软搞了个什么事
3月31号,微软正式官宣了Microsoft 365 Copilot的重磅更新——在深度研究智能体(Researcher)里引入了多模型智能。简单说就是,你让Copilot帮你做调研写报告的时候,它不再只用一个AI了,而是GPT和Claude两个大模型联手干活。
这事为啥值得单独说?因为以前不管是微软还是谷歌,AI助手背后都是单模型单线程在跑。你用Copilot就是GPT,用Gemini就是谷歌自家的。这次微软相当于打破了"门户之见",直接把竞争对手Anthropic的Claude也拉进来了。
而且不是简单的"切换模型"——那个功能早就有了。这次是让两个模型在同一个任务里协同工作,各自发挥所长。这玩意,说实话,让我想到了以前在公司做Code Review的流程。
🔍 二、Critique模式——GPT写稿,Claude挑刺
第一个模式叫Critique(批判模式),也是现在默认就开着的。你可以理解成:
📝 上半场(GPT):接到你的任务 → 拆解需求 → 在全网检索资料 → 一轮轮迭代 → 写出初稿
🔎 下半场(Claude):拿到GPT的初稿 → 按结构化评价量表逐条审查 → 不是重写,而是"挑毛病"
Claude审查什么呢?三个核心维度:
📚
来源可靠性
引用是否权威、可验证
📋
报告完整性
是否覆盖用户全部意图
🔗
证据溯源
结论是否锚定精确引用
这套机制跟学术界搞了几百年的同行评审一个道理——写论文的人自己看不出问题,得另一个专家来审。AI也一样,单个模型容易产生"幻觉",两个互相盯着就靠谱得多。
📈 实测数据:搭载Critique模式的Researcher,在DRACO基准测试中,比Perplexity Deep Research高出13.8%。其中分析广度和深度提升最明显(+3.33),事实准确性也有显著提升(+2.58)。
⚖️ 三、Council模式——两个AI当你的智囊团
第二个模式叫Council(智囊团模式),这个更离谱。
你布置一个任务,GPT和Claude各自独立写一份完整报告,然后系统把两份报告并排放在一起,再用一个专门的评委模型来做综合评估。评估结果会告诉你:
✅ 共识点——两个AI都认同的结论,大概率靠谱
⚡ 分歧点——两个AI看法不同的地方,值得你深挖
💡 独特见解——某一方独有的观点,可能是盲区也可能是亮点
说实话,做过季度战略汇报的朋友应该懂——最怕的不是数据不全,而是视角单一。你一个人调研、一个人写,很容易陷入"信息茧房"。Council模式等于给你请了两个智力水平都是世界级的参谋,还是不同门派的,互相补充、互相制衡。
🚀 四、Copilot Cowork——AI能自己跟进项目了
除了研究能力,微软还发布了一个叫Copilot Cowork的功能。这玩意直接基于Anthropic的Claude Cowork技术平台构建——注意,不是简单调个API,是把Claude的Agent骨架直接嵌进了Microsoft 365体系。
它能干嘛?你描述一个目标,它自动制定计划,跨工具和文件进行推理,还能实时展示进度。相当于你有了一个不需要每天催的AI项目经理,而且你随时可以插手调整方向。
🤔 说句掏心窝子的话
微软这招其实特别精——它不押宝单个模型了。GPT强就用GPT生成,Claude强就叫Claude来审。不管底层模型谁胜出,流量和钱都从微软这个平台过。这战略眼光,不服不行。
💡 五、作为程序员,我怎么看这件事
在腾讯干了十来年,最深的体会就是——自己写的代码自己永远觉得没bug。所以才有了代码评审(Code Review)这个流程。AI也是一个道理,GPT写出来的报告里可能有事实性错误、引用不准确、逻辑跳步,但它自己检测不出来——因为它本身就是按这个逻辑生成的。
让另一个模型来审,就跟让同事review你的代码一样,效果立竿见影。微软官方数据说提升13.8%,体感上可能更明显,尤其是在长报告、多引用的场景下。
另一个值得关注的信号是:2026年的AI竞争已经不是"单打独斗"了,而是"组队打boss"。以后选AI工具不用再纠结"GPT还是Claude"——最优解可能是让它们协作。
⚠️ 同期还有这些大事:
📍 阿里发布Qwen3.5-Omni,全模态拿下215项SOTA,超越Gemini 3.1 Pro
📍 中国日均词元(Token)调用量突破140万亿,两年暴增超千倍
📍 小米MiMo-V2-Pro对标Claude Sonnet 4.6,已落地澎湃OS
📍 北航发布全球首个工业级代码大模型InCoder-32B
📌 六、给普通人的建议
如果你已经在用365 Copilot(Frontier计划优先体验):
📝 写研究报告 → 用Critique模式,GPT出稿+Claude审查,质量直接翻倍
📊 做决策分析 → 用Council模式,两个AI当参谋,暴露盲区
🚀 长线项目 → 用Copilot Cowork,AI帮你跟进进度
一句话总结:单模型时代结束了。2026年的AI,是"组队打boss"的年代。
💬 你的Office里用上Copilot了吗?
你更看好GPT+Claude的双模型协作,还是觉得单模型就够了?
评论区来聊聊,点赞最高的留言送一份我整理的《2026 AI工具选型指南》📖
觉得有用就点个 「在看」 和 「赞」,转发给需要的朋友 ❤️
夜雨聆风