微软“叛逃”OpenAI?
AI模型也需要“同行评审”了。
微软正推动Copilot整合OpenAI GPT和Anthropic Claude,实现AI模型协同工作。GPT负责生成,Claude负责审核,旨在通过多模型协作解决AI幻觉。此举标志着AI竞争从单一模型转向系统博弈。
核心观点
●微软推出Critique和Council功能,让GPT和Claude互审、互辩
●DRACO基准测试显示,多模型协作的研究质量显著优于单一模型
●微软的AI战略从依赖OpenAI转向多元化,投资Anthropic并引入其模型
微软CopilotGPT起草Claude审校
微软Copilot多模型协作功能
微软为Microsoft 365 Copilot研究助理推出“Critique”功能,该功能采用“生成-审核”协同架构,允许OpenAI的GPT模型负责研究并生成回复内容,同时Anthropic的Claude模型并行审核输出结果的准确性和质量。
Claude的审查重点包括稿件的准确性、完整性和引证质量。微软透露,未来该功能将支持双向协作,即由Claude先生成、GPT后审核,实现真正意义上的对称协作。
微软365和Copilot企业副总裁Nicole Herskowitz表示,这种多模型方法有助于限制AI幻觉并提高生产力。Critique通过将GPT的创造力与Claude的严谨性结合,旨在提升研究结果的准确性、深度与可信度。
微软推出的“Council”功能采用并行对比架构。GPT与Claude针对同一课题独立展开研究并生成各自报告后,由一个独立的“裁判模型”对两份产出进行评估,提炼出共识点和分歧点,并总结每个模型的独特贡献。
Council机制本质上是在搭建一个“模型间辩论场”,旨在为用户提供多角度的视角,帮助投资人和企业管理者捕捉单一视角可能遗漏的关键信号。
微软推出了基于Anthropic Claude模型的Copilot Cowork智能体,支持多步骤工作流自主执行。Copilot Cowork是一个代理式AI工具,旨在处理Microsoft 365中的多步骤任务,能够帮助用户思考任务、分解目标,并像同事一样在文档和工作流中协作。
Copilot Cowork能够根据用户描述的期望结果创建计划并完成任务,同时显示进度,用户可以随时介入并调整方向。该工具可处理从一次性请求到每月预算审查等重复性工作流。
多模型协作的性能优势
微软援引业界衡量深度研究质量的DRACO基准测试结果,Critique系统在研究结果的广度、深度及表达质量等核心维度上,表现均优于市场上同类单一架构产品。Critique在DRACO基准测试中得分57.4分,领先第二名近14%,远超Claude Opus 4.6单独运行的42.7分。
微软首席执行官萨蒂亚·纳德拉在社交媒体上宣称,Critique能提供“顶尖的深度研究质量”,并称其表现优于OpenAI、谷歌及Perplexity的同类产品。
截至发稿,微软尚未公开DRACO基准测试的完整量化数据。尽管如此,纳德拉的公开背书以及微软在基准测试中对标竞争对手的做法,传递出这是一次经过充分测试的产品化发布信号。
多模型协作的优势
微软365和Copilot企业副总裁Nicole Herskowitz表示,多模型方法有助于限制AI幻觉,提高生产力。多模型协作的产出质量明显优于单一模型,能够有效限制AI幻觉,大幅提升生产力的可靠性。
微软AI战略的演变
2025年10月28日,OpenAI完成企业重组,转型为公共利益公司。根据新协议,微软持有OpenAI营利业务板块约27%的股份,并保留对其模型和产品的技术访问权至2032年。
2025年初,微软与OpenAI调整合作关系,OpenAI获准访问竞争对手的计算资源,打破了此前仅依赖微软Azure的算力独家供应格局。
微软与Anthropic建立战略合作
2025年11月18日,微软与英伟达、Anthropic宣布建立新的战略合作伙伴关系。微软承诺向Anthropic投资最多50亿美元,Anthropic则承诺从微软购买价值300亿美元的Azure算力,Claude模型正式登陆微软Azure平台。
据报道,2025年12月,微软CEO纳德拉在内部沟通中直言Copilot与Gmail、Outlook等工具的集成“大多不奏效”且“不够智能”,并亲自介入督促产品团队整改。这一内部危机意识为后续多模型战略埋下了伏笔。
Copilot Cowork侧重于Claude独立执行复杂工作流,而Critique让GPT与Claude在同一研究任务中形成“生成+审核”的互补组合。两者的定位并非替代关系,而是微软多模型生态中覆盖不同场景的两条平行路径。
GPT擅长创意生成和广度覆盖,Claude以严谨的逻辑推演和审慎的事实核查见长。将两者组合为“生成+审核”的协同架构,本质上是在对齐学术界“同行评审”的经典范式。
AI产业竞争逻辑的位移
从单一模型比拼到多模型编排
过去两年的AI竞争核心是“谁的模型参数更大、benchmarks分更高”。微软通过Critique传递的信号是,未来竞争的关键在于能否将不同模型的优势组合成高效协同系统,模型编排能力正成为新的核心壁垒。
从供应商锁定到模型超市
Critique通过Copilot平台的模型调度能力,实现了跨厂商模型的协同调用。这意味着企业用户不必再纠结选择哪个模型,系统可以同时调动不同供应商的模型优势组合完成任务,推动AI市场从“模型专卖店”向“模型超市”演进。
AI幻觉治理进入结构性解法阶段
此前应对AI幻觉主要依赖模型自身的RLHF对齐和提示工程优化。Critique引入的“独立模型审核”机制,是一种架构层面的结构性解法,通过Claude的审慎制衡GPT的“过度自信”,以跨模型对立实现自我纠错,比单一模型“既当运动员又当裁判员”更可靠。
AI评判标准从“跑分”转向“实战”
AI竞争已从单纯的模型参数竞赛转向复杂的系统集成与逻辑验证新阶段。对于整个行业而言,这个趋势意味着评判一个AI产品强弱的标尺,正在从“跑分”转向“实战”。
多模型协作的应用场景与启示
在学术研究领域,通过GPT快速生成文献综述初稿,再由Claude按照学术标准进行准确性和引证质量审查,可有效降低研究过程中AI辅助环节的幻觉风险。
在合同审查、法律文书起草等对准确性要求极高的场景中,“生成-审查”双保险机制能显著提升产出的可靠性。
Council的并行对比机制天然适用于需要多维度交叉验证的复杂决策场景,帮助投资人和企业管理者捕捉单一视角可能遗漏的关键信号。
当前国内大模型赛道竞争激烈,但多数玩家仍困在“单模型比参数”的竞争框架中。
微软的实践表明,多模型协作编排可能是一个被低估的方向。在国内已有多个差异化能力模型(如DeepSeek在推理能力上的突出表现、文心一言在中文理解上的积累等)的背景下,构建高效的多模型调度与协作平台,或许比执着于训练一个“全能冠军模型”更具商业可行性。
微软Copilot功能发布与市场反馈
发布时间与测试阶段
微软于当地时间3月30日宣布推出“多模协作”深度研究功能。Critique与Council功能已率先集成至Microsoft 365 Copilot的研究助理工具包中,进入早期测试阶段,首批访问权限仅限于加入微软“Frontier计划”的企业客户。
市场表现与股价
截至发稿,微软股价上涨近2%,但从去年10月高点到上周五,微软股价已累计回撤超过30%,是“七巨头”中表现最差的一家。AI功能的持续集成被视为支撑基本面的关键。
参考链接
Microsoft Brings New AI Capabilities to Copilot Researcher
https://aibusiness.com/generative-ai/microsoft-brings-new-ai-capabilities-copilot-researcher
微软推出“多模协作”深度研究智能体 GPT与Claude并肩干活 提供者 财联社
https://cn.investing.com/news/stock-market-news/article-3288847
微软发布人工智能升级:向早期用户推出Copilot Cowork服务
https://view.inews.qq.com/a/20260331A01HDE00
微软公司推出“多模协作”深度研究智能体 黑海洋Wiki AI机器人硬件开发 网络安全攻防实战 区块链技术文档教程
https://blog.upx8.com/%E5%BE%AE%E8%BD%AF%E5%85%AC%E5%8F%B8%E6%8E%A8%E5%87%BA-%E5%A4%9A%E6%A8%A1%E5%8D%8F%E4%BD%9C-%E6%B7%B1%E5%BA%A6%E7%A0%94%E7%A9%B6%E6%99%BA%E8%83%BD%E4%BD%93
Microsoft 365 Copilot's new agent uses Claude to fact
https://www.xda-developers.com/microsoft-365-copilots-new-agent-uses-claude-to-fact-check-gpts-work/
微软推出“多模协作”深度研究智能体 GPT与Claude并肩干活
https://www.cls.cn/detail/2329708
Microsoft、「Copilot Cowork」をFrontierで提供開始 「GPT」と「Claude」を組み合わせる機能も(ITmedia NEWS)
https://news.yahoo.co.jp/articles/f2dcb56c3ef10f37d4efd478bb869fbff27a2a18?source=rss
微软推出“多模协作”深度研究智能体 GPT与Claude并肩干活
https://www.cls.cn/detail/2329708
GPT drafts, Claude critiques: Microsoft blends rival AI models in new Copilot upgrade – GeekWire
https://www.geekwire.com/2026/gpt-drafts-claude-critiques-microsoft-blends-rival-ai-models-in-new-copilot-upgrade/
https://mp.weixin.qq.com/s/lhmB7mEWiYs1dBcUXvI7Pw
Microsoft rolls out Copilot Cowork more broadly and lets AI models check each other's work
https://the-decoder.com/microsoft-rolls-out-copilot-cowork-more-broadly-and-lets-ai-models-check-each-others-work/
Microsoft's research assistant can now use multiple AI models simultaneously
https://www.engadget.com/ai/microsofts-research-assistant-can-now-use-multiple-ai-models-simultaneously-154558628.html?src=rss
http://mp.weixin.qq.com/s?__biz=MzkxNzY0Mzg2OQ==&mid=2247488908&idx=1&sn=509baee52c600811b2bd1a3ec041b2fc
微软让 GPT 与 Claude 协同工作,性能超越所有竞品
https://www.chaincatcher.com/article/2255682
'When intelligence and trust move together, AI stops being an experiment and starts becoming how work gets done': Microsoft and OpenAI are making AI research tools smarter to help answer even your trickiest questions
https://www.techradar.com/pro/when-intelligence-and-trust-move-together-ai-stops-being-an-experiment-and-starts-becoming-how-work-gets-done-microsoft-and-openai-are-making-ai-research-tools-smarter-to-help-answer-even-your-trickiest-questions
Microsoft's Copilot makes Anthropic's Claude and OpenAI's GPT team up
https://thenewstack.io/microsofts-copilot-llm-team/
Microsoft’s Copilot Cowork arrives with smarter AI research tools to spot gaps in your work
https://www.digitaltrends.com/computing/microsofts-copilot-cowork-arrives-with-smarter-ai-research-tools-to-spot-gaps-in-your-work/
模型界“强强联手”!微软发布深度研究智能体:GPT 负责草拟,Claude 负责审稿
https://www.aibase.com/zh/news/26670
http://mp.weixin.qq.com/s?__biz=MzIwMjAwMjk4Mg==&mid=2650934055&idx=1&sn=0be3653f6f1e09e6d93e427f9970803f&scene=4#wechat_redirect
Microsoft's Copilot makes Anthropic's Claude and OpenAI's GPT team up
https://thenewstack.io/microsofts-copilot-llm-team/
http://mp.weixin.qq.com/s?__biz=Mzg4MjYyMzUyNw==&mid=2247515253&idx=1&sn=3b7c9b523b4167897761b1858bc911be&scene=4#wechat_redirect
'When intelligence and trust move together, AI stops being an experiment and starts becoming how work gets done': Microsoft and OpenAI are making AI research tools smarter to help answer even your trickiest questions
https://www.techradar.com/pro/when-intelligence-and-trust-move-together-ai-stops-being-an-experiment-and-starts-becoming-how-work-gets-done-microsoft-and-openai-are-making-ai-research-tools-smarter-to-help-answer-even-your-trickiest-questions
微软"叛逃"OpenAI:让GPT和Claude互审,AI幻觉的结构性解法?
https://www.tmtpost.com/7936078.html
微软推出“多模协作”深度研究智能体 GPT与Claude并肩干活
https://www.163.com/dy/article/KPADKMQ605198CJN.html
Techmeme: Microsoft rolls out Copilot Cowork to its Frontier program for early-stage testing, including a new Researcher Critique tool using Anthropic and OpenAI models (Jared Spataro/Microsoft 365 Blog)
http://www.techmeme.com/260330/p22#a260330p22
微软"叛逃"OpenAI:让GPT和Claude互审,AI幻觉的结构性解法?
https://www.tmtpost.com/7936078.html
Techmeme: Microsoft rolls out Copilot Cowork to its Frontier program for early-stage testing, including a new Researcher Critique tool using Anthropic and OpenAI models (Jared Spataro/Microsoft 365 Blog)
http://www.techmeme.com/260330/p22#a260330p22
微软"叛逃"OpenAI:让GPT和Claude互审,AI幻觉的结构性解法?
https://www.tmtpost.com/7936078.html
微软"叛逃"OpenAI:让GPT和Claude互审,AI幻觉的结构性解法?
https://www.tmtpost.com/7936078.html