三个AI「臭皮匠」,碾压一个「诸葛亮」

AI 前线 · 2026年6月14日

三个AI「臭皮匠」，碾压一个「诸葛亮」

你有没有这样的经历——面对一个棘手的问题，你问了 ChatGPT，又去问了 Claude，再问了 Gemini，把答案拼在一起，得到了一个远超任何单一个体的完整方案。

但如果这件事可以让 AI 自己来完成，而且效果远超想象呢？

01. 什么是 Fusion？多模型"专家圆桌会议"

简单说，Fusion 让你可以一次性调用多个 AI 模型，让它们各自回答问题，然后由一个"评判模型"把所有答案综合起来，输出一个最优结果。

用人话解释就是：你不再只问一个专家，而是同时召开一场"专家圆桌会议"，再请一位主持人把所有人的观点融会贯通。

在 Fusion 的架构中，你需要指定两样东西：

模型面板（Model Panel）：一组参与回答的模型，比如 Claude、GPT、Gemini、DeepSeek 等

听起来很直接？但实验结果让所有人都震惊了。

02. 数据说话Fusion 如何碾压最强单体模型

OpenRouter 在 DRACO 深度研究基准测试上对 Fusion 进行了严格评估。这个基准包含 100 个跨 10 个领域的深度研究任务，每个任务有大约 39 个加权评分标准。可以说，这是目前最接近"真实世界复杂研究"的测试之一。

来看结果，这张表格值得你仔细看一分钟：

排名	类型	模型配置	得分
🥇	Fusion	Fable 5 + GPT-5.5	69.0%
🥈	Fusion	Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro	68.3%
🥉	Fusion	Opus 4.8 + GPT-5.5	67.6%
4	Fusion	Opus 4.8 + Opus 4.8	65.5%
5	单独	Claude Fable 5（最强单体）	65.3%
6	Fusion	Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro	64.7%
7	单独	DeepSeek V4 Pro	60.3%
8	单独	GPT-5.5	60.0%
9	单独	Claude Opus 4.8	58.8%

三个关键发现，每一个都值得细品：

发现一：Fusion 始终优于单个模型。

排名前四全部是 Fusion。Fable 5 + GPT-5.5 融合方案69.0%，最强单体 Fable 5 单独65.3%——提高了 3.7 个百分点。在 Deep Research 这种高难度任务上，这是巨大跃升。

发现二：前沿面板超越前沿模型本身。

Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro 融合后得分 68.3%。1+1+1 > 3，这在 AI 领域并不常见。

发现三：预算型面板逼近前沿性能。

Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro，由 Opus 4.8 融合后得分64.7%，超过 DeepSeek V4 Pro 和 GPT-5.5 单打独斗，且成本只有前沿面板的一半。

💡 在 AI 的世界里，组合的智慧正在超越个体的力量。

03. Fusion 是怎么工作的？并行分发 → 独立响应 → 智能融合

技术原理其实不难理解。OpenRouter 是这样设计 Fusion 流程的：

并行分发

你的提示词被同时发送给模型面板中的所有模型。每个模型都启用网络搜索，独立进行研究。

独立响应

每个模型基于自己的训练数据和实时搜索结果，各自生成回答。这一步是并行的，总耗时取决于最慢的模型。

智能融合

评判模型登场。它不简单"取平均"或"投票"，而是更聪明地工作：

🔍 识别共识：所有模型同意的部分，可信度较高

⚡ 发现矛盾：模型存在分歧的地方，进一步分析

💎 提炼独特见解：某个模型的独家视角，可能最有价值

📝 整合输出：写出一篇结构清晰、逻辑自洽的综合答案

值得注意的是，评判模型本身也是模型——在 OpenRouter 的测试中，Claude Opus 4.8 作为评判模型表现尤为出色。

04. 最有趣的发现模型和自己"合体"也能涨分

在所有实验结果中，有一个数据最让我着迷：

Opus 4.8 × 2（由 Opus 4.8 融合）：65.5%

Opus 4.8 单独使用：58.8%

差距：6.7 个百分点。

两个一模一样的模型、一模一样的能力，仅仅因为让它们各自独立回答一次，再让第三个实例融合起来——就凭空多出了近 7 个百分点？

这意味着什么？Fusion 的价值不仅仅来自"不同模型取长补短"，更来自"合成步骤本身"。

💡 让同一个聪明人把同一个问题思考两遍——不，是让 AI 把 AI 的答案再"消化"一遍——就能得到更好的结果。

即使是同一个模型，在不同推理路径下可能产生略有差异的输出。评判模型可以从这些差异化输出中提取更优方案。多样性不仅是模型之间的多样性，也包括同一个模型不同推理路径的多样性。

05. 数据污染？已经想到了Fusion 的优势是真实的

你可能会问：Fusion 在 DRACO 基准上表现这么好，会不会是模型"记住"了测试数据？

所谓"数据污染"（Data Contamination），指模型在训练时可能已经见过测试数据，导致结果虚高。OpenRouter 的处理方式很直接——维护了排除列表，禁止模型在回答时访问 DRACO 评分标准页面。

当然，模型是否在训练数据中见过类似问题，这是行业性难题。但 DRACO 是一个相对较新的基准，数据污染风险较低。

06. 怎么用 Fusion？两种方式，秒上手

方式一：一键调用

import requests  response = requests.post(     "https://openrouter.ai/api/v1/chat/completions",     headers={"Authorization": "Bearer YOUR_API_KEY"},     json={         "model": "openrouter/fusion",         "messages": [{"role": "user", "content": "你的问题"}]     } )

方式二：自定义面板

response = requests.post(     "https://openrouter.ai/api/v1/chat/completions",     headers={"Authorization": "Bearer YOUR_API_KEY"},     json={         "model": "openrouter/fusion",         "models": [             "anthropic/claude-opus-4.8",             "openai/gpt-5.5",             "google/gemini-3.1-pro"         ],         "judge_model": "anthropic/claude-opus-4.8",         "messages": [{"role": "user", "content": "你的问题"}]     } )

自由组合模型面板，在性能和成本之间做平衡。日常用预算型面板，高难度任务切换到前沿面板。

07. Fusion 意味着什么AI 能力天花板在"用法"而非"模型"

Fusion 指向了一个更大的趋势：AI 的能力天花板，正在从"训练更好的模型"转向"更聪明地使用模型"。

过去一年，Fable 5、Opus 4.8、GPT-5.5、Gemini 3.1 Pro……每个都在刷新记录。但 Fusion 告诉我们：你不需要等到下一个更强的模型出现，在现有模型的基础上，通过巧妙的组合方式，就能获得超越当前最强模型的性能。

这有点像乐高积木。单个积木的能力有限，但组合起来能创造出远超单个积木之和的复杂结构。

写在最后

当每个模型都在追求成为"最强单体"时，Fusion 提醒我们一个朴素的道理：

三个臭皮匠，真的可以顶个诸葛亮。而且有数据为证。

下次遇到棘手的问题，别再纠结"用哪个模型最好"了。把一群模型叫来开个会，让它们吵一架，答案往往比任何一个单打独斗都精彩。

有时候，最好的答案不在一个脑子里，而在多个脑子的交汇处。

参考资料：OpenRouter 官方博客《Surpassing Frontier Performance with Fusion》，作者 Brian Thomas，2026年6月12日发布。DRACO 基准由 Perplexity AI 提出。

如果这篇文章对你有启发，欢迎转发分享。

我们下篇见。