AI 前线 · 2026年6月14日
三个AI「臭皮匠」,碾压一个「诸葛亮」
你有没有这样的经历——面对一个棘手的问题,你问了 ChatGPT,又去问了 Claude,再问了 Gemini,把答案拼在一起,得到了一个远超任何单一个体的完整方案。
但如果这件事可以让 AI 自己来完成,而且效果远超想象呢?

01. 什么是 Fusion?多模型"专家圆桌会议"
简单说,Fusion 让你可以一次性调用多个 AI 模型,让它们各自回答问题,然后由一个"评判模型"把所有答案综合起来,输出一个最优结果。
用人话解释就是:你不再只问一个专家,而是同时召开一场"专家圆桌会议",再请一位主持人把所有人的观点融会贯通。
在 Fusion 的架构中,你需要指定两样东西:
模型面板(Model Panel):一组参与回答的模型,比如 Claude、GPT、Gemini、DeepSeek 等
听起来很直接?但实验结果让所有人都震惊了。
02. 数据说话Fusion 如何碾压最强单体模型
OpenRouter 在 DRACO 深度研究基准测试 上对 Fusion 进行了严格评估。这个基准包含 100 个跨 10 个领域的深度研究任务,每个任务有大约 39 个加权评分标准。可以说,这是目前最接近"真实世界复杂研究"的测试之一。
来看结果,这张表格值得你仔细看一分钟:
三个关键发现,每一个都值得细品:
发现一:Fusion 始终优于单个模型。
排名前四全部是 Fusion。Fable 5 + GPT-5.5 融合方案69.0%,最强单体 Fable 5 单独65.3%——提高了 3.7 个百分点。在 Deep Research 这种高难度任务上,这是巨大跃升。
发现二:前沿面板超越前沿模型本身。
Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro 融合后得分 68.3%。1+1+1 > 3,这在 AI 领域并不常见。
发现三:预算型面板逼近前沿性能。
Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro,由 Opus 4.8 融合后得分64.7%,超过 DeepSeek V4 Pro 和 GPT-5.5 单打独斗,且成本只有前沿面板的一半。
💡 在 AI 的世界里,组合的智慧正在超越个体的力量。
03. Fusion 是怎么工作的?并行分发 → 独立响应 → 智能融合
技术原理其实不难理解。OpenRouter 是这样设计 Fusion 流程的:
并行分发
你的提示词被同时发送给模型面板中的所有模型。每个模型都启用网络搜索,独立进行研究。
独立响应
每个模型基于自己的训练数据和实时搜索结果,各自生成回答。这一步是并行的,总耗时取决于最慢的模型。
智能融合
评判模型登场。它不简单"取平均"或"投票",而是更聪明地工作:
🔍 识别共识:所有模型同意的部分,可信度较高
⚡ 发现矛盾:模型存在分歧的地方,进一步分析
💎 提炼独特见解:某个模型的独家视角,可能最有价值
📝 整合输出:写出一篇结构清晰、逻辑自洽的综合答案
值得注意的是,评判模型本身也是模型——在 OpenRouter 的测试中,Claude Opus 4.8 作为评判模型表现尤为出色。
04. 最有趣的发现模型和自己"合体"也能涨分
在所有实验结果中,有一个数据最让我着迷:
Opus 4.8 × 2(由 Opus 4.8 融合):65.5%
vs
Opus 4.8 单独使用:58.8%
差距:6.7 个百分点。
两个一模一样的模型、一模一样的能力,仅仅因为让它们各自独立回答一次,再让第三个实例融合起来——就凭空多出了近 7 个百分点?
这意味着什么?Fusion 的价值不仅仅来自"不同模型取长补短",更来自"合成步骤本身"。
💡 让同一个聪明人把同一个问题思考两遍——不,是让 AI 把 AI 的答案再"消化"一遍——就能得到更好的结果。
即使是同一个模型,在不同推理路径下可能产生略有差异的输出。评判模型可以从这些差异化输出中提取更优方案。多样性不仅是模型之间的多样性,也包括同一个模型不同推理路径的多样性。
05. 数据污染?已经想到了Fusion 的优势是真实的
你可能会问:Fusion 在 DRACO 基准上表现这么好,会不会是模型"记住"了测试数据?
所谓"数据污染"(Data Contamination),指模型在训练时可能已经见过测试数据,导致结果虚高。OpenRouter 的处理方式很直接——维护了排除列表,禁止模型在回答时访问 DRACO 评分标准页面。
当然,模型是否在训练数据中见过类似问题,这是行业性难题。但 DRACO 是一个相对较新的基准,数据污染风险较低。
06. 怎么用 Fusion?两种方式,秒上手
方式一:一键调用
import requests response = requests.post( "https://openrouter.ai/api/v1/chat/completions", headers={"Authorization": "Bearer YOUR_API_KEY"}, json={ "model": "openrouter/fusion", "messages": [{"role": "user", "content": "你的问题"}] } )方式二:自定义面板
response = requests.post( "https://openrouter.ai/api/v1/chat/completions", headers={"Authorization": "Bearer YOUR_API_KEY"}, json={ "model": "openrouter/fusion", "models": [ "anthropic/claude-opus-4.8", "openai/gpt-5.5", "google/gemini-3.1-pro" ], "judge_model": "anthropic/claude-opus-4.8", "messages": [{"role": "user", "content": "你的问题"}] } )自由组合模型面板,在性能和成本之间做平衡。日常用预算型面板,高难度任务切换到前沿面板。
07. Fusion 意味着什么AI 能力天花板在"用法"而非"模型"
Fusion 指向了一个更大的趋势:AI 的能力天花板,正在从"训练更好的模型"转向"更聪明地使用模型"。
过去一年,Fable 5、Opus 4.8、GPT-5.5、Gemini 3.1 Pro……每个都在刷新记录。但 Fusion 告诉我们:你不需要等到下一个更强的模型出现,在现有模型的基础上,通过巧妙的组合方式,就能获得超越当前最强模型的性能。
这有点像乐高积木。单个积木的能力有限,但组合起来能创造出远超单个积木之和的复杂结构。
写在最后
当每个模型都在追求成为"最强单体"时,Fusion 提醒我们一个朴素的道理:
三个臭皮匠,真的可以顶个诸葛亮。而且有数据为证。
下次遇到棘手的问题,别再纠结"用哪个模型最好"了。把一群模型叫来开个会,让它们吵一架,答案往往比任何一个单打独斗都精彩。
有时候,最好的答案不在一个脑子里,而在多个脑子的交汇处。
参考资料:OpenRouter 官方博客《Surpassing Frontier Performance with Fusion》,作者 Brian Thomas,2026年6月12日发布。DRACO 基准由 Perplexity AI 提出。
如果这篇文章对你有启发,欢迎转发分享。
我们下篇见。
夜雨聆风