刚刚日本 AI 公司发布 Fugu,凭什么和 Fable 坐一桌?

日本 AI 公司 Sakana AI 今天发布了 Fugu 和 Fugu Ultra。并把它们和 Fable 5 放在一起 PK，效果不相上下。

Sakana AI 需要先简单交代一下。可能大家少有耳闻。

它不是日本传统大厂的 AI 部门，而是一家 2023 年在东京成立的前沿 AI 研发公司。

Sakana 在日语里是“鱼”。它的 logo 不是装饰，而是这家公司技术路线的隐喻：单条鱼不强，鱼群会形成整体智能；单个模型未必万能，多模型协作可能才是下一层入口。

创始人里，Llion Jones 是 Transformer 论文《Attention Is All You Need》的共同作者；David Ha 以前在 Google Brain 带过日本研究团队；Ren Ito 则有日本外务省、Mercari 和 Stability AI 的经历。

这家公司有一条很鲜明的路线：不把“堆更大单模型”当唯一答案，而是从自然界的集合智能里找方法。鱼群、进化、模型合并、多智能体协作。

这次发布的 Fugu 更像 Sakana AI 过去两年研究路线的一次产品化：把“很多智能体如何协作”从论文和 demo，推到一个能收费、能接入企业工作流的 API 里。

这次 Fugu 发布官网最醒目的地方，是把它们放进了和 Fable 5、Mythos Preview 同一组 benchmark。

Fugu Ultra 在 TerminalBench 2.1 拿到 82.1，LiveCodeBench 93.2，GPQA-D 95.5，Humanity’s Last Exam 50.0，SWEBench Pro 73.7。

Sakana 把它和 Fable 5、Mythos Preview 放进同一组对比。效果也是相当不错。

但 Fugu 没有调用 Fable，也没有调用 Mythos。

Sakana 说得很清楚：这两个模型不是公开可访问模型，所以不在 Fugu 的 agent pool 里。

Fugu 绕到了另一个位置：不再拼一个新大脑，而是拼怎么组织一群强大脑。

过去两年，模型公司都在抢一个位置：最强单模型。

现在这个位置越来越拥挤。

同一个模型，写代码强，长文本可能一般；推理强，延迟可能高；

便宜模型适合日常对话，复杂 agent 任务又容易半路掉链子。企业真正要买的，也不是某个榜单上的第一名，而是一次任务能不能在成本、速度、合规和稳定性之间跑完。

这就是 Fugu 瞄准的方向。

用户调用的是一个 OpenAI-compatible API。请求进去以后，Fugu 在背后决定用哪些模型、怎么分工、谁来思考、谁来执行、谁来验证。

所以它的产品本质不是“模型”，而是“模型组织能力”。

云计算早期也发生过类似变化。

一开始，大家关心服务器配置、机房、网络、扩容方式。后来云厂商把这些复杂性封装成服务，用户只关心应用能不能稳定跑起来。

模型也在走到这一步。

调用一个模型只是开始。复杂任务里，更难的是把任务拆开、选模型、控制 token、处理失败、复核结果、记录成本，再把这一切藏在一个稳定接口后面。

普通 router 只是在模型之间分流。

Fugu 想做的更接近一个调度系统。

它背后的 TRINITY 和 Conductor 两篇 ICLR 2026 论文，讲的也不是“再训练一个更大模型”。TRINITY 让 coordinator 给多个模型分配 Thinker、Worker、Verifier 角色；Conductor 用强化学习学自然语言协调策略。

换句话说，Sakana 在训练的不是某一个员工，而是一个会派活的主管。

这会改变价值分配。

如果底层模型越来越多，模型本身会更像可替换零件。不是不值钱，而是客户关系、工作流入口和任务数据，会逐渐往调度层集中。

谁掌握调度层，谁就知道用户在做什么任务、哪些模型在什么场景更可靠、成本卡在哪里、失败通常发生在哪一步。

这比一次回答更有价值。

Sakana 在 FAQ 里还提到：新公开 frontier model 发布后，他们预计花大约两周训练和评估新版 Fugu，再逐步推出。

这说明 Fugu 的目标不是绑定某个模型，而是持续吸收新的强模型。

强模型越多，调度层越有用。

但调度层也有自己的风险。

Fugu 不公开具体用了哪些底层模型，也不公开怎么协调。Fugu Ultra 的模型池固定，普通 Fugu 可以按隐私、数据和合规要求排除某些模型或提供商。

用户得到的是更简单的入口，也交出了更多不可见的控制权。

过去，你至少知道自己在用 GPT、Claude 或 Gemini。

现在，你信的是一个黑盒调度器。

价格也把这种取舍摆在台面上。Fugu Ultra 的按量价格是每百万输入 token 5 美元、输出 30 美元；上下文超过 272K 后，输入和输出分别变成 10 美元、45 美元。多个 agent 同时工作时，Sakana 不逐个叠加模型费用，而是按参与池里最高 tier 的模型收一个价格。

它想解决的问题很明确：多模型系统强，但过去太难用、太难算账。

Fugu 把复杂性收走，再向用户收调度费。

接下来要看的不是 Fugu 有没有某一个 benchmark 第一，而是四个更实际的变量。

第一，复杂任务里的端到端延迟能不能接受。

第二，调度后的成功率是否稳定高过单模型。

第三，新的公开 frontier model 出现后，Sakana 能不能真的在两周左右完成接入和评估。

第四，企业是否愿意为更好的结果，接受一个不完全透明的模型入口。

大模型战争没有从“谁更强”结束。

它只是进入了下一层：当强模型越来越多，谁能把它们变成一个可用系统。

你会为 Fugu 买单吗？欢迎评论区留言交流。

资料参考：

Sakana AI，Fugu 官方页面：https://sakana.ai/fugu/

Sakana AI，TRINITY 论文：https://arxiv.org/abs/2512.04695

Sakana AI，Conductor 论文：https://arxiv.org/abs/2512.04388