


日本 AI 公司 Sakana AI 今天发布了 Fugu 和 Fugu Ultra。并把它们和 Fable 5 放在一起 PK,效果不相上下。

Sakana AI 需要先简单交代一下。可能大家少有耳闻。
它不是日本传统大厂的 AI 部门,而是一家 2023 年在东京成立的前沿 AI 研发公司。

Sakana 在日语里是“鱼”。它的 logo 不是装饰,而是这家公司技术路线的隐喻:单条鱼不强,鱼群会形成整体智能;单个模型未必万能,多模型协作可能才是下一层入口。
创始人里,Llion Jones 是 Transformer 论文《Attention Is All You Need》的共同作者;David Ha 以前在 Google Brain 带过日本研究团队;Ren Ito 则有日本外务省、Mercari 和 Stability AI 的经历。
这家公司有一条很鲜明的路线:不把“堆更大单模型”当唯一答案,而是从自然界的集合智能里找方法。鱼群、进化、模型合并、多智能体协作。
这次发布的 Fugu 更像 Sakana AI 过去两年研究路线的一次产品化:把“很多智能体如何协作”从论文和 demo,推到一个能收费、能接入企业工作流的 API 里。
这次 Fugu 发布官网最醒目的地方,是把它们放进了和 Fable 5、Mythos Preview 同一组 benchmark。

Fugu Ultra 在 TerminalBench 2.1 拿到 82.1,LiveCodeBench 93.2,GPQA-D 95.5,Humanity’s Last Exam 50.0,SWEBench Pro 73.7。
Sakana 把它和 Fable 5、Mythos Preview 放进同一组对比。效果也是相当不错。
但 Fugu 没有调用 Fable,也没有调用 Mythos。
Sakana 说得很清楚:这两个模型不是公开可访问模型,所以不在 Fugu 的 agent pool 里。
Fugu 绕到了另一个位置:不再拼一个新大脑,而是拼怎么组织一群强大脑。
过去两年,模型公司都在抢一个位置:最强单模型。
现在这个位置越来越拥挤。
同一个模型,写代码强,长文本可能一般;推理强,延迟可能高;
便宜模型适合日常对话,复杂 agent 任务又容易半路掉链子。企业真正要买的,也不是某个榜单上的第一名,而是一次任务能不能在成本、速度、合规和稳定性之间跑完。
这就是 Fugu 瞄准的方向。
用户调用的是一个 OpenAI-compatible API。请求进去以后,Fugu 在背后决定用哪些模型、怎么分工、谁来思考、谁来执行、谁来验证。
所以它的产品本质不是“模型”,而是“模型组织能力”。

云计算早期也发生过类似变化。
一开始,大家关心服务器配置、机房、网络、扩容方式。后来云厂商把这些复杂性封装成服务,用户只关心应用能不能稳定跑起来。
模型也在走到这一步。
调用一个模型只是开始。复杂任务里,更难的是把任务拆开、选模型、控制 token、处理失败、复核结果、记录成本,再把这一切藏在一个稳定接口后面。
普通 router 只是在模型之间分流。
Fugu 想做的更接近一个调度系统。
它背后的 TRINITY 和 Conductor 两篇 ICLR 2026 论文,讲的也不是“再训练一个更大模型”。TRINITY 让 coordinator 给多个模型分配 Thinker、Worker、Verifier 角色;Conductor 用强化学习学自然语言协调策略。
换句话说,Sakana 在训练的不是某一个员工,而是一个会派活的主管。

这会改变价值分配。
如果底层模型越来越多,模型本身会更像可替换零件。不是不值钱,而是客户关系、工作流入口和任务数据,会逐渐往调度层集中。
谁掌握调度层,谁就知道用户在做什么任务、哪些模型在什么场景更可靠、成本卡在哪里、失败通常发生在哪一步。
这比一次回答更有价值。
Sakana 在 FAQ 里还提到:新公开 frontier model 发布后,他们预计花大约两周训练和评估新版 Fugu,再逐步推出。
这说明 Fugu 的目标不是绑定某个模型,而是持续吸收新的强模型。
强模型越多,调度层越有用。

但调度层也有自己的风险。
Fugu 不公开具体用了哪些底层模型,也不公开怎么协调。Fugu Ultra 的模型池固定,普通 Fugu 可以按隐私、数据和合规要求排除某些模型或提供商。
用户得到的是更简单的入口,也交出了更多不可见的控制权。
过去,你至少知道自己在用 GPT、Claude 或 Gemini。
现在,你信的是一个黑盒调度器。
价格也把这种取舍摆在台面上。Fugu Ultra 的按量价格是每百万输入 token 5 美元、输出 30 美元;上下文超过 272K 后,输入和输出分别变成 10 美元、45 美元。多个 agent 同时工作时,Sakana 不逐个叠加模型费用,而是按参与池里最高 tier 的模型收一个价格。

它想解决的问题很明确:多模型系统强,但过去太难用、太难算账。
Fugu 把复杂性收走,再向用户收调度费。
接下来要看的不是 Fugu 有没有某一个 benchmark 第一,而是四个更实际的变量。
第一,复杂任务里的端到端延迟能不能接受。
第二,调度后的成功率是否稳定高过单模型。
第三,新的公开 frontier model 出现后,Sakana 能不能真的在两周左右完成接入和评估。
第四,企业是否愿意为更好的结果,接受一个不完全透明的模型入口。
大模型战争没有从“谁更强”结束。
它只是进入了下一层:当强模型越来越多,谁能把它们变成一个可用系统。
你会为 Fugu 买单吗?欢迎评论区留言交流。
资料参考:
Sakana AI,Fugu 官方页面:https://sakana.ai/fugu/
Sakana AI,TRINITY 论文:https://arxiv.org/abs/2512.04695
Sakana AI,Conductor 论文:https://arxiv.org/abs/2512.04388



夜雨聆风