Arcee AI 花费一半风投资金,打造出在智能体任务上比肩 Claude Opus 的开放推理模型

Arcee AI 发布了 Trinity-Large-Thinking，一个旨在智能体任务上与 Claude Opus 竞争的开放推理模型。该公司为此项目花费了其总风投资金的大约一半。

大语言模型的开放权重领域目前主要由中国的实验室（如 Qwen、MiniMax 和智谱AI）主导。美国初创公司 Arcee AI 希望用 Trinity-Large-Thinking 改变这一局面。该模型采用 Apache 2.0 许可，拥有约 4000 亿参数，专为智能体任务构建。其混合专家架构使得每个 token 仅激活约 130 亿参数，从而即便模型规模庞大，推理效率依然很高。

据该公司称，团队在 2048 块 Nvidia B300 GPU 上训练了 33 天。约 2000 万美元的成本消耗了 Arcee AI 迄今筹集到的总风投资金的一半。CTO Lucas Atkins 在伴随发布的博客文章中写道：“在许多方面，这是中国以外有史以来发布的最强大的开放模型。”

智能体基准测试表现强劲，通用推理能力稍逊

Trinity-Large-Thinking 在每次回答前，会在特殊的“思考块”中生成显式的思考过程。该模型针对工具调用、多阶段规划和自主工作流进行了优化。

根据 Hugging Face 上的模型卡片，它在智能体基准测试中表现强劲：Tau2-Airline 得分为 88（第一名），PinchBench 得分为 91.9（第二名，仅略低于 Claude Opus 4.6 的 93.3），AIME25 得分为 96.3。不过，通用推理则是另一回事：GPQA-Diamond 得分为 76.3，MMLU-Pro 得分为 83.4，而 Claude Opus 4.6 在这两项上的得分分别为 89.2 和 89.1。

每个 token 仅激活 256 个专家中的 4 个

该模型采用了混合专家架构，拥有 256 个专门的子网络，但每个 token 仅激活其中 4 个。这意味着，在任何给定的计算步骤中，4000 亿参数中只有大约 130 亿参数在工作，从而在不降低模型整体能力的前提下节省了处理能力。根据技术报告，该基础模型的基准测试结果与 GLM 4.5 具有竞争力，尽管后者每个 token 激活的参数要多得多。

为了处理长文本，Trinity Large 结合了两种注意力层：仅覆盖文本一部分的局部层，和覆盖整个上下文的全局层。这种设置支持长上下文窗口，而不会导致计算成本成比例增加。在实践中，该模型实现了 512K token 的有效上下文窗口，尽管其训练时仅为 256K。在“大海捞针”测试（检查模型能否在长文本中定位特定信息）中，它在 512K 上下文下取得了 0.976 的得分。

自定义平衡方法防止训练期间出现“专家崩塌”

早期训练在个别专家崩塌时遇到了瓶颈。子网络间的 token 分布发生漂移，一些专家完全停止被使用，模型也停止了改进。根据技术报告，根本原因在于现有的专家间负载平衡方法。该方法每次都以相同的固定步长纠正不平衡，无论专家是轻微超载还是严重超载。对于 256 个专家来说，这造成了持续的振荡，无法进入稳定状态。

团队构建了 SMEBU（软钳位动量专家偏差更新）来解决这个问题。这是一种新方法，能根据实际偏差按比例缩放修正量，并随时间平滑修正。结合由于时间压力而同时引入的其他五项稳定措施，这个问题得到了解决。随后，整个训练过程保持稳定，没有出现一次训练损失的突然峰值。对于大型模型来说，这类峰值是一个常见且令人头疼的问题，在最坏的情况下可能毁掉整个训练。

超过 8 万亿 token 的合成训练数据

训练数据中有很大一部分是合成的：在 17 万亿 token 中，有超过 8 万亿是由其他 AI 模型生成的，而非从网络抓取。这包括 6.5 万亿 token 的重写网络文本、约 1 万亿 token 的多语言数据，以及大约 8000 亿 token 的代码。合作伙伴 DatologyAI 负责数据整理。根据技术报告，这属于有记录以来用于预训练的最大规模合成数据生成之一。

Prime Intellect 提供了 GPU 集群。由于 B300 系统在当时是全新的，GPU 错误不断出现，只能通过固件更新来修补。

团队还构建了一种名为 RSDB（随机顺序文档缓冲区）的新方法来处理训练数据。通常情况下，特别长的文档可能会连续主导多个训练步骤，从而扭曲数据分布。RSDB 则随机打乱文档顺序，技术报告称这显著减少了单个训练步骤之间的波动。

尽管后期训练有限，早期采用率仍然很高

预训练之后，该模型经历了一个专注于特定技能（如工具使用和多步骤任务）的二次微调阶段。不过，根据技术报告，由于 GPU 集群的计算时间有限，这一阶段的运行时间比计划要短。Arcee AI 称当前版本是初步的，并计划在下一个迭代中进行更广泛的微调。

此前发布的一个预览版在 OpenRouter 上运行，在最初的两个月里处理了 3.37 万亿 token。据 Arcee AI 称，它成为该平台上美国使用量最大的开放模型之一。Thinking 版本也已在 OpenRouter 上上线，并可与 OpenClaw 和 Hermes Agent 等智能体框架配合使用。

在 Arcee AI 发布前不久，Google 推出了 Gemma 4，这是一个同样采用 Apache 2.0 许可的新型开放模型系列，部分构建于混合专家架构之上。