
Arcee AI 发布了 Trinity-Large-Thinking,一个旨在智能体任务上与 Claude Opus 竞争的开放推理模型。该公司为此项目花费了其总风投资金的大约一半。
大语言模型的开放权重领域目前主要由中国的实验室(如 Qwen、MiniMax 和智谱AI)主导。美国初创公司 Arcee AI 希望用 Trinity-Large-Thinking 改变这一局面。该模型采用 Apache 2.0 许可,拥有约 4000 亿参数,专为智能体任务构建。其混合专家架构使得每个 token 仅激活约 130 亿参数,从而即便模型规模庞大,推理效率依然很高。
据该公司称,团队在 2048 块 Nvidia B300 GPU 上训练了 33 天。约 2000 万美元的成本消耗了 Arcee AI 迄今筹集到的总风投资金的一半。CTO Lucas Atkins 在伴随发布的博客文章中写道:“在许多方面,这是中国以外有史以来发布的最强大的开放模型。”
智能体基准测试表现强劲,通用推理能力稍逊
Trinity-Large-Thinking 在每次回答前,会在特殊的“思考块”中生成显式的思考过程。该模型针对工具调用、多阶段规划和自主工作流进行了优化。
根据 Hugging Face 上的模型卡片,它在智能体基准测试中表现强劲:Tau2-Airline 得分为 88(第一名),PinchBench 得分为 91.9(第二名,仅略低于 Claude Opus 4.6 的 93.3),AIME25 得分为 96.3。不过,通用推理则是另一回事:GPQA-Diamond 得分为 76.3,MMLU-Pro 得分为 83.4,而 Claude Opus 4.6 在这两项上的得分分别为 89.2 和 89.1。
每个 token 仅激活 256 个专家中的 4 个
该模型采用了混合专家架构,拥有 256 个专门的子网络,但每个 token 仅激活其中 4 个。这意味着,在任何给定的计算步骤中,4000 亿参数中只有大约 130 亿参数在工作,从而在不降低模型整体能力的前提下节省了处理能力。根据技术报告,该基础模型的基准测试结果与 GLM 4.5 具有竞争力,尽管后者每个 token 激活的参数要多得多。
为了处理长文本,Trinity Large 结合了两种注意力层:仅覆盖文本一部分的局部层,和覆盖整个上下文的全局层。这种设置支持长上下文窗口,而不会导致计算成本成比例增加。在实践中,该模型实现了 512K token 的有效上下文窗口,尽管其训练时仅为 256K。在“大海捞针”测试(检查模型能否在长文本中定位特定信息)中,它在 512K 上下文下取得了 0.976 的得分。
自定义平衡方法防止训练期间出现“专家崩塌”
早期训练在个别专家崩塌时遇到了瓶颈。子网络间的 token 分布发生漂移,一些专家完全停止被使用,模型也停止了改进。根据技术报告,根本原因在于现有的专家间负载平衡方法。该方法每次都以相同的固定步长纠正不平衡,无论专家是轻微超载还是严重超载。对于 256 个专家来说,这造成了持续的振荡,无法进入稳定状态。
团队构建了 SMEBU(软钳位动量专家偏差更新)来解决这个问题。这是一种新方法,能根据实际偏差按比例缩放修正量,并随时间平滑修正。结合由于时间压力而同时引入的其他五项稳定措施,这个问题得到了解决。随后,整个训练过程保持稳定,没有出现一次训练损失的突然峰值。对于大型模型来说,这类峰值是一个常见且令人头疼的问题,在最坏的情况下可能毁掉整个训练。
超过 8 万亿 token 的合成训练数据
训练数据中有很大一部分是合成的:在 17 万亿 token 中,有超过 8 万亿是由其他 AI 模型生成的,而非从网络抓取。这包括 6.5 万亿 token 的重写网络文本、约 1 万亿 token 的多语言数据,以及大约 8000 亿 token 的代码。合作伙伴 DatologyAI 负责数据整理。根据技术报告,这属于有记录以来用于预训练的最大规模合成数据生成之一。
Prime Intellect 提供了 GPU 集群。由于 B300 系统在当时是全新的,GPU 错误不断出现,只能通过固件更新来修补。
团队还构建了一种名为 RSDB(随机顺序文档缓冲区)的新方法来处理训练数据。通常情况下,特别长的文档可能会连续主导多个训练步骤,从而扭曲数据分布。RSDB 则随机打乱文档顺序,技术报告称这显著减少了单个训练步骤之间的波动。
尽管后期训练有限,早期采用率仍然很高
预训练之后,该模型经历了一个专注于特定技能(如工具使用和多步骤任务)的二次微调阶段。不过,根据技术报告,由于 GPU 集群的计算时间有限,这一阶段的运行时间比计划要短。Arcee AI 称当前版本是初步的,并计划在下一个迭代中进行更广泛的微调。
此前发布的一个预览版在 OpenRouter 上运行,在最初的两个月里处理了 3.37 万亿 token。据 Arcee AI 称,它成为该平台上美国使用量最大的开放模型之一。Thinking 版本也已在 OpenRouter 上上线,并可与 OpenClaw 和 Hermes Agent 等智能体框架配合使用。
在 Arcee AI 发布前不久,Google 推出了 Gemma 4,这是一个同样采用 Apache 2.0 许可的新型开放模型系列,部分构建于混合专家架构之上。
夜雨聆风