开云app体育~分布式训练有望解决人工智能的能耗难题

人工智能正面临着巨大的能源消耗挑战。这种持续增长的能源需求体现在支撑AI繁荣的数据中心产生的巨大碳足迹，以及前沿AI模型训练所产生的碳排放量随时间稳步增加。

。

～

难怪大型科技公司开始青睐核能，设想一个由可靠、无碳能源支撑的未来。但是，虽然核动力数据中心可能还需要数年时间才能实现，研究和工业领域的一些人正在立即采取行动来抑制AI不断增长的能源需求。他们正在解决训练这一模型生命周期中最耗能的阶段之一，重点关注去中心化。

利用分布式网络重新定义AI训练

去中心化将模型训练分配到独立节点网络中，而不是依赖单一平台或提供商。它让计算能力可以去到能源所在的地方——无论是坐落在研究实验室中的闲置服务器，还是太阳能供电家庭中的计算机。去中心化不是建造更多需要电网扩大基础设施和容量的数据中心，而是利用现有来源的能源，避免增加更多电力消耗。

训练AI模型是一项巨大的数据中心运动，需要在紧密连接的GPU集群间同步进行。但随着硬件改进难以跟上大语言模型规模的快速增长，即使是大规模的单一数据中心也不再够用。

科技公司正转向多个数据中心的集合力量——无论其位置如何。例如，英伟达推出了Spectrum-XGS以太网用于跨规模网络，它"可以为跨地理分离数据中心的大规模单一作业AI训练和推理提供所需的性能"。同样，思科推出了其8223路由器，旨在"连接地理分散的AI集群"。

其他公司正在挖掘服务器中的闲置计算资源，催生了GPU即服务业务模式的兴起。以Akash网络为例，这是一个点对点云计算市场，自称为"数据中心的Airbnb"。那些在办公室和较小数据中心拥有未使用或使用不足GPU的人注册为提供商，而那些需要计算能力的人被视为租户，可以在提供商中选择并租用他们的GPU。

Akash联合创始人兼首席执行官Greg Osuri表示："如果你看看今天的AI训练，它非常依赖最新最好的GPU。幸运的是，世界正在转型，从仅依赖大型高密度GPU转向现在考虑较小的GPU。"

算法创新支撑分布式学习

除了协调硬件外，去中心化AI训练还需要在软件方面进行算法更改。这就是联邦学习——一种分布式机器学习形式——发挥作用的地方。

它从驻留在可信实体（如中央服务器）中的全局AI模型的初始版本开始。麻省理工学院计算机科学与人工智能实验室(CSAIL)首席研究科学家、去中心化信息小组负责人Lalana Kagal解释说，服务器将模型分发给参与组织，这些组织在本地数据上训练模型，并仅与可信实体共享模型权重。然后，可信实体聚合权重（通常通过平均），将它们集成到全局模型中，并将更新的模型发送回参与者。这种协作训练循环重复进行，直到模型被认为完全训练完成。

但分布数据和计算也有缺点。例如，模型权重的持续来回交换导致高通信成本。容错是另一个问题。

Osuri说："AI的一个重大问题是每个训练步骤都不具备容错性。这意味着如果一个节点宕机，你必须重新恢复整个批次。"

为了克服这些障碍，谷歌DeepMind的研究人员开发了DiLoCo，一种分布式低通信优化算法。DiLoCo形成了谷歌DeepMind研究科学家Arthur Douillard所称的"计算岛"，每个岛由一组芯片组成。每个岛持有不同的芯片类型，但岛内的芯片必须是同一类型。岛之间彼此解耦，它们之间的知识同步偶尔发生。这种解耦意味着岛可以独立执行训练步骤而不需要经常通信，芯片可以故障而不必中断剩余的健康芯片。然而，团队的实验发现在八个岛之后性能递减。