TOPOOPT: Co-optimizing Network Topology and Parallelization Strategy for Distributed Training Jobs

如今的DNN训练系统建立在传统数据中心集群的基础上,交换机以多层胖树拓扑结构(Fat-tree)排列。胖树拓扑忽略流量的特征,服务器对之间的带宽和延迟一致。当工作负载不可预测且主要由短传输组成时,是一种理想的网络拓扑结构;但是胖树网络是分布式DNN训练工作负载的瓶颈:根据Meta的生产环境中,网络overhead占据训练时间的60%。由于DNN训练的通信流量特征是可预测的,可以根据这个特点协同优化网络拓扑和并行策略。

动机

DNN训练的特点

数据并行时分布式训练中的一种常见做法,进行数据并行时不同工作节点之间通常以参数服务器、ring-AllReduce 、tree-AllReduce等拓扑结构进行通信。此外,单个GPU的内存无法容纳大型DNN模型,因此需要使用模型并行性将模型划分到多个GPU上。此外,由于跨GPU同步模型参数的成本越来越高,纯数据并行性对于大型训练作业来说很不理想,因此,人们使用数据和模型并行的混合来分布大型DNN,其中DNN的不同部分及其数据集在不同的GPU上并行处理。

每个训练迭代都包括两种主要类型的数据依赖关系。(1)在正向和反向传播期间计算的激活和梯度数据;(2)一旦处理了一批样本,就通过AllReduce步骤在加速器之间同步模型权重。根据并行化策略,这些数据依赖性可能产生本地内存访问或跨GPU流量。下文将类型(1)产生的网络流量称为MP传输,将类型(2)产生的网络流量称为AllReduce传输。

以深度学习推荐模型(DLRM)为例,如果模型有4个embedding表,embedding具有512列、10^7行,只采用数据并行的时候,会产生44GB的AllReduce数据传输,但是如果采用混合并行,最大的数据传输量只有4GB。因此,数据并行和模型并行结合对于大型模型来说十分必要。

图1:不同并行策略下的DLRM模型通信heatmap

生产环境数据分析

图2展示了Meta产业环境中的网络overhead,随着GPU数量的增加,网络很快占据了训练迭代时间的很大一部分。网络开销占Meta生产环境中DNN训练迭代时间的60%。这个瓶颈表明,现有的数据中心网络不足以满足新兴的DNN训练的工作负载。

图2:Meta产业环境中的网络overhead

图3展示了Meta生产GPU集群中运行的四个训练作业的服务器到服务器流量的heatmap。图中的所有heatmap都包含对角线上的正方形(深蓝色),这表示服务器之间的环形通信模式。但是MP传输(浅蓝色和绿色方块)取决于模型,因为MP传输取决于训练作业的并行化策略和设备放置。在整个训练过程中,不同的迭代之间,训练作业的流量模式是一样的。

图3:Meta生产GPU集群中运行的四个训练作业的服务器到服务器流量的heatmap

系统设计

本文提出的TOPOOPT是一种基于光学设备的新型系统,它联合优化DNN并行策略和拓扑结构,以加速训练作业。

TOPOOPT集群是一种可分片的直接连接结构,其中每台服务器都有d个接口连接到d个光交换机的核心层,如图4所示。光交换机使TOPOOPT能够将集群分片,产生每个训练作业的专用分区。每个分片的大小取决于作业申请的服务器数量。给定DNN训练工作和一组服务器,TOPOOPT首先离线在服务器之间找到最佳并行化策略和拓扑结构;然后,TOPOOPT重新配置光交换机以实现作业的目标拓扑。

图4:TOPOOPT的连接

此外,本文使用了Host-based forwarding等现有工作使用了的优化方法优化网络。

算法设计

单独寻找最优并行策略是一个NP-complete的问题,网络拓扑和路由使得问题更加困难。

TOPOOPT将搜索空间分成两个平面:Comp.×Comm. 和Comm.×Topo.。本文交替优化,在一个平面中迭代搜索,同时保持另一个平面的结果不变。图5说明了交替优化框架:TOPOOPT使用FlexFlow的MCMC(马尔可夫链蒙特卡罗)搜索算法,在考虑通信成本的同时,为给定网络拓扑找到最佳并行化策略。如果并行化策略提高了训练迭代时间,TOPOOPT将其提供给Comm.×Topo.平面,使用TOPOOPT的TOPOLOGY FINDER算法找到有效的网络拓扑和路由。然后将发现的拓扑反馈到Comp.×Comm.。这进一步优化了基于新拓扑的并行化策略和设备布局。该优化循环重复直到收敛或k次迭代之后,其中k是可配置的超参数。

图5:TOPOOPT算法流程

TOPOOPT有两个目标:(i)为AllReduce传输分配充足的带宽(因为大部分流量属于AllReduce);(ii)确保MP传输的跳数较小。这两个目标是可以同时实现的,因为DNN训练流量具有一种独特的特性——AllReduce流量是可变的。

例如,图6展示了三种不同的AllReduce链接方式,它们对应的traffic heatmap分别如图7所示。蓝色的AllReduce通信的位置是可以变化的,但是MP传输的heatmap保持不变。

图6:Ring-AllReduce permutations

图7:DLRM traffic heatmaps

流量易变性意味着,如果一组服务器按特定顺序连接,只需重新排列服务器的标签,就可以得到另一种顺序,以相同的延迟完成AllReduce操作,同时可能为MP传输提供较小的跳数。TOPOOPT不是只选择一个AllReduce顺序,而是为每个AllReducer组找到多个排列,并与它们对应的子拓扑重叠。这样,TOPOOPT可以有效地服务AllReduce流量,同时减少MP传输的跳数。

为了减少所有可能排列的搜索空间,本文设计了TotientPerms算法,以基于群论找到所有规则环(连续服务器的索引之间的距离相等的环)的生成法则。然后,SelectPermutations算法可以减少集群的直径,以利于MP传输。

实验验证

本文在6种不同的DNN模型上进行了模拟实验比较,其中DLRM和NCF模型的MP传输量更大。与成本相似的胖树拓扑相比,TOPOOPT将DNN训练时间减少了3.4倍。

图8:在128台服务器上的效果


原文作者:Weiyang Wang, Moein Khazraee, Zhizhen Zhong, Manya Ghobadi, Zhihao Jia, Dheevatsa Mudigere, Ying Zhang, Anthony Kewitsch
原文链接:https://arxiv.org/abs/2202.00433