- 题目:Enhancing Collective Communication in MCM Accelerators for Deep Learning Training
- 会议:HPCA
- 时间:2024
- 研究机构:德州农工
本篇论文的主要贡献:
我们提出了两种新的基于网格的MCM加速器的AllReduce算法
- RingBiOdd是一种基于环的算法,通过使用双向互连创建两个单向环来增强AllReduce的带宽
- TTO是一种基于树的算法,构建了三个拓扑感知的不相交树,并并行运行AllReduce操作的不同步骤
RingBiOdd主要思路:如果N个mesh的结点形成不了哈密顿环,那N-1一定可以,我们可以踢掉一个,在另外N-1个节点之间用环来all reduce
Tree-based allreduce 最好是每时每刻都能充分利用链路资源!