论文与代码阅读笔记

发表于2020-12-22|更新于2021-03-07|分布式训练•SIGCOMM•网络通信

在这篇文章中，作者度量并分析了分布式训练的网络表现。作者预期，度量结果会证实通信是阻碍分布式训练达到linear scale-out效果的原因。但是，作者发现实际上网络带宽利用率很低，如果网络带宽可以被充分利用，分布式训练的scaling factor可以接近于1。

PipeSwitch：面向深度学习应用的高效多进程管理

发表于2020-12-07|更新于2021-03-07|机器学习系统•OSDI•上下文切换•任务调度

本文提出了一个PipeSwitch系统，它可以使一个推理程序的未使用周期由训练或其他推理应用程序填充。它允许多个DL应用程序与整个GPU内存共享同一个GPU，并只增加毫秒级的切换开销。使用PipeSwitch，GPU利用率可以显著提高，且不会牺牲SLO。本文还设计了统一的内存管理和Active-Standby Worker切换机制，以配合上下文切换的流水线并确保进程间的隔离。

ByteScheduler: 加速分布式训练的通信调度器

发表于2020-12-07|更新于2021-03-15|分布式训练•机器学习系统•SOSP•通信调度•深度学习框架

本文提出了一个加速分布式训练的、通用通信调度器ByteScheduler。它引入了一个统一的抽象和一个依赖代理机制来实现通信调度，且不破坏框架引擎中原有的依赖关系。在此基础上，本文提出了一种贝叶斯优化方法，可以在不同的网络环境下，根据不同的训练模型自动调整tensor划分的大小和其他参数。ByteScheduler现在支持TensorFlow、Pythorch和MXNet，无需修改它们的源代码就可以很好地与参数服务器（PS）和all-reduce架构（使用TCP或RDMA）进行梯度同步。