论文与代码阅读笔记

发表于2021-05-14|更新于2023-02-21|集群调度•分布式训练•机器学习系统•OSDI•弹性训练

本文是OSDI'21会议的best paper，由Petuum磐腾科技提出的GPU集群调度方法，可以在训练时动态调整资源数量，为深度学习训练的不同阶段找到合适的batch size，从而使得训练效率和训练的准确率都能够得到保障。

发表于2021-04-13|更新于2021-04-18|NSDI•集群调度•分布式训练•机器学习系统

在这篇文章中，作者度量并分析了分布式训练的网络表现。作者预期，度量结果会证实通信是阻碍分布式训练达到linear scale-out效果的原因。但是，作者发现实际上网络带宽利用率很低，如果网络带宽可以被充分利用，分布式训练的scaling factor可以接近于1。

Rammer：如何通过全局视角编译深度学习计算

发表于2021-04-09|更新于2021-11-15|机器学习系统•OSDI•推理系统•深度学习编译器

Rammer是一个可以成倍甚至几十倍地提升深度学习inference计算速度的编译框架。

BytePS：加速异构集群中分布式训练的统一架构

发表于2021-03-15|更新于2021-03-22|分布式训练•机器学习系统•SOSP•通信调度•深度学习框架

本文介绍了BytePS，是字节跳动、清华大学和Google合作的项目，提出一种分布式DNN训练的统一架构BytePS，并延续了字节跳动在RDMA方面的研究，利用了RDMA高速网络的特性对集群的通信和算力资源利用率进行优化。

PyTorch Distributed：加速数据并行训练的经验

发表于2021-03-08|更新于2021-03-09|分布式训练•机器学习系统•深度学习框架

本文介绍了PyTorch DDP模块的设计、实现和评估。

Elan: 面向深度学习的通用弹性训练

发表于2021-03-07|更新于2021-04-27|分布式训练•机器学习系统•ICDCS•弹性训练

本文是Gandiva的后续工作，提出了一个可以保证异构GPU集群中深度学习任务效率和用户间公平性的调度方法。

在异构GPU集群中权衡效率与公平性

发表于2021-03-07|更新于2021-04-28|集群调度•分布式训练•机器学习系统•EuroSys

本文是Gandiva的后续工作，提出了一个可以保证异构GPU集群中深度学习任务效率和用户间公平性的调度方法。

Surveys on ML/DL

发表于2020-12-25|更新于2023-04-25|调研•深度学习

总结与深度学习相关的Survey，主要是分布式机器学习和深度学习框架相关。

Empirical Studies on DL and Other Areas

发表于2020-12-25|更新于2022-03-08|深度学习•软件工程•实证研究

总结与深度学习相关的Empirical Study，以及其他领域中类似的Empirical Study。

HiveD：新的多租户GPU集群管理方案

发表于2020-12-22|更新于2021-04-27|集群调度•分布式训练•机器学习系统•OSDI

随着深度学习训练需求的不断扩张，很多组织和机构都会选择自建多租户集群来共享昂贵的 GPU 资源。然而现有的 GPU 集群管理方案因为使用了 GPU 配额（Quota）机制，可能导致严重的共享异常（Sharing Anomaly）现象：某些租户的深度学习任务甚至比在私有集群中性能更差。为了从根本上解决该问题，本文提出了一个新的多租户GPU集群管理方案HiveD，通过新的资源抽象和调度框架从而100% 保证共享安全（Sharing Safety），同时不失一般性地和任何任务调度策略兼容。