AFS:分布式深度学习中的弹性资源共享
Rammer:如何通过全局视角编译深度学习计算
BytePS:加速异构集群中分布式训练的统一架构
PyTorch Distributed:加速数据并行训练的经验
Elan: 面向深度学习的通用弹性训练
在异构GPU集群中权衡效率与公平性
Surveys on ML/DL
Empirical Studies on DL and Other Areas
HiveD:新的多租户GPU集群管理方案
网络是分布式训练的瓶颈吗?