Pollux:面向深度学习有效吞吐量优化的协同适应集群调度
AFS:分布式深度学习中的弹性资源共享
Rammer:如何通过全局视角编译深度学习计算
BytePS:加速异构集群中分布式训练的统一架构
PyTorch Distributed:加速数据并行训练的经验
Elan: 面向深度学习的通用弹性训练
在异构GPU集群中权衡效率与公平性
Surveys on ML/DL
Empirical Studies on DL and Other Areas
HiveD:新的多租户GPU集群管理方案