网络是分布式训练的瓶颈吗?
PipeSwitch:面向深度学习应用的高效多进程管理
ByteScheduler: 加速分布式训练的通信调度器
AntMan:面向深度学习的GPU集群动态弹性伸缩方法
Facebook在边缘设备上的ML推理计算的现状
分析面向DNN训练的大型多租户GPU集群
分布式设施上的可扩展深度学习:挑战、技术、和工具
更多维度的深度神经网络并行策略
Lineage Stash:在关键路径之外的容错机制