Resources for Machine Learning System
每天一个没用的代码小技巧
BPipe: 面向大语言模型训练的内存均衡的流水线并行
Lucid:一个可扩展、可解释的实用型深度学习作业调度器
Pheromone:服务器无感知计算平台中以数据中为心的函数编排
TOPOOPT:面向分布式训练作业的网络拓扑与并行策略协同优化
大规模异构GPU集群中的作业负载分析与调度
碳排放与大规模神经网络训练
Blink:面向分布式机器学习的快速、通用的通信原语
Pollux:面向深度学习有效吞吐量优化的协同适应集群调度