分布式机器学习
A Quick Survey on Large Scale Distributed Deep Learning Systems (ICPADS’18) [PDF]
- 从算法角度、分布式系统角度和应用角度分析分布式深度学习系统
Scalable Deep Learning on Distributed Infrastructures: Challenges, Techniques, and Tools (ACM Comput. Surv. 2019 53(1)) [阅读笔记][PDF]
- 汇集、分类和比较了来自不同社区的分布式基础设施方面的大量工作
- 对现有的开源DL框架和工具进行了概述和比较
- 强调并讨论了该领域的开放性研究挑战。
Demystifying Parallel and Distributed Deep Learning: An In-depth Concurrency Analysis (ACM Comput. Surv. 2019 53(4)) [PDF]
- 深度学习中的并行和分布式
- 用于DNN评估的并行策略及其实现
- 针对支持分布式环境的训练算法和系统的扩展
- 对这些训练算法和系统的扩展的并发性和平均并行性的分析
A Survey on Distributed Machine Learning (ACM Comput. Surv. 53(2)) [PDF]
- 机器学习的系统挑战,以及如何采用来自高性能计算(HPC)的思想来加速和提高可伸缩性
- 分布式机器学习的体系结构
- 最广泛使用的系统和库的生态系统及其底层设计
- 分布式机器学习的主要挑战
Communication-Efficient Distributed Deep Learning: A Comprehensive Survey (ArXiv’20) [PDF]
- 在系统级探究系统为了降低通信成本进行的的设计和实现
- 在算法层面比较不同算法的理论收敛边界和通信复杂度
深度学习调度器
- Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy, Challenges and Vision (ArXiv’22) [PDF][Awesome list]
机器学习框架
A Survey on Deep Learning for Big Data (J. Big Data 2018 6: 60) [PDF]
- 回顾大数据特征学习的深度学习模型的研究进展
- 指出大数据深度学习所面临的挑战,并讨论未来的课题
Machine Learning and Deep Learning Frameworks and Libraries for Large-Scale Data Mining: a Survey (Artif. Intell. Rev. 2019 52(1)) [PDF]
- 概述了ML和DL技术以及它们的发展和新趋势
- 动态链接语言与加速计算的关系
- 最新的ML和DL框架和库:机器学习框架和没有特殊硬件支持的库、具有GPU支持的深度学习框架和库以及支持MapReduce的机器学习和深度学习框架和库
- 总结趋势和发展方向
Various Frameworks and Libraries of Machine Learning and Deep Learning: A Survey (Archives of Computational Methods in Engineering 2019) [PDF]
- 比较了18个常用的深度学习框架和库并介绍了大量的benchmarking数据
- 从模型设计能力、接口属性、部署能力、性能、框架设计和发展前景六个方面对8个主流深度学习框架进行了打分
A Modular Benchmarking Infrastructure for High-Performance and Reproducible Deep Learning (IPDPS’19) [PDF]
- 白盒测试,能够公平地分析和比较不同的DL工作负载和算法
机器学习测试
- Machine Learning Testing: Survey, Landscapes and Horizons (IEEE Transactions on Software Engineering 2020) [PDF]
- 介绍机器学习测试并介绍已有的对各种方面进行测试的方法
- 指出了几去学习测试面临的挑战、存在的问题和有前途的研究方向
Efficient DNN
Efficient Processing of Deep Neural Networks: A Tutorial and Survey
Energy-Aware Scheduling for Real-Time Systems: A Survey