分布式机器学习

  • A Quick Survey on Large Scale Distributed Deep Learning Systems (ICPADS’18) [PDF]

    • 从算法角度、分布式系统角度和应用角度分析分布式深度学习系统
  • Scalable Deep Learning on Distributed Infrastructures: Challenges, Techniques, and Tools (ACM Comput. Surv. 2019 53(1)) [阅读笔记][PDF]

    • 汇集、分类和比较了来自不同社区的分布式基础设施方面的大量工作
    • 对现有的开源DL框架和工具进行了概述和比较
    • 强调并讨论了该领域的开放性研究挑战。
  • Demystifying Parallel and Distributed Deep Learning: An In-depth Concurrency Analysis (ACM Comput. Surv. 2019 53(4)) [PDF]

    • 深度学习中的并行和分布式
    • 用于DNN评估的并行策略及其实现
    • 针对支持分布式环境的训练算法和系统的扩展
    • 对这些训练算法和系统的扩展的并发性和平均并行性的分析
  • A Survey on Distributed Machine Learning (ACM Comput. Surv. 53(2)) [PDF]

    • 机器学习的系统挑战,以及如何采用来自高性能计算(HPC)的思想来加速和提高可伸缩性
    • 分布式机器学习的体系结构
    • 最广泛使用的系统和库的生态系统及其底层设计
    • 分布式机器学习的主要挑战
  • Communication-Efficient Distributed Deep Learning: A Comprehensive Survey (ArXiv’20) [PDF]

    • 在系统级探究系统为了降低通信成本进行的的设计和实现
    • 在算法层面比较不同算法的理论收敛边界和通信复杂度

深度学习调度器

  • Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy, Challenges and Vision (ArXiv’22) [PDF][Awesome list]

机器学习框架

  • A Survey on Deep Learning for Big Data (J. Big Data 2018 6: 60) [PDF]

    • 回顾大数据特征学习的深度学习模型的研究进展
    • 指出大数据深度学习所面临的挑战,并讨论未来的课题
  • Machine Learning and Deep Learning Frameworks and Libraries for Large-Scale Data Mining: a Survey (Artif. Intell. Rev. 2019 52(1)) [PDF]

    • 概述了ML和DL技术以及它们的发展和新趋势
    • 动态链接语言与加速计算的关系
    • 最新的ML和DL框架和库:机器学习框架和没有特殊硬件支持的库、具有GPU支持的深度学习框架和库以及支持MapReduce的机器学习和深度学习框架和库
    • 总结趋势和发展方向
  • Various Frameworks and Libraries of Machine Learning and Deep Learning: A Survey (Archives of Computational Methods in Engineering 2019) [PDF]

    • 比较了18个常用的深度学习框架和库并介绍了大量的benchmarking数据
    • 从模型设计能力、接口属性、部署能力、性能、框架设计和发展前景六个方面对8个主流深度学习框架进行了打分
  • A Modular Benchmarking Infrastructure for High-Performance and Reproducible Deep Learning (IPDPS’19) [PDF]

    • 白盒测试,能够公平地分析和比较不同的DL工作负载和算法

机器学习测试

  • Machine Learning Testing: Survey, Landscapes and Horizons (IEEE Transactions on Software Engineering 2020) [PDF]
    • 介绍机器学习测试并介绍已有的对各种方面进行测试的方法
    • 指出了几去学习测试面临的挑战、存在的问题和有前途的研究方向

Efficient DNN

  • Efficient Processing of Deep Neural Networks: A Tutorial and Survey

  • Energy-Aware Scheduling for Real-Time Systems: A Survey