分布式学习综述
墨初 知识笔记 137阅读
什么是分布式机器学习?
答:分布式机器学习就是解决怎样协调和利用大量的 GPU 集群,来完成深度学习模型的训练和获取好的收敛,达到相对高的性能。 分布式机器学习涉及如何分配训练任务,调配计算资源,协调各个功能模块,以达到训练速度与精度的平衡。
分布式训练中如何提高学习率?
答:2. Learning Rate Warm up 在分布式训练中,需要对学习率进行预热。 当使用线性缩放规则放大lr,可能会在训练开始导致收敛的不够好,训练可能会直接爆炸,所以可能会需要一些 warmup 来逐步的把 lr 提高到你想设定的 lr。
分布式 面临的问题是什么?
答:分布式 面临的问题 通信异常 由于网络本身的不可靠性,出现消息丢失、消息延迟 网络分区 由于网络发生异常情况,导致 分布式 系统中部分节点之间的网络延迟不断增大,最终导致组成 分布式 系统中有部分节点能够正常通信,网络之间出现了网络不连通,但各... 分布式 系统 一 、什么是 分布式 系统?