本发明公开了一种人工智能系统中流水行并行的GPU配置方法及系统,其针对共享GPU集群,并应用于神经网络分布式训练。为了解决共享GPU集群下流水行并行中GPU分配方案固定不变而导致无法动态调节GPU配置的问题,所述方法在下一次的训练之前,根据静态指标、动态指标得到若干新工作分区,在动态指标中加入GPU的可用带宽,使得新工作分区能反应GPU的动态可用资源;再引入了元网络预测每个工作分区的训练速度来筛选工作分区,及引入强化学习来判断是否更新当前的工作分区,通过上述GPU配置方法得到的工作分区能适应于GPU的动态可用资源,更合理的进行分布式训练,有效提高GPU资源利用率以及保证后续神经网络的训练效率。
声明:
“人工智能系统中流水行并行的GPU配置方法及系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)