本发明提供一种基于强化学习作业布局的深度学习训练方法,其包括:S1:对用户提交的作业进行代码完整性测试;S2:判断测试是否成功,若是,则进步下一步,若否,则将作业打回给用户;S3:计算作业的优先级,并将优先级计算完成的作业放入优先级队列中;S4:调度器判断集群资源是否充足,若是,进入下一步,若否,调度器根据优先级对当前运行的作业进行抢占,并进入下一步;S5:调度器从优先级队列中取作业进行调度;S6:被调度的作业通过布局算法对作业的任务进行优化布局;S7:判断调度间隔时间片是否耗尽,若是,进入步骤S3;若否,继续执行作业。可有效解决由于作业调度器的不合理导致作业阻塞迟迟不能执行的问题,提高GPU资源利用率。
声明:
“基于强化学习作业布局的深度学习训练系统及方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)