一种实现并行任务调度的多任务强化学习方法,基于异步优势表演者批评家算法实现,包括下列操作步骤:(1)对算法模型进行设置操作以更好的解决并行多任务调度问题,包括设置状态空间、设置动作空间、设置奖励定义;(2)对算法网络进行如下改进:用深度神经网络来表示策略函数和值函数;全局网络由输入层、共享子网络和输出子网络构成;(3)设置算法的新损失函数;(4)利用采集观测的并行任务调度数据,训练算法网络,算法收敛后,将所述算法网络用于并行任务调度。
声明:
“实现并行任务调度的多任务强化学习方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)