本申请提供一种基于多Agent环境的深度强化学习算法、设备和存储介质,涉及深度强化学习算法技术领域;通过步骤S101、利用Agent中的目标网络,基于初始状态信息和动作信息,确定时间差分;步骤S102、根据预设的遮盖率,对初始状态信息进行随机遮盖,得到目标状态信息,利用Agent中的预测网络,以及时间差分,确定误差值;步骤S103:基于误差值,以及自适应修改参数,对Agent中的预测网络和目标网络各自对应的加权值进行更新;步骤S104:重复步骤S102和步骤S103预设次数,确定目标加权值,从而确定目标深度强化学习模型。具有保证了样本学习效率,并通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新,以提高收敛速度的效果。
声明:
“基于多Agent环境的深度强化学习算法、设备和存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)