本发明公开了一种基于环境状态预测的深度强化学习方法及装置,其中,方法包括:建立基于环境预测的深度强化学习网络,并根据任务的特点选择合适的策略决策方法;初始化网络参数,并建立满足存储条件的存储区作为经验回放区;根据策略决策网络的输出选择合适的策略来与环境进行交互,并将交互过程的交互信息连续存储到经验回放区;从经验回放区采样第一样本序列,并利用监督学习的方法对环境预测部分进行训练,并重复第一预设次数;从经验回放区采样第二样本序列,并固定环境预测部分的参数不动,利用强化学习的方法对策略决策部分进行训练,并重复第二预设次数;在网络收敛满足预设条件时,获取强化学习网络。该方法可以有效提高学习效率。
声明:
“基于环境状态预测的深度强化学习方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)