本发明公开了基于模型的高样本率深度强化学习的无人设备控制方法,包括:获取轨迹数据,并将轨迹数据存入环境缓冲池中;对环境状态转移模型进行更新;进行多步交互轨迹预测生成预测数据,并将预测数据存入模型缓冲池;对Actor‑Critic策略模型进行更新;持续迭代更新环境状态转移模型和Actor‑Critic策略模型直至当前策略性能达到预期要求。本发明采用基于模型的深度强化学习的方法,构建一个环境状态转移模型来模拟无人设备与外界环境的交互,从而急剧减少无人设备与真实环境的交互次数,并且由环境状态转移模型产生的数据能够对无人设备行进控制策略进行有效的优化,使得对无人设备的控制变得高效。
声明:
“基于模型的高样本率深度强化学习的无人设备控制方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)