本发明公开一种动态环境下基于深度强化学习的移动机器人避碰规划方法,属于移动机器人导航技术领域。本发明通过激光测距仪采集原始数据,将原始数据处理后作为神经网络的输入,建立LSTM神经网络,通过A3C算法,神经网络输出相应参数,经过处理获得机器人每一步的动作。本发明无需对环境进行建模,更加适用于未知障碍物环境,采用actor‑critic框架与时间差分算法,实现低方差的同时更适用于连续动作空间,实现边训练边学习的效果。设计具有艏向转角限制的连续动作空间,且采用4个线程并行学习训练,与一般深度强化学习方法相比,大大提高学习训练时间,减少样本相关性,保障探索空间的高利用性与探索策略的多样性,从而提升算法收敛性、稳定性以及避障成功率。
声明:
“动态环境下基于深度强化学习的移动机器人避碰规划方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)