本发明具体涉及一种基于深度安全强化学习的机器人无地图导航方法,具体包括:初始化训练环境,设计移动机器人奖励函数和安全风险代价函数;利用传感器检测的图像信息和激光雷达信息,结合移动机器人的目标信息和运动信息,将各状态信息进行处理后经Actor网络输出决策动作到机器人,机器人执行Actor网络输出的动作,从环境中得到下一时刻新的状态观测及奖励信息,将机器人与环境交互得到的经验存入经验池,定期更新网络参数;判断是否训练结束,将训练好的模型应用于真实移动机器人进行导航。本发明基于演员‑评论家‑安全(ACS)框架的深度安全强化学习,通过引入约束性策略优化(CPO)算法,提升了强化学习用于无地图导航任务的安全性。
声明:
“基于深度安全强化学习的机器人无地图导航方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)