本申请涉及一种移动机器人导航方法、装置、计算机设备和存储介质。所述方法包括:通过特征提取模块对目标点图像和场景图像提取特征得到当前状态的状态特征;通过逆强化学习模块解算预先给定的专家轨迹,得到奖励函数;通过A3C强化学习网络中的策略网络输出机器人的预测执行动作,通过值网络得到预测值函数,在执行动作得到下一状态后,根据当前状态、下一状态和执行动作计算TD误差,得到第一损失函数;根据状态特征和权值参数,得到专家奖励值,根据网络奖励值和专家奖励值得到第二损失函数;对A3C强化学习网络和奖励网络进行训练,得到训练好的移动机器人导航模型用于导航。本发明可提高机器人室内导航的准确率和效率,泛化能力强。
声明:
“移动机器人导航方法、装置、计算机设备和存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)