本发明公开了一种机器人运动控制方法、机器人、计算机装置和存储介质,机器人运动控制方法包括对奖励值训练集和奖励值测试集进行孪生学习,获得最优奖励值,根据最优奖励值、动作集合、转移概率集合以及机器人在第一时刻的反馈量,通过逆向强化学习算法进行求解,根据求解结果控制机器人在第二时刻的动作等步骤。本发明能够在对工作环境先验知识不足的情况下,输出最优奖励值,使得逆向强化学习算法能够基于最优奖励值寻找最优动作策略,以提高寻找最优动作策略的速度,使机器人能在先验知识不足的情况下快速适应复杂的环境,提高控制精度以及灵活性,实现对机器人进行紧急避障以及全局路径最优规划等控制。本发明广泛应用于机器人技术领域。
声明:
“机器人运动控制方法、机器人、计算机装置和存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)