本发明涉及一种机器人运动技能学习方法及系统,涉及机器人学习领域,该方法包括:获取机器人的当前环境状态参数及所述机器人的当前动作;根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略;根据当前环境状态参数和所述无模型强化学习策略,采用环境动态模型预测所述机器人下一时刻的轨迹,记为初始轨迹;所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的;基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹;根据优化后的轨迹确定控制所述机器人的运动指令。本发明提高了机器人运动的学习效率。
声明:
“机器人运动技能学习方法及系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)