本发明提供的基于深度强化学习的机器人行走控制方法,设置奖励机制;构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;利用所述奖励机制和采集的样本数据对顶层网络进行训练;在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人,控制机器人中关节的电机。该方法可以在不同的专家网络之间进行连续切换,增加了组合的多样性,改善现有机器人运动步态非对称、非自然的缺陷。该方法将人类动作捕捉获得的行走步态作为训练学习的参考对象,能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。
声明:
“基于深度强化学习的机器人行走控制方法、系统及介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)