本发明提供一种复杂场景自主移动机器人自监督学习及导航方法,具体步骤包括:设置机器人的训练次数;采集机器人所在环境的实际状态图像;将采集的实际状态图像与机器人执行动作前所预测的预测状态图像比较,计算所述实际状态图像与所述预测状态图像之间的损失函数,根据所述的损失函数计算奖惩信号,根据奖惩信号更新网络权重,预测机器人的动作和预测状态图像;机器人执行动作,记录已完成训练次数;判断其是否达到预先设置的训练次数,若结果为否,则返回继续训练;若结果为是,则加权所有的奖惩信号,更新网络权重,结束训练。本发明结合视频预测技术和强化学习技术,解决了强化学习技术应用到机器人中时人工标记的工作量大的问题。
声明:
“复杂场景自主移动机器人自监督学习及导航方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)