一种基于深度强化学习的清洁机器人沿墙方法和清洁机器人,该方法包括:当清洁机器人进入沿墙场景时,获取所述清洁机器人的传感器的测量数据;将所述测量数据输入到训练好的深度强化学习网络,由所述深度强化学习网络输出沿墙动作;控制所述清洁机器人基于所述沿墙动作完成所述沿墙场景的运动和清洁操作;其中,所述深度强化学习网络的训练是基于多个智能体同步训练的异步优势动作评价算法实现的。本申请的方案基于多个智能体同步训练的异步优势动作评价算法训练深度强化学习网络,训练好的深度强化学习网络只要接收清洁机器人在沿墙场景中的传感器数据,即可输出最优的沿墙动作,使得清洁机器人较好地完成沿墙场景的清洁。
声明:
“基于深度强化学习的清洁机器人沿墙方法和清洁机器人” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)