本发明公开了一种基于深度强化学习的绿篱修剪机器人智能协同控制方法,包括以下步骤:建立绿篱修剪机器人MDP深度强化学习模型;搭建深度神经网络框架;设计改进PPO算法的策略网络目标函数与值函数网络目标函数;根据最大化策略网络目标奖励函数与最小化值函数网络目标函数均方误差原则,采用改进的PPO算法训练深度神经网络;采用改进自适应学习率的Adam自适应梯度算法优化目标函数,经过重复更新迭代,得到绿篱修剪机器人训练模型的最优策略,通过输入最新状态数据,即可预测输出最优动作,输出移动底盘与修剪机械臂的控制指令。本发明不需要对绿篱修剪机器人进行物理建模,避免了因模型不精确而带来的控制误差,避免算法陷入局部最优解,加快了算法的更新效率,同时提高了控制算法的泛化能力。
声明:
“基于深度强化学习的绿篱修剪机器人智能协同控制方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)