一种基于强化学习的水下机器人避障路径规划方法,首先对水下机器人的能耗模型以及动力学模型,水下洋流场景模型进行建模;其次将水下机器人对到达路径点的能耗与时长最小化问题建模为抽象的马尔可夫决策过程;将当前水下机器人的观测信息通过抽象网络转到隐藏层成为隐藏状态,将隐藏状态和想采取的动作通过转移预测网络映射至下一隐藏向量和预测奖励,另外策略网络通过给定的隐藏向量选择采取的动作以及当前局面的总奖励,在这个场景中即为到达目标点。通过水下机器人与环境的不断交互学习环境模型,得到即时奖励改进神经网络。最后将训练好的策略网络部署到水下机器人中。
声明:
“基于强化学习的水下机器人避障路径规划方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)