本发明公开了一种基于强化学习PPO2算法的无人艇位姿控制方法,包括无人艇环境建模;根据无人艇的情况设置动作和状态空间;设置奖励目标权重,基于所需无人艇控制目标设置奖励函数来控制无人艇;设计深度神经网络,包括状态价值函数估计器网络和策略网络;用PPO2算法进行无人艇位姿控制器训练,并对策略网络参数迭代,直到设定的训练周期数目全部结束,观察无人艇位姿控制结果,并将学习步长、观测空间、动作空间、训练策略以及训练完成的神经网络保存,作为无人艇下次调用。本发明利用PPO2算法进行无人艇的姿态航向控制;通过强化学习,不依赖于具体模型,能有效地控制复杂环境下的无人艇系统。
声明:
“基于强化学习PPO2算法的无人艇位姿控制方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)