本发明提出了一种基于强化学习的锚泊辅助动力定位系统控制方法,包括:首先构建最优点选择问题的马尔科夫决策模型,构建状态空间与行为空间;采用神经网络构建强化学习模型Q函数,控制系统基于实时测量的锚泊辅助动力定位系统当前状态,采用ε贪心算法选择行为,观察在选择行为a后的系统状态s’与反馈奖励;将每一时间步的状态、行为、获得的奖励以及新的状态作为标签数据存入记忆库,并训练神经网络;通过不断重复上述过程,锚泊辅助动力定位系统能够获得使奖励函数最大的行为选择策略,得到定位点控制模式下能使推机器功率消耗最低的最佳定位点。
声明:
“基于强化学习的锚泊辅助动力定位系统控制方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)