本发明涉及一种基于动态目标分配的深度强化学习队形变换方法及系统,方法包括:确定状态空间、动作空间以及奖励函数;初始化网络参数、经验池和训练环境;判断训练回合数是否达到最大;各飞行器以某一初始编队队形出发;计算各飞行器最优分配目标点探测器探测周围己方飞行器,根据障碍锥判断飞行器是否需要避障或避碰;计算飞行器需要避障的航向角度,各飞行器选择动作,并进入下一状态;计算奖励值;将此时系统状态、动作、奖励值和下一系统状态作为一组元组数据存入经验池;更新网络参数;判断rs是否为C2+C3,训练结束,复杂障碍环境中队形变换完成。本发明中的上述方法解决了队形变换过程中由于目标分配随机易产生局部最优航路问题。
声明:
“基于动态目标分配的深度强化学习队形变换方法及系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)