本申请提供了一种基于多智能体分层强化学习的多无人机空战决策方法,所述方法包括:基于实际多无人机空战场景构建的仿真环境,包括环境约束模型、无人机个体约束模型和对抗影响规则;将多无人机空战问题建模为半马尔可夫博弈模型,单个无人机的决策过程抽象为代表高层和底层策略的两个智能体,分别定义各智能体的状态空间表示、动作、奖励函数和动作终止条件;采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法分别训练无人机高层和底层策略智能体;完成训练后无人机基于底层策略智能体的策略网络和局部观测进行决策;该方法可实现空战环境下多无人机的自主无人协同决策,无需人类驾驶员介入,具有较好的即时性和鲁棒性。
声明:
“基于多智能体分层强化学习的多无人机空战决策方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)