本发明公开了一种基于强化学习的无人飞行器自主编队智能控制方法,应用于多无人机系统。本发明方法首先构建多无人飞行器系统模型,确定多无人飞行器协同编队的任务目标;然后基于MADDPG框架构建自主编队协同控制器,布置在每个跟随无人飞行器上;自主编队协同控制器包括基于策略梯度的编队行为者网络和编队目标行为者网络,以及基于值的编队评价者网络和编队目标评价者网络;行为者网络允许单个智能体策略网络的优化过程使用邻居节点的观测信息,训练完成之后每个智能体以分散的方式行动,本发明方法可实现多飞行器智能协同编队,共同完成特定的队形保持、冲突协调以及避免碰撞等协同问题,提高采样效率,适用于大规模的多智能体系统。
声明:
“基于强化学习的无人飞行器自主编队智能控制方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)