一种基于多智能体深度强化学习的无人机网络悬停位置优化方法,首先对无人机对地通信场景中的信道模型、覆盖模型和能量损耗模型进行建模;将无人机对地通信网络的吞吐量最大化问题建模为局部可观察马尔科夫决策过程;通过无人机与环境的不断交互获取局部观测信息和瞬时奖励,并基于这些信息进行集中式的训练,得到分布式的策略网络;将策略网络部署到每个无人机中,每个无人机可以基于自身的局部观测信息得到移动方向和移动距离决策,调整悬停位置,进行分布式协作。本发明还将比例公平调度和无人机能耗损失信息引入到瞬时奖励函数中,在提高吞吐量的同时保证无人机对地面用户服务的公平性,并减少能耗损失,使无人机集群能够适应动态环境。
声明:
“基于多智能体深度强化学习的无人机网络悬停位置优化方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)