本发明公开了一种基于多智能体强化学习的无人机网络协同快跳频方法,具体为:输入无人机网络环境,每对无人机初始化自身Q表以及最优先验动作分布估计、互信息惩罚项系数和动作状态对出现次数;在当前时隙中,每对无人机根据上一时隙生成的动作选择传输信道,传输完成后得到环境反馈的奖励;每对无人机观测环境的当前状态,再与其它无人机对交互当前状态下各个动作的Q值得到全局Q值,根据互信息正则化soft Q‑learning算法中的行为策略生成动作;每对无人机更新自身Q表以及各个参量;当达到训练回合的最大步数时,重新输入无人机网络环境开始下一回合。本发明实现了所有无人机对的总吞吐量性能的提升,为无人机网络提供了通信保障。
声明:
“基于多智能体强化学习的无人机网络协同快跳频方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)