本发明涉及多智能体强化学习领域,为在博弈均衡状态分析的基础上,针对博弈双方动态交互的特点,对双方策略优化方法进行改进,本发明,强化学习非零和非合作多智能体安全通信功率控制方法;步骤如下:建立无线网络干扰‑抗干扰通信博弈框架;训练阶段动态博弈的功率控制,方法如下:在强化学习的训练阶段,采用合作式的训练方式;在强化学习的感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率,执行下一次动作选择;对抗双方在训练阶段反复进行该过程,直到所有智能体收益基本保持均衡为止,达到收敛。本发明主要应用于雷达、干扰机设计制造场合。
声明:
“强化学习非零和非合作多智能体安全通信功率控制方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)