本发明公开了带动作集合的强化学习干扰波形生成、评价方法及装置,建立干扰波形库;构建干扰波形决策网络,包括策略网络和价值网络;探索阶段使用跟踪算法进行干扰,填充经验池;从经验池中随机选取一组数据;根据当前通信状态的干扰动作,通过策略网络预测下一时刻相应干扰动作;根据策略网络输出的干扰动作,生成离散化干扰动作,从干扰波形库中选取干扰动作,并结合策略网络输出的干扰动作,共同输入价值网络,得到价值最高的干扰动作作为实际的干扰动作;再进行干扰效果评价。针对干扰动作和干扰参数庞大的情况,对通信方的抗干扰行为进行学习,解决了现有干扰波形算法收敛速度慢、准确率不高的问题,实现了精准干扰。
声明:
“带动作集合的强化学习干扰波形生成、评价方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)