本发明公开了一种面向深度强化学习模型的特征过滤防御方法,包括:(1)针对生成连续行为的DDPG模型,包括actor网络和critic网络,其中,所述actor网络包括动作估计网络和动作实现网络,所述critic网络包括状态估计网络和状态实现网络,对所述深度强化学习模型DDPG进行预训练,并将预训练阶段的当前状态、行为、奖励值以及下一状态保存在缓存区;(2)训练自编码器,并利用训练好的自编码器的编码器对输入状态进行特征过滤,获得过滤后的输入状态对应的特征图,并保存到缓存区;(3)对预训练后的DDPG模型中的卷积核进行剪枝,利用剪枝后的DPG模型进行动作预测,输出并执行预测动作。
声明:
“面向深度强化学习模型的特征过滤防御方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)