本发明公开了一种基于差分隐私的深度强化学习模型安全加固方法及装置,其中包括一种基于差分隐私的深度强化学习模型安全加固方法,包括如下步骤:从环境中采样数据作为待训练样本集,利用深度强化学习算法构建目标模型,将待训练样本集输入到目标模型中对目标模型进行训练;对训练好的目标模型进行测试,并采样状态动作作为窃取数据集;利用深度强化学习算法构建窃取模型;将窃取数据集作为训练样本输入到窃取模型中并利用模仿学习算法训练窃取模型;将差分隐私保护机制添加到训练好的目标模型中,将目标模型在差分隐私机制的作用下输出的数据输入到窃取模型中;窃取模型在有差分隐私机制作用的数据的影响下作出错误的攻击动作。
声明:
“基于差分隐私的深度强化学习模型安全加固方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)