本发明公开了一种面向扰动奖励的深度强化学习对抗防御方法,该方法在深度强化学习算法PPO的基础上构建了一个名叫RecRe的奖励复原模块,该模块能够从扰动奖励中复原得到干净奖励。随后,强化学习智能体根据干净奖励学习得到具有防御能力的最优策略。本发明的创新点在于将深度学习环境中的扰动奖励看作是监督学习中的噪声标签,借助噪声标签学习的思想,构建了RecRe模块从噪声奖励中复原奖励,使得最终根据复原奖励学习的策略具备对抗防御性。相比于先前的替代策略和预测策略,本发明所提出的结合RecRe模块的PPO训练框架学习得到的复原策略具有更好的防御效果。
声明:
“面向扰动奖励的深度强化学习对抗防御方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)