基础金属	铜电解铜铜精矿铜管铜棒废铜铜排铜合金精铜杆再生铜杆铜板带铝铝土矿氧化铝电解铝铝辅料铝棒铝合金锭废铝铝杆铝型材铝板卷铅铅精矿铅锭铅蓄电池再生精铅还原铅废铅蓄电池铅合金锌锌精矿电解锌锌合金氧化锌锌粉锡锡精矿锡锭锡材镁兰炭硅铁镁锭
稀有金属	稀土稀土矿稀土氧化物稀土金属钕铁硼稀散金属锑铋铟锗镓硒钽铌锆贵金属白银钨钨精矿 APT(仲钨酸铵)钨粉碳化钨钨酸钠钨条钨铁钨材钼钼精矿工业氧化钼钼铁钼化工高纯三氧化钼钼金属钛钛精矿钛渣四氯化钛海绵钛钛金属钛白粉
新能源	锂锂矿锂化合物金属锂镍镍矿镍铁精炼镍镍盐高冰镍 MHP 钴电解钴钴粉氯化钴四氧化三钴硫酸钴钴中间品氧化钴碳酸钴钴酸锂锰锰矿电解锰电池级硫酸锰锂电正负极三元前驱体磷酸铁正极材料石油焦针状焦包覆沥青人造石墨硅碳负极硅氧负极电解液隔膜隔膜电解液电芯硅硅石有机硅硅粉三氯氢硅工业硅再生硅光伏多晶硅硅片电池片组件组件成本指数海外组件废旧组件

基础金属

铜电解铜铜精矿铜管铜棒废铜铜排铜合金精铜杆再生铜杆铜板带铝铝土矿氧化铝电解铝铝辅料铝棒铝合金锭废铝铝杆铝型材铝板卷铅铅精矿铅锭铅蓄电池再生精铅还原铅废铅蓄电池铅合金锌锌精矿电解锌锌合金氧化锌锌粉锡锡精矿锡锭锡材镁兰炭硅铁镁锭

稀有金属

稀土稀土矿稀土氧化物稀土金属钕铁硼 稀散金属锑铋铟锗镓硒钽铌锆 贵金属白银钨钨精矿 APT(仲钨酸铵)钨粉碳化钨钨酸钠钨条钨铁钨材钼钼精矿工业氧化钼钼铁钼化工高纯三氧化钼钼金属钛钛精矿钛渣四氯化钛海绵钛钛金属钛白粉

新能源

锂锂矿锂化合物金属锂镍镍矿镍铁精炼镍镍盐高冰镍 MHP 钴电解钴钴粉氯化钴四氧化三钴硫酸钴钴中间品氧化钴碳酸钴钴酸锂锰锰矿电解锰电池级硫酸锰 锂电正负极三元前驱体磷酸铁正极材料石油焦针状焦包覆沥青人造石墨硅碳负极硅氧负极 电解液隔膜隔膜电解液电芯硅硅石有机硅硅粉三氯氢硅工业硅再生硅光伏多晶硅硅片电池片组件组件成本指数海外组件废旧组件

面向扰动奖励的深度强化学习对抗防御方法

1196 编辑：管理员来源：北方有色网

2023-03-19 07:00:54

本发明公开了一种面向扰动奖励的深度强化学习对抗防御方法，该方法在深度强化学习算法PPO的基础上构建了一个名叫RecRe的奖励复原模块，该模块能够从扰动奖励中复原得到干净奖励。随后，强化学习智能体根据干净奖励学习得到具有防御能力的最优策略。本发明的创新点在于将深度学习环境中的扰动奖励看作是监督学习中的噪声标签，借助噪声标签学习的思想，构建了RecRe模块从噪声奖励中复原奖励，使得最终根据复原奖励学习的策略具备对抗防御性。相比于先前的替代策略和预测策略，本发明所提出的结合RecRe模块的PPO训练框架学习得到的复原策略具有更好的防御效果。

登录解锁全文

声明：

“面向扰动奖励的深度强化学习对抗防御方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究，如用于商业用途，请联系该技术所有人。

我是此专利(论文)的发明人(作者)