基础金属	铜电解铜铜精矿铜管铜棒废铜铜排铜合金精铜杆再生铜杆铜板带铝铝土矿氧化铝电解铝铝辅料铝棒铝合金锭废铝铝杆铝型材铝板卷铅铅精矿铅锭铅蓄电池再生精铅还原铅废铅蓄电池铅合金锌锌精矿电解锌锌合金氧化锌锌粉锡锡精矿锡锭锡材镁兰炭硅铁镁锭
稀有金属	稀土稀土矿稀土氧化物稀土金属钕铁硼稀散金属锑铋铟锗镓硒钽铌锆贵金属白银钨钨精矿 APT(仲钨酸铵)钨粉碳化钨钨酸钠钨条钨铁钨材钼钼精矿工业氧化钼钼铁钼化工高纯三氧化钼钼金属钛钛精矿钛渣四氯化钛海绵钛钛金属钛白粉
新能源	锂锂矿锂化合物金属锂镍镍矿镍铁精炼镍镍盐高冰镍 MHP 钴电解钴钴粉氯化钴四氧化三钴硫酸钴钴中间品氧化钴碳酸钴钴酸锂锰锰矿电解锰电池级硫酸锰锂电正负极三元前驱体磷酸铁正极材料石油焦针状焦包覆沥青人造石墨硅碳负极硅氧负极电解液隔膜隔膜电解液电芯硅硅石有机硅硅粉三氯氢硅工业硅再生硅光伏多晶硅硅片电池片组件组件成本指数海外组件废旧组件

基础金属

铜电解铜铜精矿铜管铜棒废铜铜排铜合金精铜杆再生铜杆铜板带铝铝土矿氧化铝电解铝铝辅料铝棒铝合金锭废铝铝杆铝型材铝板卷铅铅精矿铅锭铅蓄电池再生精铅还原铅废铅蓄电池铅合金锌锌精矿电解锌锌合金氧化锌锌粉锡锡精矿锡锭锡材镁兰炭硅铁镁锭

稀有金属

稀土稀土矿稀土氧化物稀土金属钕铁硼 稀散金属锑铋铟锗镓硒钽铌锆 贵金属白银钨钨精矿 APT(仲钨酸铵)钨粉碳化钨钨酸钠钨条钨铁钨材钼钼精矿工业氧化钼钼铁钼化工高纯三氧化钼钼金属钛钛精矿钛渣四氯化钛海绵钛钛金属钛白粉

新能源

锂锂矿锂化合物金属锂镍镍矿镍铁精炼镍镍盐高冰镍 MHP 钴电解钴钴粉氯化钴四氧化三钴硫酸钴钴中间品氧化钴碳酸钴钴酸锂锰锰矿电解锰电池级硫酸锰 锂电正负极三元前驱体磷酸铁正极材料石油焦针状焦包覆沥青人造石墨硅碳负极硅氧负极 电解液隔膜隔膜电解液电芯硅硅石有机硅硅粉三氯氢硅工业硅再生硅光伏多晶硅硅片电池片组件组件成本指数海外组件废旧组件

基于反事实回报的多智能体深度强化学习方法、系统

863 编辑：管理员来源：北方有色网

2023-03-19 07:03:21

本发明属于学习算法领域，具体涉及一种基于反事实回报的多智能体深度强化学习方法、系统，旨在为了解决解决多智能体信誉分配问题。本发明方法包括：基于多智能体的运行环境，定义全局状态；基于局部观测量，通过预设的Q网络模型，获取各智能体对应的执行动作；获取各智能体对应的经验数据对，并增入经验池；从经验回放池中随机获取训练样本，训练并更新Q网络模型的权重；每隔设定的步长，将基于Q网络模型的权重更新目标Q网络模型；重复上述Q网络模型权重优化步骤，直至达到训练结束条件，获取最后一次权重更新的Q网络模型。本发明实现了完全合作多智能体间的信誉分配，进而实现了多智能体的协同决策，而且收敛快，效率高。

登录解锁全文

声明：

“基于反事实回报的多智能体深度强化学习方法、系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究，如用于商业用途，请联系该技术所有人。

我是此专利(论文)的发明人(作者)