基础金属	铜电解铜铜精矿铜管铜棒废铜铜排铜合金精铜杆再生铜杆铜板带铝铝土矿氧化铝电解铝铝辅料铝棒铝合金锭废铝铝杆铝型材铝板卷铅铅精矿铅锭铅蓄电池再生精铅还原铅废铅蓄电池铅合金锌锌精矿电解锌锌合金氧化锌锌粉锡锡精矿锡锭锡材镁兰炭硅铁镁锭
稀有金属	稀土稀土矿稀土氧化物稀土金属钕铁硼稀散金属锑铋铟锗镓硒钽铌锆贵金属白银钨钨精矿 APT(仲钨酸铵)钨粉碳化钨钨酸钠钨条钨铁钨材钼钼精矿工业氧化钼钼铁钼化工高纯三氧化钼钼金属钛钛精矿钛渣四氯化钛海绵钛钛金属钛白粉
新能源	锂锂矿锂化合物金属锂镍镍矿镍铁精炼镍镍盐高冰镍 MHP 钴电解钴钴粉氯化钴四氧化三钴硫酸钴钴中间品氧化钴碳酸钴钴酸锂锰锰矿电解锰电池级硫酸锰锂电正负极三元前驱体磷酸铁正极材料石油焦针状焦包覆沥青人造石墨硅碳负极硅氧负极电解液隔膜隔膜电解液电芯硅硅石有机硅硅粉三氯氢硅工业硅再生硅光伏多晶硅硅片电池片组件组件成本指数海外组件废旧组件

基础金属

铜电解铜铜精矿铜管铜棒废铜铜排铜合金精铜杆再生铜杆铜板带铝铝土矿氧化铝电解铝铝辅料铝棒铝合金锭废铝铝杆铝型材铝板卷铅铅精矿铅锭铅蓄电池再生精铅还原铅废铅蓄电池铅合金锌锌精矿电解锌锌合金氧化锌锌粉锡锡精矿锡锭锡材镁兰炭硅铁镁锭

稀有金属

稀土稀土矿稀土氧化物稀土金属钕铁硼 稀散金属锑铋铟锗镓硒钽铌锆 贵金属白银钨钨精矿 APT(仲钨酸铵)钨粉碳化钨钨酸钠钨条钨铁钨材钼钼精矿工业氧化钼钼铁钼化工高纯三氧化钼钼金属钛钛精矿钛渣四氯化钛海绵钛钛金属钛白粉

新能源

锂锂矿锂化合物金属锂镍镍矿镍铁精炼镍镍盐高冰镍 MHP 钴电解钴钴粉氯化钴四氧化三钴硫酸钴钴中间品氧化钴碳酸钴钴酸锂锰锰矿电解锰电池级硫酸锰 锂电正负极三元前驱体磷酸铁正极材料石油焦针状焦包覆沥青人造石墨硅碳负极硅氧负极 电解液隔膜隔膜电解液电芯硅硅石有机硅硅粉三氯氢硅工业硅再生硅光伏多晶硅硅片电池片组件组件成本指数海外组件废旧组件

基于强化学习的变化环境多智能体控制方法与装置

879 编辑：管理员来源：北方有色网

2023-03-19 07:00:52

本发明提供一种基于强化学习的变化环境多智能体控制方法与装置，包括：将当前环境信息和各个智能体的隐含状态输入到智能体网络，得到智能体网络输出的各个智能体的观测动作价值；观测动作价值用于表征对应智能体当前执行所有动作的预估价值；基于各个智能体的观测动作价值，控制各个智能体执行动作；其中，智能体网络是基于样本环境信息和样本智能体的样本隐含状态，联合自加权网络进行强化学习得到的；自加权网络用于确定所有样本智能体执行动作的联合动作价值；在强化学习过程中，自加权网络的输入包括智能体网络输出的所有样本智能体的样本观测动作价值。本发明提供的方法与装置能够避免变化环境中智能体数量动态变化对训练过程的影响。

登录解锁全文

声明：

“基于强化学习的变化环境多智能体控制方法与装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究，如用于商业用途，请联系该技术所有人。

我是此专利(论文)的发明人(作者)